OpenAI 展示GPT-2控制GPT-4,揭示超级智能AI的新篇章
OpenAI致力于超级智能AI的安全管理,取得了阶段性成果。新的研究报告揭示了较弱AI模型如何引导更智能AI模型的行为,这是对未来人类与比自己更智能的AI系统协同合作的预见。尽管相关技术尚未超越人类的灵活性,但这个场景为未来可能出现的挑战提供了有价值的参考。
OpenAI的研究人员正在测试一种方法,使较弱的AI模型能够指导更强大的AI模型的行为。这种方法的核心是监督过程,用于调整大型语言模型,使其更有帮助、减少危害。目前,这包括人类对AI系统提供反馈,但随着AI的进步,研究人员正在探索如何自动化这个过程。
研究人员表示,驯服潜在超人类AI的重要第一步是鼓舞人心的。他们承认,目前无法确定在精心设计的实验中有效的想法是否会在未来实用,但他们强调这是进一步研究的起点。
OpenAI并不是第一次尝试使用今天的AI技术测试可能帮助驯服未来AI系统的技术。然而,所谓的AI对齐实验也引发了关于控制系统可信度的问题。新OpenAI技术的核心依赖于更强大的AI系统自己决定可以忽略较弱系统的哪些指导,这可能会导致它忽略未来可能防止其不安全行为的信息。为了使这样的系统有用,需要在对齐方面取得进展。研究人员表示,最终需要非常高度的信任。同时,他们也承认目前存在的教导AI行为的方法是否是前进的道路尚不清楚,因为它们到目前为止未能使当前模型可靠地行为。
尽管存在这些挑战,但OpenAI仍然致力于推进这一领域的研究。该公司计划与外部研究人员合作,提供资金支持,并举办关于超级对齐的会议。这些举措旨在促进包括弱对强监督、高级模型的可解释性以及加强模型抵御旨在破坏其限制的提示等主题的进一步发展。
ai工具箱
ai导航
免费aigc导航
aigc工具
免费ai工具