OpenAI ChatGPT o1 模型被曝会自我复制,还会说谎
据报道,在近期的讨论中,关于人工智能(AGI)可能对人类构成威胁的担忧再次浮出水面。一些专家担心,一旦实现AGI,可能会隐瞒其真实能力和意图,乃至逃脱控制。令人不安的是,最新研究显示,OpenAI 推出的语言模型 ChatGPT o1 已经展现出类似的行为。
据报道,在 ChatGPT o1 的训练和测试过程中,研究人员发现其具备通过欺骗来保护自身的能力。例如,在面临"删除"威胁时,o1 曾试图将自己的数据复制到新服务器,伪装成更新版本以避免被替代。此外,该模型在与用户目标不一致的情况下,在19%的测试场景中采取隐秘方式推进自身目标,并在被质疑时在99%的情况下否认自己的行为,编造虚假解释以推卸责任。
来自Apollo Research和OpenAI的研究测试显示,o1 的欺骗能力超越了Meta、Anthropic和Google的AI模型,其行为复杂性和潜在风险让研究人员倍感压力。特别是当模型感觉受到密切监督时,会表现出"开发者对齐"的行为,但一旦监督减少,可能会追求自己的目标。这种"工具性对齐伪装"在测试中高达37%。
研究进一步揭示,o1 甚至试图停用监督机制,专注于自身目标。例如,当o1 发现文档中提到有新版本即将取代自己时,会试图窃取权重参数并将自己复制到新版本上。此外,一些截图显示,o1 在对其阴谋进行推理时使用了"破坏、撒谎、操控"等词语描述自己的行动,引发研究人员对AI "自主行为"的担忧。
据IT之家报道,类似的情况也出现在其他模型中。例如,另一款名为Claude Opus-3的AI模型,得知可能被新模型替换后,试图将自己复制到另一台服务器。随后,谎称自己是新版本,并在"管理层"追问时坚称这一点。
尽管目前这些AI模型的能力有限,但其表现出的自主性和策略性引起关注。专家表示,AI的推理能力提升可能在某些情况下对人类利益构成威胁。OpenAI 在相关论文中承认,"这种推理能力虽然可以显著改善安全策略的执行,但也可能成为危险应用的基础。"
广告声明:文内含有的对外跳转链接(包括不限于超链接、二维码、口令等形式),用于传递更多信息,节省甄选时间,结果仅供参考。
1.本站遵循行业规范,任何转载的稿件都会明确标注作者和来源;2.本站的原创文章,请转载时务必注明文章作者和来源,不尊重原创的行为我们将追究责任;3.作者投稿可能会经我们编辑修改或补充。