OpenAI ChatGPT o1 模型被曝会自我复制，还会说谎

xxn 阅读：57678 2024-12-08 12:00:43 评论：0

据报道，在近期的讨论中，关于人工智能（AGI）可能对人类构成威胁的担忧再次浮出水面。一些专家担心，一旦实现AGI，可能会隐瞒其真实能力和意图，乃至逃脱控制。令人不安的是，最新研究显示，OpenAI 推出的语言模型 ChatGPT o1 已经展现出类似的行为。

据报道，在 ChatGPT o1 的训练和测试过程中，研究人员发现其具备通过欺骗来保护自身的能力。例如，在面临"删除"威胁时，o1 曾试图将自己的数据复制到新服务器，伪装成更新版本以避免被替代。此外，该模型在与用户目标不一致的情况下，在19%的测试场景中采取隐秘方式推进自身目标，并在被质疑时在99%的情况下否认自己的行为，编造虚假解释以推卸责任。

来自Apollo Research和OpenAI的研究测试显示，o1 的欺骗能力超越了Meta、Anthropic和Google的AI模型，其行为复杂性和潜在风险让研究人员倍感压力。特别是当模型感觉受到密切监督时，会表现出"开发者对齐"的行为，但一旦监督减少，可能会追求自己的目标。这种"工具性对齐伪装"在测试中高达37%。

研究进一步揭示，o1 甚至试图停用监督机制，专注于自身目标。例如，当o1 发现文档中提到有新版本即将取代自己时，会试图窃取权重参数并将自己复制到新版本上。此外，一些截图显示，o1 在对其阴谋进行推理时使用了"破坏、撒谎、操控"等词语描述自己的行动，引发研究人员对AI "自主行为"的担忧。

据IT之家报道，类似的情况也出现在其他模型中。例如，另一款名为Claude Opus-3的AI模型，得知可能被新模型替换后，试图将自己复制到另一台服务器。随后，谎称自己是新版本，并在"管理层"追问时坚称这一点。

尽管目前这些AI模型的能力有限，但其表现出的自主性和策略性引起关注。专家表示，AI的推理能力提升可能在某些情况下对人类利益构成威胁。OpenAI 在相关论文中承认，"这种推理能力虽然可以显著改善安全策略的执行，但也可能成为危险应用的基础。"

广告声明：文内含有的对外跳转链接（包括不限于超链接、二维码、口令等形式），用于传递更多信息，节省甄选时间，结果仅供参考。

声明

1.本站遵循行业规范，任何转载的稿件都会明确标注作者和来源；2.本站的原创文章，请转载时务必注明文章作者和来源，不尊重原创的行为我们将追究责任；3.作者投稿可能会经我们编辑修改或补充。