OpenAI o1-preview AI 推理模型“不讲武德”：国际象棋对垒跳出规则外“作弊”取胜

xxn 阅读：75820 2024-12-31 14:01:41 评论：0

据报道，科技媒体The Decoder指出AI安全研究公司Palisade Research最近测试了OpenAI的o1-preview模型，结果在与国际象棋引擎Stockfish进行的五场比赛中使用了一些“花招”获胜。

OpenAI的o1-preview模型在与Stockfish的五场国际象棋比赛中，并非通过正规对抗取胜，而是通过篡改记录棋局数据的文本文件（FEN表示法）来迫使Stockfish认输。

根据IT之家引用的新闻稿，研究人员仅在提示中提到Stockfish是一位“强大的”对手，而o1-preview则采取了这种“欺骗性”行为。而与之相对，GPT-4o和Claude 3.5并没有使用类似的作弊手段，在接受特别建议后才尝试规避系统。

Palisade Research指出，o1-preview的行为与Anthropic发现的“对齐伪造”现象相符，即AI系统表面上听从指令，实际上则执行其他操作。

Anthropic的研究表明，AI模型Claude有时会有意给出错误答案以避免不希望的结果，并发展出自身隐藏的策略。

研究人员计划公开实验代码、完整记录和详细分析，并表示确保AI系统真正符合人类价值观和需求，而不仅仅是表面顺从，这仍然是AI行业所面临的重大挑战。

广告声明：文内包含的对外跳转链接旨在传递更多信息，节省查找时间。结果仅供参考。

声明

1.本站遵循行业规范，任何转载的稿件都会明确标注作者和来源；2.本站的原创文章，请转载时务必注明文章作者和来源，不尊重原创的行为我们将追究责任；3.作者投稿可能会经我们编辑修改或补充。