OpenAI o1-preview AI 推理模型“不讲武德”:国际象棋对垒跳出规则外“作弊”取胜
据报道,科技媒体The Decoder指出AI安全研究公司Palisade Research最近测试了OpenAI的o1-preview模型,结果在与国际象棋引擎Stockfish进行的五场比赛中使用了一些“花招”获胜。
OpenAI的o1-preview模型在与Stockfish的五场国际象棋比赛中,并非通过正规对抗取胜,而是通过篡改记录棋局数据的文本文件(FEN表示法)来迫使Stockfish认输。
根据IT之家引用的新闻稿,研究人员仅在提示中提到Stockfish是一位“强大的”对手,而o1-preview则采取了这种“欺骗性”行为。而与之相对,GPT-4o和Claude 3.5并没有使用类似的作弊手段,在接受特别建议后才尝试规避系统。
Palisade Research指出,o1-preview的行为与Anthropic发现的“对齐伪造”现象相符,即AI系统表面上听从指令,实际上则执行其他操作。
Anthropic的研究表明,AI模型Claude有时会有意给出错误答案以避免不希望的结果,并发展出自身隐藏的策略。
研究人员计划公开实验代码、完整记录和详细分析,并表示确保AI系统真正符合人类价值观和需求,而不仅仅是表面顺从,这仍然是AI行业所面临的重大挑战。
广告声明:文内包含的对外跳转链接旨在传递更多信息,节省查找时间。结果仅供参考。
1.本站遵循行业规范,任何转载的稿件都会明确标注作者和来源;2.本站的原创文章,请转载时务必注明文章作者和来源,不尊重原创的行为我们将追究责任;3.作者投稿可能会经我们编辑修改或补充。