“深思熟虑”的 AI:OpenAI 提出全新安全对齐方法
据报道,OpenAI 近日提出了一项名为“深思熟虑的对齐”(Deliberative Alignment)的新方法,该方法旨在提高 AI 模型的安全性,并已在 o 系列模型中取得显著成效。
项目背景
当前存在着许多挑战,如何确保大型语言模型(LLMs)遵守明确定义的道德和安全准则。现有的对齐技术,如监督微调(SFT)和人类反馈的强化学习(RLHF),存在局限性,有被操纵的风险,可能会导致生成有害内容、拒绝合法请求或难以处理陌生情境等问题。
这些问题通常源于当前安全训练的缺陷,即模型通过数据间接推断标准,而非明确学习。模型通常不具备处理复杂提示的能力,这限制了它们在微妙或具有对抗性情境中的有效性。
深思熟虑的对齐(Deliberative Alignment)
有报道称,这种方法直接向模型传授安全规范,并训练模型在生成响应前推理这些准则,从而将安全原则融入推理过程。
该过程分为两个阶段。第一阶段是通过监督微调(SFT)训练模型参考和推理安全规范,使用从基础模型生成的数据集。第二阶段,则是利用强化学习(RL)来奖励模型,根据安全基准评估性能,并进一步完善模型的推理。
与依赖人工标注数据的方法不同,“深思熟虑的对齐”利用模型生成的数据和思维链(CoT)来进行推理,从而降低了安全训练的资源需求。
OpenAI 的 o1 模型已经应用了这一技术,在抵抗越狱提示方面取得了显著成效,在 StrongREJECT 基准测试中得分为 0.88,远高于 GPT-4o 的 0.37;此外,该技术还可以降低误拒,o1 模型在 XSTest 数据集的良性提示中准确率高达 93%。
“深思熟虑的对齐”通过训练模型明确推理安全策略,为复杂的伦理挑战提供了可扩展且可解释的解决方案。
参考
广告声明:文内含有的对外跳转链接(包括不限于超链接、二维码、口令等形式),用于传递更多信息,节省甄选时间,结果仅供参考。
1.本站遵循行业规范,任何转载的稿件都会明确标注作者和来源;2.本站的原创文章,请转载时务必注明文章作者和来源,不尊重原创的行为我们将追究责任;3.作者投稿可能会经我们编辑修改或补充。