语言游戏让 AI 自我进化，谷歌 DeepMind 推出苏格拉底式学习

xxn 阅读：54252 2024-12-17 14:01:46 评论：0

AI 自己也能进化吗？

这项研究引起了广泛关注，谷歌 DeepMind 探讨了没有外部数据时 AI 的进化可能性。

查看论文详情：https://arxiv.org/pdf/2411.16905

最新的「苏格拉底式学习」（Socratic Learning）方法能让 AI 系统自我增强，超越初始训练数据的限制。

研究人员指出，在封闭系统中训练的智能体只需满足三个条件即可掌握所需能力：

a）获得足够信息和一致反馈；
b）具备广泛的经验/数据覆盖；
c）具备足够的能力和资源。

论文探讨了在封闭系统中，a）和b）条件如何限制智能体，即使 c）不是问题。

苏格拉底式学习的核心是语言游戏，智能体通过语言互动、问题解决和得分反馈来增强能力。

在封闭系统环境中，AI 可以玩游戏、生成数据并自我改进，无需外部干预。若游戏变得枯燥，AI 亦可创造新游戏，提升抽象技能。

Socratic Learning 消除了固定架构限制，使 AI 表现可远超起始数据和知识，并且只受时间约束。

走向真正自主的 AI

考虑一个随时间演变的封闭系统（无输入、无输出），如下图。

系统内存在一个智能体（agent），随时间变化并具有输入和输出。外部观察者负责评估智能体性能。

由于系统封闭，外部评估无法反馈。因此，智能体的学习需依赖内部反馈，如损失、奖励、偏好数据或批评者。

智能体需输出影响未来输入，自我改进，若输入输出空间一致，则自我提升可递归。

典型的自我提升例子是自我博弈，智能体在生成无限体验流作为游戏双方，并获得胜利反馈，引导学习。

反馈是关键，AI 实际表现相对外部观察者定义，但封闭系统内反馈仅来自智能体。

系统应挑战是确保内部和外部反馈一致。

在此情况下的自我矫正需要能评估语言的机构，保持整个过程一致性。

苏格拉底式学习

与一般情况下输出仅影响输入分布不同，递归自我提升更具限制性。这种递归是开放过程的属性，而开放改进正是 ASI 的核心。

例如，语言是一个输入和输出空间兼容案例，探讨对于人类广泛行为的影响。

语言具有可扩展性，新语言可在现有基础开发，如自然语言衍生的数学或编程语言。

本文研究智能体在语言空间中递归自我提升过程。苏格拉底式学习模仿苏格拉底通过提问、对话和语言互动寻找知识的方法。

苏格拉底没有从外界收集观察结果，符合封闭系统概念。

限制

苏格拉底式学习中，覆盖率和反馈是不可简化的必要条件。

若计算和内存持续增长，规模限制只是暂时问题。即使资源受限，苏格拉底式学习可能带来有效见解。

系统需持续产生数据，保持多样性是重要的。

在递归过程中避免数据不足广泛是挑战。

系统需持续产生智能体输出的反馈，需要评估语言的机构，保持一致。

AI 反馈需通用机制，应对输入分布变化。

目前 LLM 训练无法应用于苏格拉底式学习反馈。例如，下一个标记预测损失不一致且无法推断训练外情况。

人类偏好是一致的，但无法在封闭系统学习中使用。将人类偏好纳入奖励模型，可能导致错误。

苏格拉底式学习纯粹可能，需强大批评者生成数据。若条件达成，方法性能仅受计算资源限制。

唯有语言游戏

语言、学习和基础是充分探讨，哲学家 Wittgenstein 提出有用的「语言游戏」概念。

意义由语言互动捕捉而非文字。

语言游戏是交互协议，规则指定交互智能体、语言输入和输出，以及游戏结束评分函数。

语言游戏解决了苏格拉底式学习数据生成和反馈问题。

游戏是学习的入口，人类对游戏技能有深厚记录。

常见 LLM 交互也可视为语言游戏，如辩论、角色扮演、心智理论、谈判、防御策略，或强化学习的外部反馈。

Wittgenstein 认为语言无单一本质或功能。

多狭义但明确定义的语言游戏可设计可靠分数函数，相较通用游戏困难。

苏格拉底式学习是元游戏，安排智能体玩和学习语言游戏。

苏格拉底因「腐蚀青年」而被判死刑，这表明苏格拉底过程可能不符外部观察者意图。

游戏不需先验评估，可事后判断有无用，异常检测比预防容易。

长期思考改进可能产生何种文化产品、知识、智慧？

广告声明：文内含有的对外跳转链接（包括不限于超链接、二维码、口令等形式），用于传递更多信息，节省甄选时间，结果仅供参考。

声明

1.本站遵循行业规范，任何转载的稿件都会明确标注作者和来源；2.本站的原创文章，请转载时务必注明文章作者和来源，不尊重原创的行为我们将追究责任；3.作者投稿可能会经我们编辑修改或补充。