语言游戏让 AI 自我进化,谷歌 DeepMind 推出苏格拉底式学习
AI 自己也能进化吗?
这项研究引起了广泛关注,谷歌 DeepMind 探讨了没有外部数据时 AI 的进化可能性。
查看论文详情:https://arxiv.org/pdf/2411.16905
最新的「苏格拉底式学习」(Socratic Learning)方法能让 AI 系统自我增强,超越初始训练数据的限制。
研究人员指出,在封闭系统中训练的智能体只需满足三个条件即可掌握所需能力:
a)获得足够信息和一致反馈;
b)具备广泛的经验/数据覆盖;
c)具备足够的能力和资源。
论文探讨了在封闭系统中,a)和b)条件如何限制智能体,即使 c)不是问题。
苏格拉底式学习的核心是语言游戏,智能体通过语言互动、问题解决和得分反馈来增强能力。
在封闭系统环境中,AI 可以玩游戏、生成数据并自我改进,无需外部干预。若游戏变得枯燥,AI 亦可创造新游戏,提升抽象技能。
Socratic Learning 消除了固定架构限制,使 AI 表现可远超起始数据和知识,并且只受时间约束。
走向真正自主的 AI
考虑一个随时间演变的封闭系统(无输入、无输出),如下图。
系统内存在一个智能体(agent),随时间变化并具有输入和输出。外部观察者负责评估智能体性能。
由于系统封闭,外部评估无法反馈。因此,智能体的学习需依赖内部反馈,如损失、奖励、偏好数据或批评者。
智能体需输出影响未来输入,自我改进,若输入输出空间一致,则自我提升可递归。
典型的自我提升例子是自我博弈,智能体在生成无限体验流作为游戏双方,并获得胜利反馈,引导学习。
反馈是关键,AI 实际表现相对外部观察者定义,但封闭系统内反馈仅来自智能体。
系统应挑战是确保内部和外部反馈一致。
在此情况下的自我矫正需要能评估语言的机构,保持整个过程一致性。
苏格拉底式学习
与一般情况下输出仅影响输入分布不同,递归自我提升更具限制性。这种递归是开放过程的属性,而开放改进正是 ASI 的核心。
例如,语言是一个输入和输出空间兼容案例,探讨对于人类广泛行为的影响。
语言具有可扩展性,新语言可在现有基础开发,如自然语言衍生的数学或编程语言。
本文研究智能体在语言空间中递归自我提升过程。苏格拉底式学习模仿苏格拉底通过提问、对话和语言互动寻找知识的方法。
苏格拉底没有从外界收集观察结果,符合封闭系统概念。
限制
苏格拉底式学习中,覆盖率和反馈是不可简化的必要条件。
若计算和内存持续增长,规模限制只是暂时问题。即使资源受限,苏格拉底式学习可能带来有效见解。
系统需持续产生数据,保持多样性是重要的。
在递归过程中避免数据不足广泛是挑战。
系统需持续产生智能体输出的反馈,需要评估语言的机构,保持一致。
AI 反馈需通用机制,应对输入分布变化。
目前 LLM 训练无法应用于苏格拉底式学习反馈。例如,下一个标记预测损失不一致且无法推断训练外情况。
人类偏好是一致的,但无法在封闭系统学习中使用。将人类偏好纳入奖励模型,可能导致错误。
苏格拉底式学习纯粹可能,需强大批评者生成数据。若条件达成,方法性能仅受计算资源限制。
唯有语言游戏
语言、学习和基础是充分探讨,哲学家 Wittgenstein 提出有用的「语言游戏」概念。
意义由语言互动捕捉而非文字。
语言游戏是交互协议,规则指定交互智能体、语言输入和输出,以及游戏结束评分函数。
语言游戏解决了苏格拉底式学习数据生成和反馈问题。
游戏是学习的入口,人类对游戏技能有深厚记录。
常见 LLM 交互也可视为语言游戏,如辩论、角色扮演、心智理论、谈判、防御策略,或强化学习的外部反馈。
Wittgenstein 认为语言无单一本质或功能。
多狭义但明确定义的语言游戏可设计可靠分数函数,相较通用游戏困难。
苏格拉底式学习是元游戏,安排智能体玩和学习语言游戏。
苏格拉底因「腐蚀青年」而被判死刑,这表明苏格拉底过程可能不符外部观察者意图。
游戏不需先验评估,可事后判断有无用,异常检测比预防容易。
长期思考改进可能产生何种文化产品、知识、智慧?
广告声明:文内含有的对外跳转链接(包括不限于超链接、二维码、口令等形式),用于传递更多信息,节省甄选时间,结果仅供参考。
1.本站遵循行业规范,任何转载的稿件都会明确标注作者和来源;2.本站的原创文章,请转载时务必注明文章作者和来源,不尊重原创的行为我们将追究责任;3.作者投稿可能会经我们编辑修改或补充。