中国电信发布“复杂推理大模型”TeleAI-t1-preview:能解《九章算术》题目

xxn 阅读:98797 2025-01-25 18:00:13 评论:0
感谢IT之家网友 HH_KK 的线索投递!

从中国电信人工智能研究院获悉,其“复杂推理大模型”TeleAI-t1-preview 已正式发布,在即将上线天翼 AI 开放平台。TeleAI-t1-preview 使用强化学习训练方法,加入探索、反思等思考范式,显著提升模型在逻辑推理、数学推导等复杂问题准确性。

官方表示,TeleAI-t1-preview 通过 60 和 93.8 分在美国数学竞赛 AIME 2024 和 MATH500 两项数学基准评测中表现出色,明显领先 OpenAI o1-preview、GPT-4o等标杆模型。在研究生级别问答测试 GPQA Diamond 中,TeleAI-t1-preview 成绩强于 GPT-4o,并与Claude 3.5 Sonnet媲美。

评测结果显示,TeleAI-t1-preview被提供《九章算术》的一个问题后,能够领悟文言文并简化,转变为现代汉语,最终给出数学推导和答案。

据介绍,TeleAI-t1-preview能够将形象思维和抽象思维融合,具象化思考所涉场景,辅助题目理解。此外,其还能精确进行古今单位转换。

TeleAI 采用创新训练策略,确保思考推理过程准确有效。

  • 数据准备阶段:构建了以数学为核心、多学科为辅的高质量推理数据集,以适应不同类型的推理任务。

  • Judge Model(评估模型):开发了一款Judge Model,专门用于分析和评估模型长思考链路的准确性,为模型的反思与错误修正提供指导。

  • SFT(监督微调)阶段:利用MCTS(蒙特卡洛树搜索)构建高质量长推理数据,结合每步准确率和解决方案长度选择最优完整路径,延长思考链路获得更精细推理过程,同时通过Judge Model分析推理过程中准确率低的路径,引导模型反思修正错误的推理步骤,生成高质量思维链数据进行SFT训练。

  • 强化学习阶段:额外构建了Rule-based Reward Model(基于规则的奖励模型),提供准确奖励信号,通过在线强化学习算法进一步提升模型逻辑推理能力。

广告声明:文内含有的对外跳转链接(包括不限于超链接、二维码、口令等形式),用于传递更多信息,节省甄选时间,结果仅供参考。

声明

1.本站遵循行业规范,任何转载的稿件都会明确标注作者和来源;2.本站的原创文章,请转载时务必注明文章作者和来源,不尊重原创的行为我们将追究责任;3.作者投稿可能会经我们编辑修改或补充。

搜索
排行榜
关注我们

扫一扫关注我们,了解最新精彩内容