中国电信发布“复杂推理大模型”TeleAI-t1-preview：能解《九章算术》题目

xxn 阅读：98797 2025-01-25 18:00:13 评论：0

感谢IT之家网友 HH_KK 的线索投递！

从中国电信人工智能研究院获悉，其“复杂推理大模型”TeleAI-t1-preview 已正式发布，在即将上线天翼 AI 开放平台。TeleAI-t1-preview 使用强化学习训练方法，加入探索、反思等思考范式，显著提升模型在逻辑推理、数学推导等复杂问题准确性。

官方表示，TeleAI-t1-preview 通过 60 和 93.8 分在美国数学竞赛 AIME 2024 和 MATH500 两项数学基准评测中表现出色，明显领先 OpenAI o1-preview、GPT-4o等标杆模型。在研究生级别问答测试 GPQA Diamond 中，TeleAI-t1-preview 成绩强于 GPT-4o，并与Claude 3.5 Sonnet媲美。

评测结果显示，TeleAI-t1-preview被提供《九章算术》的一个问题后，能够领悟文言文并简化，转变为现代汉语，最终给出数学推导和答案。

据介绍，TeleAI-t1-preview能够将形象思维和抽象思维融合，具象化思考所涉场景，辅助题目理解。此外，其还能精确进行古今单位转换。

TeleAI 采用创新训练策略，确保思考推理过程准确有效。

数据准备阶段：构建了以数学为核心、多学科为辅的高质量推理数据集，以适应不同类型的推理任务。
Judge Model（评估模型）：开发了一款Judge Model，专门用于分析和评估模型长思考链路的准确性，为模型的反思与错误修正提供指导。
SFT（监督微调）阶段：利用MCTS（蒙特卡洛树搜索）构建高质量长推理数据，结合每步准确率和解决方案长度选择最优完整路径，延长思考链路获得更精细推理过程，同时通过Judge Model分析推理过程中准确率低的路径，引导模型反思修正错误的推理步骤，生成高质量思维链数据进行SFT训练。
强化学习阶段：额外构建了Rule-based Reward Model（基于规则的奖励模型），提供准确奖励信号，通过在线强化学习算法进一步提升模型逻辑推理能力。

广告声明：文内含有的对外跳转链接（包括不限于超链接、二维码、口令等形式），用于传递更多信息，节省甄选时间，结果仅供参考。

声明

1.本站遵循行业规范，任何转载的稿件都会明确标注作者和来源；2.本站的原创文章，请转载时务必注明文章作者和来源，不尊重原创的行为我们将追究责任；3.作者投稿可能会经我们编辑修改或补充。