Kimi 发布视觉思考模型 k1:试题拍照给出答题思考全过程
IT之家最新报道指出,月之暗面 Kimi于当日发布了一款名为k1的视觉思考模型。这一模型应用了强化学习技术,原生支持端到端图像理解和思维链技术,同时还能够将应用范围拓展至数学以外更多的基础科学领域。
月之暗面官方表示,初代k1模型在数学、物理、化学等基础科学学科的基准能力测试中表现出色,超过了OpenAI o1、GPT-4o以及Claude 3.5 Sonnet。
据IT之家获悉,Kimi最新模型已上线。k1视觉思考模型已经陆续推出最新版本的「Kimi智能助手」Android和iPhone手机应用,以及网页版kimi.com。用户可以在最新版本的手机应用或网页版Kimi+页面找到「Kimi视觉思考版」,从而体验拍照或传图功能。
「Kimi视觉思考版」能够全面展示推理思维链CoT,让用户不仅看到答案,还能够完整了解模型思考答案的全过程。
从模型训练的角度来看,k1视觉思考模型的训练分为两个阶段,首先进行预训练以获得基础模型,然后再经过强化学习进行训练。k1的基础模型重点优化了字符识别能力,在OCRBench上达到903分(state-of-the-art)的成绩,在MathVista-testmini、MMMU-val和DocVQA基准测试集上的得分分别为69.1、66.7和96.9。
月之暗面表示,k1在强化学习后的训练过程中,进一步优化了数据质量和学习效率,在强化学习规模化(scaling)方面取得了新的突破。
此外,科学模型能力的基准测试方案是大型模型行业面临的重要挑战之一。鉴于目前市场缺乏针对基础科学学科的图像测试集,Kimi模型的研发团队自行构建了一个标准化测试集Science Vista,该测试集包含了不同难度的数学和化学图片题目,且与实际用户需求相匹配。该测试集将向全行业开放,用户可在许可范围内使用。
内部测试中,月之暗面也发现了k1视觉思考模型存在一些局限性,例如在分布外(out-of-distribution)的概括能力、在更复杂问题上的成功率、在更多噪声场景下的准确率以及多轮问答效果等方面都有进一步提升的空间。在某些情况和泛化能力方面,k1与OpenAI的o1系列模型相比仍有差距。
广告声明:文内包含对外跳转链接(涵盖超链接、二维码、口令等形式),用于传递更多信息,减少筛选时间,结果仅供参考。
1.本站遵循行业规范,任何转载的稿件都会明确标注作者和来源;2.本站的原创文章,请转载时务必注明文章作者和来源,不尊重原创的行为我们将追究责任;3.作者投稿可能会经我们编辑修改或补充。