Hugging Face 研究“AI 降本增效”:给予更长运算时间让低成本小模型输出比拟大模型准确结果
xxn
阅读:31558
2024-12-29 18:01:33
评论:0
近日,业界普遍认为模型性能与训练期间的资源投入密切相关。尽管大型厂商纷纷注资训练模型,但许多小型企业和个人开发者却面临资源匮乏的困境。为解决这一难题,不少团队开始寻找低成本、高效率的替代方案。
Hugging Face 在本月中旬发布了一份报告,首次提出了“扩展测试时计算(Test-Time Compute Scaling)”方法。简言之,该方法通过为“低成本小模型”提供充足时间,使其能够应对复杂问题并生成大量结果。随后,利用验证器对这些结果进行检测和修正,反复输出能够与“高成本大模型”媲美的结果。
据 Hugging Face 团队介绍,他们利用这一方法对拥有 10 亿参数的 Llama 模型进行了数学基准测试。在某些情境下,该方法竟然超越了参数高达 70 亿的大型模型,为时间提升模型输出效果的方法提供了可行性依据。
此外,谷歌旗下的 DeepMind 最近也披露了一项类似的研究成果。他们认为,可以为小型模型动态分配计算资源,并设计验证器来评估模型的解答结果,从而引导模型输出正确答案,帮助企业用较少资源部署高精度语言模型。
广告声明:本文包含一些外部链接,旨在传递更多相关信息,帮助节省时间,但仅供参考。
声明
1.本站遵循行业规范,任何转载的稿件都会明确标注作者和来源;2.本站的原创文章,请转载时务必注明文章作者和来源,不尊重原创的行为我们将追究责任;3.作者投稿可能会经我们编辑修改或补充。