苹果、英伟达强强联手:LLM 推理加速利器 ReDrafter 开源,AI 性能提升 2.7 倍

xxn 阅读:61829 2024-12-19 08:00:38 评论:0

IT之家报道指出,苹果公司近日宣布与英伟达(Nvidia)合作,通过开源技术 Recurrent Drafter(ReDrafter)推测解码方法,极大提高了 AI 大语言模型(LLM)的推理速度。

据悉,苹果公司表示 ReDrafter 已整合到 NVIDIA TensorRT-LLM 推理加速框架中,对于 NVIDIA GPU 来说,每秒生成 tokens 的速度最高提升了 2.7 倍,有效缩短了用户延迟,节省了计算成本。

苹果的机器学习研究人员指出,LLM 在驱动生产应用程序中的应用正逐渐增加,优化推理效率对于降低计算成本和用户延迟至关重要。

据IT之家援引苹果官方博文报道,ReDrafter 使用了 RNN 草稿模型,结合了波束搜索(beam search)与动态树注意力(dynamic tree attention),这使得开源模型在每一步可以生成最多 3.5 个 tokens,超越了先前推测性解码技术的性能。

为了将 ReDrafter 应用到生产环境中,苹果与 NVIDIA 展开了合作,将其整合到 NVIDIA TensorRT-LLM 框架中。

英伟达为此添加了新的运算符并公开了现有运算符,增强了 TensorRT-LLM 对于复杂模型和解码方法的适应性。

基准测试结果显示,在 NVIDIA GPU 上使用整合了 ReDrafter 的 TensorRT-LLM 框架,数百亿参数规模的生产模型的解码速度提升了 2.7 倍。这不仅降低了用户体验延迟,还减少了 GPU 使用数量和功耗。

IT之家附上参考地址

广告声明:文内含有的对外跳转链接(包括不限于超链接、二维码、口令等形式),用于传递更多信息,节省甄选时间,结果仅供参考。

声明

1.本站遵循行业规范,任何转载的稿件都会明确标注作者和来源;2.本站的原创文章,请转载时务必注明文章作者和来源,不尊重原创的行为我们将追究责任;3.作者投稿可能会经我们编辑修改或补充。

搜索
排行榜
关注我们

扫一扫关注我们,了解最新精彩内容