苹果、英伟达强强联手：LLM 推理加速利器 ReDrafter 开源，AI 性能提升 2.7 倍

xxn 阅读：61829 2024-12-19 08:00:38 评论：0

IT之家报道指出，苹果公司近日宣布与英伟达（Nvidia）合作，通过开源技术 Recurrent Drafter（ReDrafter）推测解码方法，极大提高了 AI 大语言模型（LLM）的推理速度。

据悉，苹果公司表示 ReDrafter 已整合到 NVIDIA TensorRT-LLM 推理加速框架中，对于 NVIDIA GPU 来说，每秒生成 tokens 的速度最高提升了 2.7 倍，有效缩短了用户延迟，节省了计算成本。

苹果的机器学习研究人员指出，LLM 在驱动生产应用程序中的应用正逐渐增加，优化推理效率对于降低计算成本和用户延迟至关重要。

据IT之家援引苹果官方博文报道，ReDrafter 使用了 RNN 草稿模型，结合了波束搜索（beam search）与动态树注意力（dynamic tree attention），这使得开源模型在每一步可以生成最多 3.5 个 tokens，超越了先前推测性解码技术的性能。

为了将 ReDrafter 应用到生产环境中，苹果与 NVIDIA 展开了合作，将其整合到 NVIDIA TensorRT-LLM 框架中。

英伟达为此添加了新的运算符并公开了现有运算符，增强了 TensorRT-LLM 对于复杂模型和解码方法的适应性。

基准测试结果显示，在 NVIDIA GPU 上使用整合了 ReDrafter 的 TensorRT-LLM 框架，数百亿参数规模的生产模型的解码速度提升了 2.7 倍。这不仅降低了用户体验延迟，还减少了 GPU 使用数量和功耗。

IT之家附上参考地址

广告声明：文内含有的对外跳转链接（包括不限于超链接、二维码、口令等形式），用于传递更多信息，节省甄选时间，结果仅供参考。

声明

1.本站遵循行业规范，任何转载的稿件都会明确标注作者和来源；2.本站的原创文章，请转载时务必注明文章作者和来源，不尊重原创的行为我们将追究责任；3.作者投稿可能会经我们编辑修改或补充。