全球 AI 算力报告出炉:LLM 最爱 A100,谷歌坐拥超 100 万 H100 等效算力

xxn 阅读:86551 2025-02-15 14:00:45 评论:0

全球AI算力究竟有多大?增长速度如何?新型AI「淘金热」中涌现了哪些创新工具?Epoch AI发布了最新的全球硬件估算报告。

AI的核心是机器学习硬件,包括GPU和TPU等。

根据不完全统计,全球目前有超过140种AI加速器,用于开发和部署深度学习时代的机器学习模型。

Epoch AI发布了全球算力估算报告,通过公开信息估算了全球机器学习硬件的现状和发展趋势。

除了传统的GPU,各种新型硬件加速卡不断涌现,全球算力持续飙升。

2008年至2024年全球机器学习硬件计算能力的示意图

除了GPU,硬件种类也愈加丰富。比如,專門处理张量计算的TPU(Tensor Processing Unit)开始崭露头角。

报告的主要结论总结如下:

  • 每年总量增长43%,价格下降30%。

  • 低精度计算成为主流。

  • 顶级硬件效能每1.9年翻一番。

  • 八年间,训练大型模型所需处理器数量增加了20多倍。

  • 全球NVIDIA支持的计算能力平均每10个月翻一番。

  • 关键发现:ML硬件的「摩尔定律」

    ML硬件每年增长43%

    以16位浮点运算为基准,机器学习硬件的性能每年增长43%,约每1.9年翻一番。32位性能也呈类似趋势。

    优化机器学习数字格式和张量核心提供了额外改进。

    推动因素还包括晶体管数量增加和其他半导体制造技术的进步,针对AI工作负载的专门设计。这些改进降低每FLOP成本,提高能源效率,实现大规模AI训练。

    机器学习硬件在不同精度下的峰值计算性能

    性价比每年提升30%

    每美元性能快速提升,任何给定精度和固定性能水平的硬件每年都会便宜30%。同时,制造商不断推出更强大、更昂贵的硬件。

    单位时间单位价格下的FLOP

    低精度格式成为趋势

    使用经过AI优化的张量核心和数据格式时,GPU通常更快速。

    与使用非张量FP32相比,TF32、张量FP16和张量INT8在整体性能上平均提供约6倍、10倍和12倍性能提升。

    一些芯片甚至实现更大加速。例如,H100在INT8时的速度比在FP32时快59倍。

    这些改进大约占整体性能趋势改进的一半。随着开发人员利用此类性能提升,使用更低精度格式(尤其是张量FP16)训练的模型已变得常见。

    能效每1.9年翻一番

    依据历史数据,顶级GPU和TPU的能效每1.9年翻一番。

    以tensor-FP16格式为例,效率最高的加速器是Meta的MTIA(每瓦高达2.1x10^12FLOP/s)和NVIDIA H100(每瓦高达1.4x10^12FLOP/s)。即将推出的Blackwell系列处理器可能会更有效,具体取决于功耗。

    各模型各有所爱

    根据Epoch的数据集,NVIDIA A100是用于高引用或先进人工智能模型的最常用硬件,自发布以来已应用于65个知名ML模型。

    其次是NVIDIA V100,用于训练55个知名模型,接下来是Google的TPU v3,用于47个。

    然而,预计到2023年底,NVIDIA H100的销量已超过A100,故它可能很快成为训练模型最受欢迎的GPU。

    不同加速器训练的知名模型数量

    2019年至今,不同领域的大型模型训练所需算力对比

    训练集群规模快速增长

    用于训练大型语言模型(LLMs)的处理器数量显著增长。

    • Google NASv3 RL网络(2016):使用了800个GPU进行训练。

    • Meta Llama 3.1 405B(2024):使用了16,384个H100 GPU进行训练。

    这意味着在短短的八年内,训练大型模型所需处理器数量增加了20多倍。

    四大「算力帝国」?

    谷歌、微软、Meta和亚马逊拥有相当于数十万个NVIDIA H100的AI算力。

    这些计算资源既用于内部AI开发,也供应云客户,包括许多顶尖AI研究实验室,如OpenAI和Anthropic。

    谷歌可能拥有相当于超过一百万个H100的计算能力,主要源自其TPU。

    微软的NVIDIA加速器库存可能是最大的,约为50万个H100的等效数量。

    许多AI计算能力由这四家公司外的集团共有,包括其他云公司如Oracle和CoreWeave,计算用户如特斯拉和xAI,以及各国政府。

    介绍谷歌、微软、Meta和亚马逊的重点在于,它们可能拥有最大的计算能力,而其他公司的数据公开较少。

    初步研究表明,到2024年中,谷歌TPU的总算力约为NVIDIA芯片的30%。

    NVIDIA每年不断增长

    自2019年以来,NVIDIA芯片的总计算能力每年增长2.3倍,使其能够训练更大的模型。

    换句话说,全球NVIDIA的计算能力每10个月平均翻一番。

    Hopper代的NVIDIA AI芯片目前占其所有AI硬件总计算能力的77%。按照此增长速度,旧芯片型号在推出后大约4年左右,对累计计算量的贡献通常低于一半。

    请注意,此分析不包括TPU或其他专用AI加速器,因为此类数据较少。TPU可能提供与NVIDIA芯片相当的总计算能力。

    根据芯片型号分解,当前大约77%的NVIDIA FLOP/s来自Hopper代的GPU,如H100。

    目前,NVIDIA GPU可提供4e21 FLOP/s的计算能力,约相当于400万个H100。

    注意:这些估算基于NVIDIA的声明文件,并假定不同时代芯片的分布按照时间变化与AI集群数据集中的模式相同。

    NVIDIA 23-24年季度财报

    此外,报告发现,自2019年以来,计算能力的累积总和(考虑折旧)每年增长2.3倍。

    但仅考虑数据中心的销售额,忽略NVIDIA声明中「游戏」销售额带来的计算能力。

    公开数据集

    Epoch同时公布了机器学习硬件数据集和数据分析源代码。

    https://epoch.ai/data/machine-learning-hardware-documentation#overview

    详细的数据分析流程,请参阅下面的NoteBook。

    https://colab.research.google.com/drive/1gbbrKDKFjghUPmH-aSI9ACtb1Iuwg-cR?usp=sharing

    参考资料:

    • https://epoch.ai/data/machine-learning-hardware

    本文来自微信公众号:新智元(ID:AI_era)

广告声明:文内含有的对外跳转链接(包括不限于超链接、二维码、口令等形式),用于传递更多信息,节省甄选时间,结果仅供参考。

声明

1.本站遵循行业规范,任何转载的稿件都会明确标注作者和来源;2.本站的原创文章,请转载时务必注明文章作者和来源,不尊重原创的行为我们将追究责任;3.作者投稿可能会经我们编辑修改或补充。

搜索
排行榜
关注我们

扫一扫关注我们,了解最新精彩内容