DeepSeek 开源进度 5/5:高性能并行文件系统 3FS 实现聚合吞吐 6.6 TiB/s

xxn 阅读:2154 2025-02-28 10:03:23 评论:0

IT之家 2 月 28 日报道,DeepSeek 在开源周的第五天推出了 3FS(Fire-Flyer File System),这是一个专门为现代 SSD 和 RDMA 网络带宽优化而设计的并行文件系统,展现出卓越的数据访问性能,极大地推动了深度学习等数据密集型应用的发展。

IT之家提供开源链接:https://github.com/deepseek-ai/3FS

此外,基于 3FS 的数据处理框架 Smallpond 可在此访问:https://github.com/deepseek-ai/smallpond

3FS 性能特色

  • 卓越集群吞吐: 在由 180 个节点构成的集群中,3FS 达到了高达 6.6 TiB/s 的聚合读取吞吐量。

  • 展现出色的基准测试结果:在 25 个节点进行的 GraySort 基准测试中,3FS 的吞吐量达到 3.66 TiB / min。

  • 单节点表现优异:每个客户端节点的 KVCache 查找峰值吞吐量超过 40 GiB/s。

  • 领先架构设计: 3FS 采用去中心化架构,并且具有强一致性的语义。

3FS 适用场景

3FS(Fire-Flyer File System)是一款高效的分布式文件系统,旨在应对 AI 训练和推理任务的挑战,利用现代的 SSD 和 RDMA 网络实现共享存储,简化了分布式应用开发的过程。

它的核心特点为高性能、强一致性与用户友好性,能够有效支持多样化的 AI 工作负载,包括数据准备、加载、检查点设定和推理缓存等功能。

在 DeepSeek 的 V3 / R1 版本中,3FS 被广泛用于数据处理的各个环节,包括训练数据预处理、数据集加载、检查点的保存与恢复、嵌入向量的搜索,以及推理过程中的 KVCache 查找等。

Smallpond 框架

同时,DeepSeek 还推出了基于 3FS 的数据处理框架 Smallpond,这是一款构建于 DuckDB 和 3FS 之上的轻量级处理框架。它具备高效的数据处理能力,支持扩展到 PB 级的数据集,且操作简洁,不需要长期运行的服务。

相关阅读:

广告声明:文中包含的外部跳转链接(包括不限于超链接、二维码、口令等),旨在提供更多信息及优化时间,结果仅供参考。

声明

1.本站遵循行业规范,任何转载的稿件都会明确标注作者和来源;2.本站的原创文章,请转载时务必注明文章作者和来源,不尊重原创的行为我们将追究责任;3.作者投稿可能会经我们编辑修改或补充。

搜索
排行榜
关注我们

扫一扫关注我们,了解最新精彩内容