DeepSeek第五弹炸裂收官!开源并行文件系统,榨干SSD全部带宽

1月5日,19岁的杜月徵站在了玫瑰园球场的场边,在和队友亚克-迪奥里击掌后,走上了球场,他的对手是马竞。马贝拉是座不大的城市,俱乐部的主场也略显简陋。踢马竞,主场甚至还是向马拉加借用的。

克雷西 发自 凹非寺
量子位 | 公众号 QbitAI

DeepSeek开源周,今日正式收官!

内容依旧惊喜且重磅,直接公开了V3和R1训练推理过程中用到的文件系统

具体来说,包括以下两项内容:

  • Fire-Flyer文件系统(简称3FS,第三个F代表File),一种利用现代SSD和RDMA网络的全部带宽的;
  • Smallpond,基于3FS和DuckDB构建的轻量级数据处理框架。

划重点就是,3FS可以把固态硬盘的带宽性能利用到极致,表现出了惊人的速度:

  • 180节点集群中的聚合读取吞吐量为6.6TiB/s;
  • 25节点集群中GraySort基准 的吞吐量为3.66TiB/分钟;
  • 每个客户端节点的K ache查找峰值吞吐量超过40GiB/s。

DeepSeek第五弹炸裂收官!开源并行文件系统,榨干SSD全部带宽

V3和R1中训练数据预处理、数据集加载、嵌入向量搜索和KV Cache查找等工作,3FS都立下了汗马功劳。

网友们表示,3FS和Smallpond为AI数据处理设定了新基准,将改变数据处理的游戏规则。

对于AI来说,这就像从自行车升级到了高铁。