DeepSeek開源第五彈:全新並行文件系統3FS代碼庫 PB級別數據也能輕鬆處理

鉅亨網新聞中心
(圖:REUTERS/TPG)
Tag

DeepSeek 在其開源週的最後一天,隆重推出了兩款顛覆性的資料處理工具:Fire-Flyer File System (3FS) 和 Smallpond。這兩款工具以其卓越的效能和極高的吞吐量,能夠輕鬆處理 PB 級的數據,標誌著數據處理技術的一個新里程碑。

3FS 被譽為「所有 DeepSeek 資料存取的動力引擎」,是一款高效能分散式檔案系統。它充分利用現代 SSD 固態硬碟和 RDMA(遠端直接記憶體存取)網路的強大頻寬,為 AI 工作負載提供了卓越的儲存基礎設施。在由 180 個節點組成的叢集上,3FS 實現了 6.6 TiB/s 的聚合讀取吞吐量,此效能在業界首屈一指。此外,在 25 節點的叢集中,GraySort 基準測試中達到了 3.66 TiB/min 的吞吐量,而每個客戶端節點在 KVCache 查詢中也實現了超過 40 GiB/s 的峰值吞吐量。

3FS 的架構設計採用了解耦架構,結合數千個 SSD 的吞吐量與數百個儲存節點的網路頻寬,使應用程式能夠以與資料位置無關的方式存取儲存資源。這種設計不僅提高了系統的靈活性,還增強了資料存取的效率。同時,透過實現具有分配查詢的鍊式複製(CRAQ),3FS 保證了資料的強一致性,簡化了應用程式程式碼並使其更易於理解。

在接口方面,3FS 採用無狀態元資料服務,並由事務性鍵值存儲(如 FoundationDB)支持,提供了通用的文件接口,開發者無需學習新的存儲 API。其多樣化的工作負載支援能力,使其能夠高效處理各種 AI 工作負載,包括訓練資料預處理、資料集載入、檢查點保存和重新載入、嵌入向量搜尋、V3/R1 推理中的 KVCache 查詢等。

與 3FS 相輔相成的是 Smallpond,這是一個建構在 DuckDB 和 3FS 之上的輕量級資料處理框架,旨在簡化在 3FS 上進行資料處理的流程。 Smallpond 提供簡潔的 API 和易懂的工作流程,方便使用者快速上手。由 Duck​​DB 驅動的 Smallpond,能夠有效率地處理大規模資料集,具備 PB 級資料可擴充性,使用者可以在無須長時間運行服務的情況下,輕鬆完成資料處理任務。

Smallpond 的主要特點包括輕量級和易用性,提供了簡單的操作,無需長時間運行的服務即可完成資料處理任務。此外,Smallpond 還提供了快速入門指南,使用者可以輕鬆下載範例資料並開始使用 DuckDB SQL 進行資料處理。

值得注意的是,Smallpond 框架巧妙地利用了 3FS 作為其底層儲存引擎,充分發揮 3FS 的高效能和可擴展特性。使用者可以使用 Smallpond 輕鬆地在 3FS 上進行資料處理,例如執行 SQL 查詢、資料轉換和分析等操作。 GraySort 基準測試的結果也展示了 Smallpond 如何利用 3FS 的強大效能來處理大規模資料集的排序任務。

DeepSeek 的這次發布不僅展示了其在數據處理領域的創新能力,也為未來的 AI 應用提供了強有力的支持。用戶可以透過以下連結了解更多:3FS 的 GitHub 和 Smallpond 的 GitHub。這一系列的新工具無疑將推動數據處理技術的發展,並協助各行各業在數位轉型中更進一步。

3FS 與 Smallpond 的特點對比表

特點3FS (Fire-Flyer File System)Smallpond
類型高性能分佈式文件系統輕量級數據處理框架
性能實現 6.6 TiB/s 的聚合讀取吞吐量由 DuckDB 驅動,提供卓越的數據處理性能
吞吐量在 25 節點集群上,GraySort 基準測試達到 3.66 TiB/min支持 PB 級別數據處理
節點支持適用於由 180 個節點組成的集群利用 3FS 作為底層存儲引擎
一致性強一致性,通過鏈式複製(CRAQ)實現依賴 3FS 的強一致性
接口提供通用文件接口,無需學習新的存儲 API簡潔的 API,易於理解
工作負載支持支持多種 AI 工作負載,如訓練數據預處理、數據集加載等簡化數據處理流程,支持 SQL 查詢和數據轉換
操作簡便性採用無狀態元數據服務,支持高效的數據訪問無需長時間運行服務即可完成數據處理任務
用戶友好性適合開發者,提供標準接口提供快速入門指南,方便用戶上手

總結

  • 3FS 專注於提供高性能的存儲解決方案,適合大規模數據訪問和 AI 工作負載。
  • Smallpond 則旨在簡化數據處理流程,利用 3FS 的性能為用戶提供高效的數據處理體驗。