Arm整合兩大資料庫 加速雲端、邊緣AI發展

鉅亨網記者魏志豪 台北
伺服器光纖示意圖。(圖:REUTERS/TPG)
Tag

全球 IP 大廠安謀 (ARM-US) 今 (19) 日宣佈透過將  Arm Kleidi 技術整合到 PyTorch 和 ExecuTorch,促使新一代的應用在 Arm CPU 上運行大語言模型(LLM)。

Arm 指出,Kleidi 彙集了最新的開發人員賦能技術和關鍵資源,目標在於推動機器學習 (ML) 技術堆疊中的技術協作和創新。透過這些重要進展,Arm 致力於為每一位 ML 技術堆疊的開發人員提供更為順暢的體驗。

Arm 策略與生態部開發人員技術副總裁 Alex Spinelli 表示,Arm 正與領先的雲端服務供應商和框架設計者緊密合作,以打造便捷的開發環境,讓軟體發展人員能夠輕鬆地在基於 Arm 架構的硬體上加速 AI 和 ML 工作負載。自該技術推出的四個月以來,Kleidi 已在 Arm CPU 上加速開發並顯著提升主要的 AI 效能。Arm 與 PyTorch 社群的緊密合作,印證了該技術可大幅減少開發人員利用高效率 AI 所需的工作量。

在雲端,Kleidi 以利用 Arm Compute Library(ACL) 強化 PyTorch 帶來的成果為基礎,為世界各地在 Arm 平台上優化 AI 的開發人員打造藍圖。使開發人員免去其不必要的工程工作,以便開發人員能將 Arm 視為運行其關鍵 ML 工作負載的首選平台。

做為實現此一願景的關鍵一步,Arm 直接與 PyTorch 和 TensorFlow 進行 Arm Kleidi Libraries (函式庫) 的整合合作,這包括將基本的 Arm 函式庫整合到上述的領先框架中。

重要的是,這代表著當新的框架版本發佈時,應用開發人員能夠自動地從其大幅的效能提升中獲益,而無需額外在 Arm 平台上進行建構。這項投入已對合作夥伴關係產生了正面的影響。

Arm 聊天機器人展示由 Meta Llama 3 LLM 所驅動,並運行在亞馬遜網路服務公司 (AWS) Graviton 處理器上,首次在主線 PyTorch 中實現了即時聊天回應。根據在 AWS Graviton4 上所測得的資料顯示,透過將 Kleidi 技術整合到開源 PyTorch 程式庫,詞元 (token) 首次回應時間可加快 2.5 倍。

Arm 看好,透過優化 torch.compile 來更有效率地使用透過 ACL 提供的 Kleidi 技術,在基於 AWS Graviton3 上所測得的資料顯示,各類 Hugging Face 模型推理工作負載上的效能可提升 1.35 至 2 倍。

這些僅是出色的雲端範例之一,卻代表在 Arm 平台上普及 ML 工作負載時可實現的效能加速類型。Arm 將持續投入,以確保開發人員的 AI 應用,從雲到邊緣都能完美運行,其中包括新功能與前代的相容,進而使得開發人員能夠立即從中獲益。

隨著新的語言模型版本快速地推陳出新,生成式 AI 掀起了一波 AI 創新熱潮。Arm 持續與 ML 技術堆疊的各個關鍵部分緊密合作,攜手 AWS 和 Google 等雲端服務供應商以及 Databricks 等迅速壯大的 ML 獨立軟體開發商 (ISV) 社群,進而協助開發人員立於技術的前端。

Google Cloud Compute 產品管理資深總監 Nirav Mehta 表示,Arm 和 Google Cloud 致力於為開發人員提升 AI 的存取和敏捷性,而 Kleidi 代表了以軟硬體共同優化滿足 AI 需求所獲得的重要進展。隨著客戶正積極採用基於 Arm 架構的客製化 CPU - Axion,期待在整個 ML 技術堆疊中為客戶帶來更為順暢的整合體驗。

Databricks 軟體工程師 Lin Yuan 表示,利用 Databricks Data Intelligence Platform 進行 AI 和 ML 工作流程的企業,將可受惠於跨 ML 軟體堆疊的 Arm Kleidi 整合帶來的效能優化。藉由 Databricks ML Runtime 叢集提供支援的 Arm 架構 AWS Graviton 處理器,企業可以從各種 ML 函式庫的加速中受惠,同時降低雲端服務供應商的成本。

協助開發人員將 Arm 提供的資源應用到實際案例中至關重要,為此,Arm 創立範例軟體堆疊和學習資源,向開發人員展示如何在 Arm CPU 上建構 AI 工作負載,進而迅速推動了 Arm 系統的廣泛採用,並加快了開發人員在 Arm 系統上的部署速度。第一個案例是透過 Kleidi 技術加速聊天機器人的實現,今年稍晚,ML Ops 和檢索強化生成也將添加至這些應用案例中,並計畫於 2025 年實現更多成果。

基於 Kleidi 在裝置端的發展態勢,KleidiAI 還將被整合到 ExecuTorch(PyTorch 新的裝置端推理運行 runtime)。這項整合預計將於 2024 年 10 月完成,並有望為目前正在 ExecuTorch 中進行生產測試或推出的裝置端應用帶來顯著的效能提升。目前已完成的多項 KleidiAI 整合包括與 Google XNNPACK 和 MediaPipe,以及騰訊的混元大模型,為其實際工作負載帶來了顯著提升,其影響不言可喻,誠如此聊天機器人所展示。

Kleidi 將繼續與 PyTorch 和 ExecuTorch 的各版本以及其他主要 AI 框架進行整合。從雲端資料中心到邊緣端裝置,開發人員現在可以即刻在各類裝置上基於 Arm 平台高效率的運行高效能 AI 工作負載。Arm 將繼續積極地為 PyTorch 社群推出強化功能,並專注於針對各種整數格式提供量化優化,進一步提高效能,使 Arm CPU 能大規模地無縫運行次世代的 AI 體驗。

PyTorch 正在大規模的推動 ML 開發領域的創新。近日,Arm 加入 PyTorch 基金會成為 Premier 成員,這對於 Arm 的 AI 之旅來說,無疑是一個重要時刻。Arm 將持續致力於協助全球各地的開發人員,在 Arm 平台上充分發揮端到端 AI 的潛力,進而塑造尖端的 AI 和應用功能。