英特爾 (INTC-US) 於 Hot Chips 2024 發表四篇技術論文,分別介紹 Intel Xeon 6 SoC、Lunar Lake 客戶端處理器、Intel Gaudi 3 AI 加速器和 OCI 小晶片,並公佈 Intel Xeon 6 SoC(代號 Granite Rapids-D) 最新細節,預計 2025 年上半年推出。
英特爾此次分享從資料中心、雲端和網路,到邊緣和 PC 等各種 AI 應用場景的最新進展,展現自家技術的深度與廣度,其中包括業界最先進、用於高速 AI 資料處理的首款全面整合光學運算互連 (optical compute interconnect,OCI) 小晶片。
英特爾網路暨邊緣運算事業群技術長 Pere Monclus 指出,英特爾持續為消費性和企業 AI 應用推出各類平台、系統和技術,創造新的可能。隨著 AI 工作負載加重,公司運用豐富的業界經驗充分了解客戶需求,進而推動創新、發揮創造力並達到理想的商業成果。
雖然更高效能的晶片和更大的平台頻寬至關重要,英特爾理解到每個工作負載都面臨獨特挑戰,專為資料中心設計的系統無法輕易地直接挪到邊緣使用。英特爾對於跨領域運算的系統架構具備受肯定的專業知識,此絕佳優勢將推動新一代 AI 創新。
英特爾院士暨網路與邊緣運算晶片設計工程師 Praveen Mosur 說,基於全球超過 9 萬次邊緣部署所累積的知識經驗,這款 SoC 將成為英特爾目前為止最符合邊緣應用的最佳化處理器。從邊緣裝置擴展到邊緣節點,透過單系統架構和整合的 AI 加速功能,企業能更輕鬆、更有效率、更保密地管理從資料擷取到推論的完整 AI 工作流程,有助於改善決策、提升自動化程度,為客戶創造價值。
Intel Xeon 6 SoC 結合 Intel Xeon 6 處理器的運算小晶片以及基於 Intel 4 處理技術打造的邊緣最佳化 I/O 小晶片,使這款 SoC 的效能、能耗效率和電晶體密度與先前相比都有顯著改善。其他特色包括高達 32 個通道的 PCIe5.0、高達 16 個通道的 CXL2.0、雙埠 100G 乙太網路等。
Intel Xeon 6 SoC 還有專為提高邊緣和網路工作負載效能和效率的設計,包括新媒體加速,強化即時 OTT、VOD 和廣播媒體的視訊轉碼和分析能力;提高推論效能的 Intel Advanced Vector Extensions 和 Intel Advanced Matrix Extensions,可實現更有效率網路和儲存效能的 Intel QuickAssist 技術。
另外,針對客戶端 CPU SoC 資深設計工程師 Arik Gihon 探討 Lunar Lake 客戶端處理器,以及其設計如何提升 x86 處理器的能耗效率,並提供領先的核心、繪圖處理與客戶端 AI 效能。
全新 P-core 和 E-core 有著驚人的效能,與上一代產品相比,系統單晶片功耗可降低高達 40%。新的神經元處理單元 NPU 速度最多可提升 4 倍,執行生成式 AI 任務的表現優於上一代產品。此外,新的 Xe2 GPU 核心也將遊戲和繪圖效能提高到上一代的 1.5 倍。Lunar Lake 的更多詳細資訊將在 9 月 3 日的 Intel Core Ultra 發表會中分享。
至於 AI 加速器 Gaudi 3,首席設計工程師 Roman Kaplan 介紹需要大量運算能力的生成式 AI 模型訓練和布署。隨著系統從單節點擴充到數千個節點的大型叢集,也帶來了巨大的成本和能耗挑戰。
Intel Gaudi 3 AI 加速器運用最佳化的架構改善運算、記憶體和網路架構,解決了上述的問題;透過採用高效率的矩陣乘法引擎 (Matrix Multiplication Engines ,MME)、雙階層 (two-level) 快取整合和廣泛的 RoCE(RDMA over Converged Ethernet) 網路通訊等策略,Gaudi 3 AI 加速器能夠實現顯著的效能和能耗效率表現,使 AI 資料中心的運作更具成本效益與永續性,解決布署生成式 AI 工作負載時的可擴充性問題。
英特爾整合光學解決方案 (IPS) 事業部展示業界最先進的首款全面整合光學運算互連 (OCI) 小晶片,能與英特爾 CPU 共同封裝並處理即時資料。
首席工程師暨光學整合 (Photonics Integration) 負責人 Saeed Fathololoumi 介紹 OCI 小晶片,其設計可在長達 100 公尺的光纖上雙向支援 64 個通道、32 Gbps 資料傳輸。Fathololoumi 也說明 OCI 小晶片如何滿足 AI 基礎設施對更高頻寬、更低功耗和更大覆蓋範圍日益增加的需求。
英特爾的 OCI 小晶片使高頻寬互連獲得重大進展,可實現未來 CPU/GPU 叢集連接的可擴充性和新式運算架構,包括資料中心和高效能運算 (HPC) 應用的新興 AI 基礎設施,也可達到一致的記憶體擴充和資源分散。