晶片算力提升,產生的熱能也隨之增加,氣冷散熱已無法應付,後續 GB200 將導入水冷方案,新架構伺服器整機櫃水冷產值更高。
【文/莊家源】
受到晶片算力提升,電源供應器朝高瓦數發展,伴隨而來的熱能也跟著增加,以目前 Intel、AMD 推出的高階伺服器CPU來看,Sapphire Rapids、Emerald Rapids 與 Genoa 在熱功耗設計(TDP)都已達三五○∼四○○瓦;在GPU方面,Nvidia、AMD 推出的 B100、MI300XTDP則達七○○∼七五○瓦,而 Nvidia 明年預計推出的 GB200 將達一二○○瓦。
由於傳統的氣冷散熱受限於空氣傳導熱的效率差,與散熱空間受限,氣冷已瀕臨散熱極限(四○○∼五○○W),為了提高散熱效率,目前的散熱模組設計主要多採3D均熱板(3DVC)升級現有的散熱模組,加強熱傳導的效率,其最高可應付約八○○W,雖然成本較低但體積大,且仍需配合空調降溫,目前已導入 Intel Eagle Stream 和 AMD Genoa 兩大平台。
不過,隨著近年節能減碳意識抬頭,傳統以 3DVC 搭配空調的散熱解決方案,其資料中心電源使用效率(PUE)約落在一.五∼一.七左右,而目前多數國家標準,如歐盟、中國皆要求未來興建之資料中心PUE需低於一.三。此外,隨著晶片效能持續提升,Nvidia 今年底明年初將推出新款AI晶片 GB200,根據法人對供應鏈訪查,在搭載 GB200 的AI伺服器當中,其使用的機殼、散熱模組結構將出現大幅變化,其中在伺服器機殼的設計將改採二U,因此伺服器機殼將縮小、重量減輕,GB200 晶片的TDP提升至一二○○W,散熱模組由氣冷改為水冷。
從 Nvidia 在今年GTC大會上展示的 DGX SuperPOD 超級電腦系統,即採用了水冷式散熱架構,目前水冷散熱系統主要可分為開放式水冷與浸沒式水冷,前者是搭配水冷板(Cold Plate)、冷卻水分配裝置(CDU)、冷卻水歧管(CDM),透過冷卻器和風扇背門或是熱交換器(RDHx)將冷卻水降溫;而後者則是將伺服器完全浸沒於冷卻水當中,直接透過水體對流的方式將廢熱自晶片轉移至液體中,提高熱傳導效率,在不開空調的情況下,可使PUE降至約一.一,雖然初期建置成本較高但體積小排列能夠更密集,且若考慮未來數年省下的電費來看,水冷仍占有優勢。
散熱模組廠雙鴻早在二○一二年就向IBM技轉伺服器水冷技術,目前已累積超過十年的水冷開發經驗,雙鴻在不管是在開放式水循環或封閉式水冷、水冷板、冷卻水分配裝置、冷卻水歧管等一應俱全。
雙鴻在去年十一月的法說會中,針對伺服器水冷散熱,董事長林育申認為,隨著晶片的TDP提升至一千瓦以上,將推動水冷散熱需求提升,今年將處於氣冷與水冷散熱的交換期,預期明年水冷散熱的占比將會明顯提升。
隨著水冷需求持續擴大,法人預估每台 GB200 伺服器的散熱成本是 H100 的十一倍,預期將因此推動二○二四∼二七年伺服器散熱市場規模大增四倍,從二二億美元成長至九五億美元;水冷市場規模將增長二五倍,從三.一億美元成長至七八億美元。(全文未完)
來源:《先探投資週刊》2300 期
更多精彩內容請至 《先探投資週刊》