【高含金量長文】NVIDIA Kyber Racks 深度解析:576 GPU 架構揭密,AI 超級伺服器的未來

Kyber Racks 是 NVIDIA 最新 AI 伺服器架構,單櫃支援多達 576 顆 GPU。本文深入解析其 Midplane、散熱、水冷、交換器設計,並探討對 CCL、PTFE、PCB 等供應鏈的影響。

【高含金量長文】NVIDIA Kyber Racks 深度解析:576 GPU 架構揭密,AI 超級伺服器的未來
Photo by Alina Grubnyak / Unsplash

Kyber Racks 揭幕下一代 AI 伺服器架構

NVIDIA近期在大型展會(如 GTC 與 Computex)展示了全新的 Kyber Racks 伺服器架構,預告未來數年AI超級運算系統的重大變革。而這個超級伺服器的出現,又讓我們看到了什麼商機,從這篇長文我們一起來探討。

什麼是 Kyber?

Kyber是一種專為巨量GPU叢集設計的機櫃基礎,將取代現有的NVL機架架構。

現行的NVIDIA NVL72(72顆GPU)系統已經是單機架整合72顆GPU的龐然巨物,但也暴露出傳統設計的侷限,例如佈線複雜與散熱瓶頸。

NVIDIA透過Kyber架構提出解決方案,不僅支援更大規模的GPU集群,亦大幅改善可靠度與散熱效能。

本文將從設計特色、關鍵技術、供應鏈影響與量產時程等角度,深入分析Kyber Racks帶來的產業革命。

Kyber vs NVL72:從Oberon機架到垂直刀片的新設計

Kyber Racks與前代NVL72(代號“Oberon”機架設計)在架構上有顯著差異。

NVL72採用傳統水平方向安裝伺服器節點,透過大量高速纜線將72顆GPU和相關NVLink交換元件互連成單一系統。

然而,這種佈線方式極為複雜:據報導,NVL72機架內使用了長達兩英里的NVLink銅纜(約5000條線)來串接GPU。

如此龐大的佈線不僅增加裝配難度,也帶來潛在的可靠性和散熱問題。事實上,消息指出多達72顆Blackwell GPU緊密互連時曾出現過熱與效能不穩等情形,迫使NVIDIA要求供應商修改設計以改善散熱。

相較之下,Kyber架構採用垂直插入的刀片式設計。整個機櫃被劃分為多個區塊(NVIDIA稱之為canister),每個區塊內含若干塊垂直插拔的計算刀片(compute blade)與後端的交換刀片。

例如,未來Rubin平台的NVL576系統由4個區塊組成,每區塊含18塊GPU計算刀片,合計單櫃支援144個GPU模組(576顆GPU晶粒)。

這種「書架式」垂直布局大幅提高了機櫃內部的空間利用率。同時,Kyber將傳統佈線集中到一塊大型「中介背板(midplane PCB)」上:也就是以高密度銅質背板取代原先混亂的纜線,來連接前端GPU刀片與後端NVLink交換板。

Ian Buck(NVIDIA加速運算副總經理)證實,即使到了Kyber世代,GPU內部互聯仍會採用銅質連接,只不過形態從線纜變為巨大的中介板,類似過去刀片伺服器所使用的背板技術。

這種改變讓Kyber機架的內部佈線整潔許多,減少傳統纜線可能造成的訊號損耗與散熱遮蔽問題

值得一提的是,Kyber的新設計還引入Sidecar側邊機櫃的概念,用於安置機架之外的周邊模組。例如Kyber配置了「側邊機櫃(Kyber Sidecar)」來容納橫向擴展網路交換器(如Spectrum-X乙太網交換機)以及集中式供電單元和部分冷卻基礎設施。

也就是說,未來資料中心部署Kyber系統時,一套完整的解決方案可能包括:一個主要的GPU計算機架,再加上一個電源機架、一個冷卻機架以及一個網路交換機架。

透過將供電、冷卻和網路模組獨立出來,主機櫃可以專注於容納計算刀片本身,進一步提高每櫃的計算密度與模組化維護彈性。

中介板技術挑戰:高階材料與訊號完整性

Kyber架構的核心是一塊龐大的中介板(midplane),承載著前後刀片之間所有高速訊號與電源連接。

從NVIDIA在GTC展示的實體來看,這塊中介PCB板尺寸驚人,上面密布高密度高速連接器插座,排成18行4列的陣列,以對接每個區塊的18塊計算刀片與相應的NVSwitch交換板。

由於Kyber整櫃採用全液冷設計,不需要考慮空氣流通孔道,這使中介板可以採取實心高密度佈線,而無須為風流留出空隙,進一步提升了連接器佈局的密度。

在技術上,如此大尺寸且承載超高速訊號的PCB背板面臨極大挑戰。

首先是材料選用:為了確保數百條高速NVLink通道的訊號完整性,Kyber中介板採用了高階銅箔基板(CCL)材料,例如Megtron M8/M9等級的低介電損耗板材,同時疊合一層PTFE(聚四氟乙烯)介質以降低介電常數和訊號損失。

PTFE板材常用於射頻高速電路,但因熱膨脹特性與FR-4基板不同,製程難度高,需要供應商具備先進的疊層與鑽孔技術。因此NVIDIA據傳與材料大廠Rogers以及中國生益科技合作,提供Kyber中介板所需的PTFE覆銅板。

此外,龐大的背板在製造過程中易出現翹曲變形,如何保證多達數百層走線的精度和良率,也是PCB製造商需要克服的難題。

產業消息指出,Kyber中介板在高速訊號傳輸穩定性方面的量產良率仍是未解難題,預期正式量產時程將落在2027年至2028年左右。

其次是連接技術:Kyber背板上密佈的高速連接器,被視為整個架構的關鍵元件。

據悉,NVIDIA此次與頂尖連接器大廠Amphenol(安費諾)和Molex合作,為中介板開發高頻高速的插拔連接介面。

每塊GPU計算刀片和NVSwitch交換板透過多組高速連接器與中介板相連,連接器需同時支援高速數據傳輸和高功率供電,對於機械強度與訊號品質的要求都極高。

這些連接器的設計類似過去刀片伺服器的背板插槽,但頻寬和電流承載能力大幅提升,可說是現今連接器技術的登峰造極之作。

有業界人士感嘆,NVIDIA Kyber中介板PCB可能是產業迄今最複雜的PCB設計之一,也是連接器與板材工藝的一大極限挑戰。

極致水冷:冷板數量倍增與散熱模組升級

Kyber之所以能將背板佈線做到極致,很大程度上歸功於全水冷的散熱方案。

由於不需要在PCB上開孔走風,NVIDIA將所有主要熱源元件(GPU、交換晶片等)都以液冷冷板(cold plate)直接冷卻,整櫃由液體帶走熱量。

這種設計使Kyber機架具備前所未有的冷卻能力,以滿足單櫃600kW級別的耗電需求。

相比之下,現有Blackwell世代的GB200 NVL72機架功耗約120kW級別;未來Rubin Ultra世代Kyber機架的耗能幾乎提高了五倍,若無強大的液冷系統,根本無法安全運行。

為了應對這驚人的散熱負載,Kyber在水冷模組上做出多項升級。

首先是冷板數量大增:不僅GPU計算刀片上每個GPU模組配置專用冷卻板,連後端的NVLink交換晶片板、甚至部分高速儲存與網路介面模組也納入液冷範疇。

據供應鏈消息,Kyber架構中用於儲存器與交換器的水冷板也納入設計,整體冷板需求比前代架構幾乎翻倍。

舉例而言,在Blackwell GB200平台中,每櫃主要冷卻對象是8個GPU模組(雙die封裝,合計16顆GPU die)和數顆NVSwitch晶片;但到了GB300以及後續Kyber架構,GPU數目暴增,同時NVSwitch晶片數目成倍增加(NVL576系統含144顆NVSwitch),每顆交換ASIC發熱不容小覷,因此這些交換板也須配置液冷。

再加上Kyber可能內建高速儲存節點(供AI訓練數據讀取)也採液冷設計,導致整櫃所需的冷卻板與冷卻管線大幅增加。

臺灣媒體稱之為AI伺服器的「二次冷卻革命」,預估新一代系統的水冷板和快拆接頭用量將比GB200時期激增數倍。

其次是冷卻基礎架構的重新配置。前述Kyber Sidecar側櫃除了放置交換機與電源,預期也包含了CDU冷卻配給單元(Cooling Distribution Unit)以及幫浦等裝置,用於管理整櫃的冷卻液循環。

現行AI伺服器多半在機架內部集成冷卻配管與交換器,但Kyber把這些模組化並移出主機櫃,有助於提高系統整合靈活性和維護便利性。

此外,NVIDIA也開發了新一代快速液冷接頭標準(暱稱NVQD或UQD,即Quick Disconnect),確保如此多的冷板與管線連接仍能快速拆裝且零漏液。

據報導,NVIDIA的水冷快接頭驗證名單中,目前通過認證的只有少數幾家,包括奇鋐的子公司富世達(提供NVQD接頭)和 Cooler Master(訊凱科技)等

GB300世代因水冷管線更密集、規格升級,快接頭需求量估計暴增四倍以上;可想而知,在Kyber世代這個數量還將進一步攀升。為此,NVIDIA正與供應鏈緊密合作,以確保大批高可靠度的液冷組件供應無虞。

供應鏈影響:PCB、連接器與散熱產業的新機遇

Kyber Racks的出現,對AI伺服器供應鏈各環節帶來深遠影響。

首先,在PCB與材料方面,Kyber中介板的複雜度與價值量遠超以往伺服器。產業研究指出,一台AI訓練伺服器所需的PCB面積和層數大幅增加,單機的PCB價值量約為傳統伺服器的6~8倍。

Kyber這種超大規模系統,所使用的高階PCB(包括GPU載板、中介背板等)價值更是驚人。

對PCB板廠與CCL材料廠來說,這代表巨大的商機:高階板材供應商如Rogers、生益科技等將受惠於PTFE等特殊材料用量提升;具備先進製程能力的PCB製造商,如台灣的金像電(TTM)、欣興、敬鵬等,有機會承接Kyber相關的PCB訂單。

然而,由於技術門檻極高,供應鏈也面臨挑戰,需要投入研發確保厚板製造良率和訊號穩定。總體而言,高速運算帶動的AI伺服器趨勢,將使整個PCB/CCL產業朝更高階技術演進。

其次,連接器與電源廠商也迎來新契機。

Kyber採用大量高密度板對板高速連接器,這對於AmphenolMolex等連接器大廠是重大利多。

同時,隨著機架功率提升,伺服器電源供應器也升級,例如台達電等廠商已推出5kW甚至10kW級別的高密度電源,以應對GB300/GB400世代需求。

Kyber未來每櫃需要的總供電功率上看0.5~0.6MW級,可能採用800V高壓直流供電架構,這為電源管理元件(如高壓GaN或SiC功率模組)與配電系統供應商帶來成長動能。

再次,在散熱與機構領域,台廠的「雙雄」與創新者們已摩拳擦掌。以液冷冷板為例,早在前一代GB200專案中,台灣廠商奇鋐科技(3017)就是NVIDIA主要的水冷板供應商之一。

奇鋐及另一散熱大廠雙鴻科技(Auras)等投入早、技術成熟,在Kyber時代有望持續領先。

同時,奇鋐集團的富世達(6805)開發的快拆接頭通過NVIDIA認證,成為新一代水冷關鍵元件合格供應商。富世達原本以生產伺服器滑軌及手機鉸鏈為主,切入AI伺服器水冷零件後業務大幅轉型成長。

此外,歐系和美系的傳統液冷領導廠商(如Asetek、Parker等)也在角逐新一波機會,但NVIDIA顯然希望建立多元供應,特別是扶植在地供應鏈以降低風險。

整體而言,隨著Kyber導入,大型數據中心對液冷系統的需求將大爆發,各國具技術實力的散熱器、幫浦、冷卻液接頭廠商都可望分享到這場浪潮的紅利。

最後,不可忽視的是IC輔材與封裝相關產業的間接受惠。Kyber系統所使用的GPU模組往往採用最先進的多晶粒封裝(如CoWoS等),需要大量的高階矽中介層、ABF載板等材料。

每顆Rubin GPU包含多達4顆計算晶粒和HBM記憶體,封裝尺寸接近整片光罩大小,對ABF載板供應造成龐大需求。有分析指出,未來數年高階ABF載板的缺口將因AI晶片爆發而持續擴大,台廠如景碩、南電等在ABF產能擴充上將受市場追捧。

同時,高功率GPU的導熱材料(TIM)、封裝基板散熱解決方案等輔助材料需求也會提升,這些都為電子材料產業帶來新機遇。

未來展望:Kyber量產時程與AI運算生態變革

NVIDIA提早公佈Kyber架構路線圖,顯示其對未來3年 AI基礎設施發展的前瞻布局。

根據目前資訊推測,2025年底至2026年,NVIDIA將先推出Rubin平台的初代產品(代號Vera Rubin,可能仍使用與GB200相似的Oberon架構NVL144機種)。

真正採用Kyber全新機架設計的系統(Rubin Ultra NVL576)則預計在2027年下半年問世,對應NVIDIA代號Rubin Ultra的GPU晶片。

NVIDIA執行長黃仁勳已證實,這一代單機架GPU數量將較現在翻四倍,功耗達到每櫃60萬瓦等級。由於技術難度極高,不排除Kyber架構產品量產時程可能延後至2028年

因此,2026-2027年將是Kyber架構的驗證與試產期,供應鏈會在這段時間陸續接獲NVIDIA的設計更動與小批量訂單,用於測試和客製化調整。隨著2027年底Kyber系統的正式推出,2028年起大型雲服務業者與超級計算中心將開始大規模導入,屆時AI伺服器市場將迎來新一輪升級潮。

從產業生態角度看,Kyber代表的不僅是NVIDIA自家產品的昇華,更可能引領整體AI基礎架構設計範式的轉變。未來資料中心機櫃將更加趨向模組化系統級整合:計算、網路、存儲、電力、冷卻各模組解耦分離,又通過高速介面緊密耦合。

提到NVIDIA提前佈局Kyber,是為了讓生態系統(包括超大規模資料中心業者)預做準備,調整機房佈局與基礎設施,以迎接這種新的架構形式。在競爭層面,其他GPU與AI加速器供應商也勢必跟進類似思路。

例如AMD據傳也在研發針對其MI300系列GPU的機架級解決方案,強化直連互聯和液冷能力,以縮小與NVIDIA的差距。可以預見,「Kyber世代」將成為AI伺服器的一大分水嶺,引發產業鏈上下游的新一輪競合與洗牌。

總結而言,NVIDIA Kyber Racks架構以革命性的新設計,解決了超大規模AI訓練集群面臨的關鍵瓶頸。垂直刀片+中介板讓訊號佈線更高效可靠,全液冷和側櫃設計則滿足了驚人的功耗與熱管理需求。

同時,Kyber的出現為PCB材料、連接器、散熱、電源等領域的廠商帶來前所未有的成長契機。

雖然短期內Kyber量產尚需時間,但其所代表的方向已明確昭示:未來的AI超級伺服器將朝著更高密度、更高功率、更深度整合的方向發展。對投資者和業界人士而言,現在正是佈局相關供應鏈的關鍵時刻。

在AI算力需求持續爆發的趨勢下,Kyber架構有望成為2026~2028年AI基礎設施升級的核心支柱,為NVIDIA和其生態夥伴開創新一波的成長高潮。

隨著Kyber架構逐步落地,我們將親眼見證資料中心邁入 blade + midplane 的新紀元,以及AI運算能力再度被推向難以想像的巔峰。

參考資料:

  • NVIDIA GTC 2025 發表內容與相關報導等
  • DatacenterDynamics 對NVL72設計問題的報導
  • SemiAnalysis 深度分析報告等
  • ServeTheHome 現場觀察
  • 經濟日報、今周刊等對供應鏈的分析
  • 其他公開資訊與產業消息。

Read more

【股癌EP569觀點整理】AI新賽道浮現:從HVDC電力革命到利基市場軟體商機

【股癌EP569觀點整理】AI新賽道浮現:從HVDC電力革命到利基市場軟體商機

隨著 AI 發展進入深水區,市場的關注焦點正從單純的算力與網通,擴散至更基礎也更關鍵的領域。近期盤勢顯示,AI 巨量的能源消耗正催生「電力系統」的全面升級,其中 HVDC (高壓直流電) 技術成為新亮點;與此同時,真正能解決特定產業痛點的 利基型 AI 軟體,也開始展現其巨大的商業價值。

By Aaron