想像一下,一座燈火通明的巨型數據中心,宛如一座不眠之城。數萬塊GPU不停運轉,風扇轟鳴如瀑布。電流在機架間流淌,彷彿整棟建築本身就是一個活生生的有機體。幾乎在每一塊電路板上,你都能看到熟悉的綠色英偉達標誌,它為從生成式人工智慧到搜索、推薦,再到你現在正在使用的聊天機器人等一切應用提供動力。
但仔細觀察一下。在同一數據中心的某個角落,另一種晶元正在悄然崛起。谷歌的TPU
Ironwood和亞馬遜的Trainium3正蓄勢待發,準備挑戰英偉達在人工智慧晶元領域的統治地位。這場迅速成為十年來最具決定性意義的科技戰役的較量,即將上演。

英偉達的統治地位既有利可圖,又實力雄厚,但也日益引發問題。
我們先來看數據。英偉達最近公布的季度營收為570億美元,其中高達512億美元來自數據中心GPU。其GAAP毛利率高達73.4%,這一數字甚至超過了大多數軟體壟斷企業。
簡單來說,英偉達每售出一塊GPU就能帶來巨額利潤。這就是為什麼投資者稱英偉達為人工智慧時代的「軍火商」。但這種利潤也給其他人帶來了負面影響。訓練前沿模型需要成千上萬甚至數萬塊GPU。再加上HBM顯存、海量存儲集群、先進的網路以及飆升的電費,成本結構就變得異常高昂。許多人工智慧服務即便深受用戶喜愛,仍然難以盈利。
所以高管和投資者一直在問同一個問題。
我們還能承受英偉達這樣的高價多久?
正是這個問題為谷歌和亞馬遜打開了機會之門。多年來,它們一直是英偉達最大的客戶,如今,它們已經到達了一個轉折點。
如果GPU成本持續攀升,我們還不如自己製造晶元。

谷歌的TPU Ironwood在數據中心悄然展現其強大實力。
谷歌最新推出的第七代TPU,名為Ironwood,是一款專為高吞吐量機器學習任務打造的AI加速器。它提供4614
TFLOPS的FP8運算能力,配備192 GB的HBM3e內存,帶寬約為每秒7.3 TB。
真正的亮點在於規模。多達 9216 個這樣的晶元可以連接成一個超級處理器,其 FP8 運算性能超過 40
exaflops,共享內存高達 1.7 PB。谷歌將整個系統稱為人工智慧超級計算機。
谷歌甚至公開將Ironwood與英偉達即將推出的GB300進行比較,聲稱其在FP8性能方面具有優勢。信息很簡單。
英偉達並非唯一能夠驅動人工智慧未來的引擎。
Ironwood 目前已在 Google 內部運行工作負載,並通過部分 Google Cloud AI
實例提供。雖然尚未正式公開發布,但這足以表明長期以來由英偉達主導的時代正在發生轉變。

亞馬遜的 Trainium3 旨在重塑人工智慧基礎設施的經濟格局。
接下來是亞馬遜網路服務(AWS)。AWS推出了由Annapurna
Labs設計、採用3納米工藝製造的第三代人工智慧晶元Trainium3。該晶元擁有2.52 FP8
petaflops的運算能力、144 GB的HBM3e顯存以及4.9 TB/s的帶寬。
AWS 將 144 個這樣的晶元集成到全新的 EC2 Trn3 UltraServer 中。單個機架即可達到 362 FP8
petaflops 的運算能力、20.7 TB 的 HBM3e 內存以及每秒 706 TB
的帶寬。它專為巨型模型訓練和上下文長度遠超百萬個令牌的工作負載而設計。
背後的策略很簡單。
AWS 希望為客戶提供更便宜的 AI 基礎設施選項,並奪取目前流入英偉達口袋的利潤。
其中一項重大變化尤為引人注目。AWS宣布下一代Trainium 4將通過NVLink與Nvidia
GPU互操作。這種混合方案將高強度任務分配給Nvidia硬體,而將低壓力的推理工作負載分配給Trainium,從而構建一種旨在降低總體成本而非完全淘汰Nvidia的混合架構。

開發者依然鍾愛英偉達,因為CUDA堅不可摧。
目前看來,切換到 TPU 或 Trainium 似乎很容易。但如果你問真正的工程師,他們會反覆給出同樣的說法。
CUDA 用起來更簡單。
自 2006 年以來,英偉達一直致力於將 CUDA 打造成全球最先進的 GPU
編程生態系統。早在生成式人工智慧爆發之前,研究人員、物理學家和深度學習先驅們就已在 CUDA
上開展早期研究。即使在今天,新的機器學習功能通常也會率先登陸英偉達硬體。
企業面臨著兩難境地。他們的整個代碼棧、流水線和自定義內核都針對 CUDA 進行了優化。切換到 TPU 或 Trainium
需要重寫和重新調優龐大系統中的代碼。理論上的成本節省並不總是能抵消實際風險。
谷歌和AWS都強調他們的晶元兼容PyTorch、TensorFlow和JAX,並經常表示切換框架就像更新一行代碼一樣簡單。這或許適用於小型演示,但生產級人工智慧則截然不同。它是由定製內核、通信層和手工調優的優化演算法構成的複雜迷宮。
這就是為什麼英偉達的堡壘比看起來更難攻破的原因。
英偉達的反擊:以絕對速度超越所有人
英偉達清楚地看到了這一威脅。正因如此,它提前採取了行動。在Blackwell架構尚未大規模部署之前,該公司就發布了Rubin架構和下一代Vera
Rubin NVL144系統。
Rubin的目標是每個GPU的FP4推理性能達到50 petaflops。NVL144機架的性能超過3.6
exaflops,是上一代GB300 NVL72性能的三倍多。
隨後,英偉達推出了 Rubin CPX,這是一款配套的推理晶元,負責處理長上下文信息,而 Rubin GPU
則專註於信息生成。Vera Rubin NVL144 CPX 機架組合的目標是實現 8 exaflops 的 NVFP4 性能、100
TB 的內存和 1.7 PB/s 的帶寬。
這就是英偉達的戰略。
如果競爭對手趕上,那就加快產品路線圖,直到他們追不上為止。
對於投注TPU或Trainium的客戶來說,這提出了一個現實的問題:兩三年後,經濟形勢會再次逆轉嗎?
英偉達能否保住王座?
三種情況似乎最有可能發生。
第一,英偉達雖然保住了霸主地位,但利潤率有所下降。隨著谷歌、AWS和AMD的規模不斷擴大,英偉達70%的利潤率不可能永遠維持下去。
第二:市場將呈現多極化格局。就像CPU最終分化為英特爾、AMD、ARM和各國晶元公司一樣,人工智慧加速器市場也可能遵循同樣的路徑。英偉達仍將保持領先地位,但不再擁有壟斷權力。
第三:人工智慧泡沫破裂。企業熱情降溫,GPU支出放緩,英偉達首當其衝。但就目前的普及模式而言,這更像是放緩而非崩潰。
最現實的路徑是方案一和方案二的結合。英偉達依然是行業巨頭,但谷歌和亞馬遜已經悄然入局,蠶食著自己的地盤。
這對其他人意味著什麼
所以,對於普通用戶和開發者來說,真正的問題是這樣的。
十年後,人工智慧的使用體驗和成本會有多大變化?
人工智慧訂閱服務會變得更便宜嗎?模型能否處理更長的上下文窗口,或者在文本、視頻、3D
和遊戲等多種應用場景下流暢地進行多任務處理?我們是否會看到一個由專用晶元主導應用程序演進的人工智慧生態系統?
人工智慧晶元之戰不僅僅關乎誰勝誰負,更關乎誰將改寫未來十年計算機領域的規則。
英偉達依然穩坐霸主地位。但谷歌和亞馬遜已不再是局外人,它們正在庭院內磨礪利刃。
人工智慧的未來將取決於這些玩家如何選擇戰鬥方式。