ChatGPT引發AI芯片荒,臺積電成了英偉達身后的超級大贏家
1849年,美國加州發現金礦的消息傳開后,淘金熱開始了。無數人涌入這片新土地,他們有的來自東海岸,有的來自歐洲大陸,還有來到美國的第一代華人移民,他們剛開始把這個地方稱為「金山」,后來又稱為「舊金山」。
但不管如何,來到這片新土地的淘金者都需要衣食住行,當然最關鍵的還是淘金的裝備——鏟子。正所謂「工欲善其事,必先利其器」,為了更高效地淘金,人們開始瘋狂地涌向賣鏟人,連帶著財富。
一百多年后,舊金山往南不遠,兩家硅谷公司掀起了新的淘金熱:OpenAI 第一個發現了 AI 時代的「金礦」,英偉達則成為了第一批「賣鏟人」。和過去一樣,無數人和公司開始涌入這片新的熱土,拿起新時代的「鏟子」開始淘金。
不同的是,過去的鏟子幾乎不存在什么技術門檻,但今天英偉達的 GPU 卻是所有人的選擇。今年以來,僅字節跳動一家就向英偉達訂購了超過10億美元的 GPU,包括10萬塊 A100和 H800加速卡。百度、谷歌、特斯拉、亞馬遜、微軟……這些大公司今年至少都向英偉達訂購了上萬塊 GPU。
但這依然不夠。曠視科技CEO 印奇3月底在接受財新采訪的時候表示,中國只有大約4萬塊 A100可用于大模型訓練。隨著 AI 熱潮的持續,英偉達上一代高端 GPU A100的閹割版——A800在國內一度也漲到了10萬元一塊。
6月的一場非公開會議上,OpenAI CEO Sam Altman 再次表示,GPU 的嚴重短缺,導致了很多優化 ChatGPT 的工作被迫推遲。按照技術咨詢機構 TrendForce 的測算,OpenAI 需要大約3萬塊 A100才能支持對 ChatGPT 的持續優化和商業化。
就算從今年1月 ChatGPT 的新一輪爆發算起,AI 算力的短缺也持續了近半年,這些大公司為什么還缺 GPU 和算力?
ChatGPT們缺顯卡?缺的是英偉達
借用一句廣告語:不是所有 GPU 都是英偉達。GPU 的短缺,實質是英偉達高端 GPU 的短缺。對 AI 大模型訓練而言,要么選擇英偉達 A100、H100GPU,要么也是去年禁令后英偉達專門推出的減配版 A800、H800。
AI 的使用包括了訓練和推理兩個環節,前者可以理解為造出模型,后者可以理解為使用模型。而AI 大模型的預訓練和微調,尤其是預訓練環節需要消耗大量的算力,特別看重單塊 GPU 提供的性能和多卡間數據傳輸能力。但在今天能夠提供大模型預訓練計算效率的 AI 芯片(廣義的 AI 芯片僅指面向 AI 使用的芯片):
不能說不多,只能說非常少。
大模型很重要的一個特征是至少千億級別的參數,背后需要巨量的算力用來訓練,多個 GPU 之間的數據傳輸、同步都會導致部分 GPU 算力閑置,所以單個 GPU 性能越高,數量越少,GPU 的利用效率就高,相應的成本則越低。
而英偉達2020年以來發布的 A100、H100,一方面擁有單卡的高算力,另一方面又有高帶寬的優勢。A100的 FP32算力達到19.5TFLOPS(每秒萬億次浮點運算),H100更是高達134TFLOPS。
同時在 NVLink 和 NVSwitch 等通信協議技術上的投入也幫助英偉達建立了更深的護城河。 到 H100上,第四代 NVLink 可以支持多大18個 NVLink 鏈接,總帶寬達900GB/s,是 PCIe5.0帶寬的7倍。
面向中國市場定制的 A800和 H800,算力幾乎不變,主要是為了避開管制標準,帶寬分別削減了四分之一和一半左右。按照彭博社的說法,同樣的 AI 任務,H800要花比 H100多10% -30% 的時間。
但即便如此,A800和 H800的計算效率依然超過其他 GPU 和 AI 芯片。這也是為什么在 AI 推理市場會出現「百花齊放」的想象,包括各大云計算公司自研的 AI 芯片和其他 GPU 公司都能占據一定的份額,到了對性能要求更高的 AI 訓練市場卻只有英偉達「一家獨大」。
當然,在「一家獨大」的背后,軟件生態也是英偉達最核心的技術護城河。這方面有很多文章都有提及,但簡而言之,最重要的是英偉達從2007推出并堅持的CUDA 統一計算平臺,時至今日已經成為了 AI 世界的基礎設施,絕大部分 AI 開發者都是以 CUDA 為基礎進行開發,就如同 Android、iOS 之于移動應用開發者。
不過照理說,英偉達也明白自己的高端 GPU 非常搶手,春節后就有不少消息指出,英偉達正在追加晶圓代工訂單,滿足全球市場的旺盛需求,這幾個月時間理應能夠大幅提高代工產能,畢竟又不是臺積電最先進的3nm 工藝。
然而問題恰恰出在了代工環節。
英偉達的高端 GPU,離不開臺積電
眾所周知,消費電子的低潮以及還在繼續的去庫存,導致晶圓代工大廠的產能利用率普遍下滑,但臺積電的先進制程屬于例外。
由于 ChatGPT 引發的 AI 熱潮,基于臺積電7nm 工藝的 A100、4nm 的 H100都在緊急追加訂單,其中臺積電5/4nm 的產線已經接近滿載。供應鏈人士也預估,英偉達大量涌向臺積電的 SHR(最急件處理等級)訂單將持續1年。
換言之,臺積電的產能并不足以應付英偉達短期內的旺盛需求。不怪有分析師認為,由于 A100、H100GPU 始終供不應求,不管從風險控制還是成本降低的角度,在臺積電之外尋找三星乃至英特爾進行代工都是題中應有之義。
但事實證明,英偉達至少在短期內沒有這個想法,也沒有辦法離開臺積電。就在 Sam Altman 抱怨英偉達 GPU 不夠用之前,英偉達創始人兼 CEO 黃仁勛才在 COMPUTEX 上表示,英偉達下一代芯片還是會交由臺積電代工。
技術上最核心的原因是,從 V100、A100到 H100,英偉達的高端加速卡都采用臺積電 CoWoS 先進封裝技術,用來解決高算力 AI 背景下芯片的存算一體。而 CoWoS 先進封裝核心技術:沒有臺積電不行。
2012年,臺積電推出了獨家的 CoWoS 先進封裝技術,實現了從晶圓代工到終端封裝的一條龍服務,客戶包括英偉達、蘋果等多家芯片大廠在高端產品上都全線采用。為了滿足英偉達的緊急需求,臺積電甚至采用部分委外轉包的方法,但其中并不包括 CoWoS 制程,臺積電仍專注在最有價值的先進封裝部分。
按照野村證券預估,2022年底臺積電 CoWoS 年化產能大概在7-8萬片晶圓,到2023年底有望增至14-15萬片晶圓,到2024年底有望挑戰20萬片產能。
但遠水解不了近火,臺積電先進 CoWoS 封裝的產能嚴重供不應求,去年起臺積電 CoWoS 的訂單就在翻番,今年來自谷歌、AMD 的需求同樣強勁。即便是英偉達,也要通過黃仁勛與臺積電創始人張忠謀的私人關系,進一步爭取更高的優先級。
寫在最后
過去幾年由于疫情和地緣政治的變化,所有人都意識到了一種建立在沙子之上的尖端技術——芯片是如此重要。ChatGPT 之后,AI 再度舉世矚目,而連帶對人工智能和加速算力的渴望,無數芯片訂單也紛至沓來。
高端 GPU 的設計和制造都需要很長研發投入和積累,需要面對難以逾越的硬件和軟件壁壘,這也導致了在這場「算力的盛宴」之中,英偉達和臺積電可以拿到大部分的蛋糕以及話語權。
不管是今天關心生成式 AI,還是上一輪以圖像識別為主的深度學習浪潮,中國公司在 AI 軟件能力上的追趕速度都有目共睹。然而中國公司花費巨資,調轉船頭開向 AI 的時候,很少著眼于更底層的硬件。
但 AI 加速背后,最重要的四款 GPU 已經有兩款在國內受限,另外兩款閹割的 A800、H800不僅拖慢了中國公司的追趕速度,同時也無法排除受限的風險。比起在大模型上的角逐,或許,我們更需要看到中國公司在更底層的競爭。