2025年12月29日 星期一

NVIDIA取得Groq技術之深層邏輯,不僅是「GPU+LPU」架構優勢,更透過「軟體定義硬體」實現「運算無感化」!

 本文我基本認同,但需要下述重要補充。

全球AI運算競爭態勢:
目前競爭已形成「三足鼎立」態勢,各家針對「記憶體牆」(Memory Wall)與「延遲問題」提出完全不同的解方:
一、異質架構陣營:NVIDIA + Groq
• 技術核心:將「通用性控制」與「確定性推論」分離
• 解決路徑:GPU處理複雜邏輯,LPU之SRAM解決HBM存取延遲
• 優勢:軟體生態系成熟(CUDA)、適應性強、可處理動態工作負載
• 劣勢:跨機櫃通訊仍依賴InfiniBand電路交換,存在O-E-O轉換延遲
二、晶圓級運算陣營:Cerebras WSE-3
• 技術核心:將整塊晶圓(46,225 mm²)做成單一晶片
• 規格:4兆電晶體、90萬AI核心、44GB片上SRAM、125 petaflops
• 效能:Llama 3.1-405B達969 tokens/sec,較GPU快10-75倍
• 優勢:徹底消滅晶片間通訊延遲,記憶體頻寬為H100之7,000倍
• 劣勢:成本極高、散熱挑戰、彈性較低
關鍵威脅:Cerebras之推論速度在某些場景甚至高於LPU。NVIDIA取得Groq後,Cerebras成為其在專用推論晶片領域之主要競爭對手。
三、垂直整合陣營:Google TPU + OCS
Google之競爭優勢不僅在於TPU本身,更在於其Apollo/Palomar光通訊交換系統(OCS):
(一)OCS技術核心
• MEMS光學交換:使用2D鏡面陣列、透鏡、攝影機進行光束轉向
• 消除O-E-O轉換:傳統網路需進行「光-電-光」轉換,OCS允許訊號直接在光域交換
• 能耗降低40%、延遲降低30%:Google論文數據
• 動態拓撲重構:可在毫秒內重新繞道,軟體層級即時重構數萬顆TPU連線
• 規模:TPUv7 pod可達9,216顆TPU,使用48個300埠OCS交換機
(二)Google OCS對NVIDIA之衝擊
根據SemiAnalysis、LightCounting等專業分析:
• NVIDIA每顆GPU未來可能需要10個光收發器,Google僅需1.5個/TPU
• Google對LPO/CPO無興趣,因其OCS設計本身已極為高效
• NVIDIA之NVLink雖在機櫃內表現優異,但跨機櫃仍依賴InfiniBand電路交換
關鍵洞見1:NVIDIA急於引進Groq,本質上是為了在「單點推論效率」取得絕對領先,以彌補其在「跨機櫃網路通訊」成本較Google高昂之劣勢。這是「以電學對抗光學」之戰略選擇。
另外,台積電之COUPE(COmpact Universal Photonic Engine)封裝技術正在改變遊戲規則,可能直接威脅Google在光通訊架構上的領先地位。
且NVIDIA自2024年起大幅投資矽光子,Blackwell之後的架構(如2026年的Rubin)預計將全面導入CPO(共封裝光學),以應對NVLink Switch的頻寬壓力。根據NVIDIA官方部落格,Quantum-X Photonics與Spectrum-X Photonics將於2026年商用。
*** 結論(硬體)***:所以,隨著台積電CPO技術於2026年成熟量產,NVIDIA將同時擁有「LPU單點突破」與「CPO光學連結」兩張牌。這可能使NVIDIA在「單一機櫃內頻寬」追平甚至超越Google,同時在「推論效率」上保持領先。
關鍵洞見2:CUDA 13.1 的自動化能力,在導入 LPU 後,將會演進為一個 「智慧型異質調度器(Intelligent Heterogeneous Dispatcher)」。
未來的 CUDA 版本將不再只是分配 GPU 核心數,而是進行「任務性質識別」:
。 邏輯運算與預處理(GPU 負責): CUDA 將自動偵測程式碼中涉及條件分支(Branches)、複雜控制流或 RAG 檢索的部分,將其派發至 Blackwell/Rubin GPU。
。 確定性序列生成(LPU 負責): 針對 Transformer 架構中極度標準化的 Attention 與 FFN 層,CUDA 將利用 Groq 的編譯器技術,將其轉換為 LPU 的時序指令集(Timing-based Instructions)。
。 無感化編譯: 程式設計師只需撰寫標準的 PyTorch 或 JAX 代碼,CUDA 驅動程式會在底層自動完成「異質編譯」,實現真正的「軟體定義運算」。
*** 結論(軟體)***:購併 Groq 對 NVIDIA 軟體護城河的實質影響
NVIDIA 購併 Groq 並非僅僅是買下其硬體,而是為了取得 Groq 那套「強決定性編譯器」並將其 CUDA 化。
*** 綜合結論 ***:NVIDIA取得Groq技術之深層邏輯,不僅是「GPU+LPU」架構優勢,更是在「光通訊技術落後Google」之現實下,透過「軟體定義硬體」實現「運算無感化」——開發者僅需描述「要算什麼」,編譯器自動決定「在哪算」。這是比硬體規格更強大的競爭護城河。
【深度解析】NVIDIA 為什麼一定要 Groq:「GPU + LPU」可能是AI推論爆發後,下一代的標準架構
本該休息的聖誕夜,NVIDIA 低調丟出一顆深水炸彈——
與 LPU(Language Processing Unit)推論晶片業者 Groq 達成非獨家授權合作,Groq 創辦人暨 CEO Jonathan Ross 及部分高階主管將加入 NVIDIA。
CNBC 一度傳出這是 200 億美元等級的併購案,但實際公布的結構更像 Meta × Scale AI 的模式:
不直接併購、不吃下公司,而是 吃下關鍵技術與關鍵人,巧妙避開反壟斷審查。
如果只把這件事理解成「NVIDIA 又買了一家新創」,那就太低估此次投資案的影響力了。
這其實是 NVIDIA 首度正式承認:GPU 並不是 AI 推論的終局。但也同時組成目前AI最強架構。
一、為什麼是 Groq?為什麼是 LPU?
Groq 不是一般新創。
創辦人 Jonathan Ross,正是當年在 Google 內部發起 TPU 計畫、並擔任第一代 TPU 架構師的人。他離開 Google 的理由很簡單:
「TPU 在軟硬體整合上,還有本質性的進步空間。」
於是 2016 年,Groq 誕生,核心理念只有一句話:
LLM 推論不是平行運算問題,而是時間問題。
這個觀點,直接導向了 LPU 架構,可以說LPU就是為了AI推論而生的最適設計。
LPU 的設計
• LLM 推論是 token-by-token 的序列生成
• 下一個 token,必須等上一個 token 完成
• 吞吐不是關鍵,延遲才是王道
因此 LPU 做了 GPU、TPU 都沒做的事:
• 不用外掛 HBM
• 晶片上配置 超大面積 SRAM
• 不需要 cache(因為資料位置在編譯期已完全確定)
• 編譯器直接把模型「攤平成時間表」
結果是什麼?
資料幾乎零延遲、執行完全確定性、推論效率逼近物理極限
這不是「GPU 或 TPU 的小改良」,而是完全不同的哲學。
二、GPU × LPU:不是競爭,而是上下游分工
市場最容易犯的錯誤,是想了解:
「LPU 會不會取代 GPU?」
真正該問的是:
「哪些工作,根本不該再由 GPU 來做?」
AI 工作負載自然會分裂成兩個世界
① 不確定性世界(GPU 的主場)
• 模型載入與切換
• Prompt 處理
• KV cache 管理
• Speculative decoding
• 多模型 routing(MoE、Agent)
• RAG、工具呼叫
• 動態 batch、控制流判斷
這些任務的共同點是:
• 分支多
• 邏輯複雜
• 模型與策略隨時會變
👉 這是 GPU 存在的根本價值
GPU 的本質,是 AI 系統的 Control Plane(控制平面)。
② 確定性世界(LPU 的主場)
• Attention block
• FFN
• 已知 shape 的 token 推論
• 重複性極高、可預測的 kernel
這些任務的共同點是:
• 結構固定
• 重複性極高
• 嚴格時間序列
👉 GPU 也能做,但不是最有效率的做法
LPU 的本質,是 AI 系統的 Data Plane(資料平面)。
NVIDIA 最合理的整合方式,不是把GPU跟LPU「合成一顆晶片」
關鍵不是把 LPU 塞進 GPU,而是:
GPU 負責「決定要做什麼」
LPU 負責「把確定的事做到最有效率」
實際運作會長得像這樣:
GPU
• 接收推論請求
• 決定模型與路徑
• 處理動態與不確定性
LPU
• 執行已排好序的推論工作
• 以最低延遲輸出 token
這是一個系統級異質運算架構,而不是單晶片競賽。
三、GPU + LPU vs 純 TPU 系統:誰更有長期優勢?
這裡,才是投資人真正該關心的比較。
市場上很多討論 TPU vs GPU的文章:
但今天真正的對手,已經不是「GPU 單打獨鬥」,而是 GPU + LPU 的異質系統。
如果不把「系統層級」攤開來看,無法得出正確結論。
1、兩種系統的「核心世界觀」完全不同
純 TPU 系統的世界觀是:
AI 的主要運算型態是可預期的張量乘法,只要把這件事做到最有效率即可
因此 TPU 系統的設計邏輯是:
• 用硬體鎖死「最常見的數學形式」
• 用 HBM 解決資料量問題
• 用整代晶片更新來追模型演進
這是一種 效率極高、但前提極強的假設。
GPU + LPU 系統的世界觀是:
AI 的上層是不確定的,但底層存在大量可壓榨的確定性
因此它的設計邏輯是:
• GPU 吞下所有不確定性
• LPU 只處理「已經確定、不會再變」的部分
• 把適應成本留在軟體與系統層,而不是硬體層
這是一種 為變化而生 但又 極其有效率 的架構。
二、在「AI 模型架構改變時」,兩者反應方式完全不同
這是最關鍵、也是投資人最該在意的地方。
當模型架構「小幅變動」時(attention 變體、參數放大)
TPU
• 仍能運作
• 但效能是否最優,取決於是否符合原始假設
• 真正的修正要等下一代 TPU
GPU + LPU
• GPU 立刻用新 kernel、新 runtime 接住
• LPU 只要推論流程不變,仍可繼續使用
• 風險主要在軟體,不在硬體
👉 GPU+LPU 的適應速度明顯快於 TPU
當模型架構「中度變動」時(MoE、Agent、多模型協作)
TPU
• 問題開始浮現
• 動態 routing、條件分支、模型切換,並非 TPU 的強項
• 系統複雜度快速上升
GPU + LPU
• GPU 負責 routing、決策、控制流
• LPU 繼續只做固定推論
• 系統自然解耦,不需硬體重構
👉 這一階段,GPU+LPU 開始明顯拉開差距
當模型架構「典範轉移」時(全新推論流程)
這才是「生死線」。
TPU
• 需要重新定義:
• 運算單元
• 記憶體配置
• 資料流假設
• 本質上就是:等下一代晶片救命
GPU + LPU
• GPU 先用軟體頂上
• 新的「確定性部分」再慢慢下放給 LPU
• 系統仍可持續運作
👉 TPU 承擔的是「硬體世代風險」,GPU+LPU 承擔的是「軟體工程風險」
這對投資人來說,差異極大。
三、延遲、能耗、資本效率:誰在什麼條件下更好?
推論延遲
TPU
• 仍需經過 HBM
• 延遲存在物理下限
GPU + LPU
• 真正關鍵推論在 SRAM
• 延遲更接近理論極限
👉 在即時推論(real-time inference)上,GPU+LPU 上限更高
能耗效率
TPU
• 在張量密集、穩定負載下表現極佳
GPU + LPU
• LPU 負責吃掉最耗能的推論段
• GPU 不再被迫做「不適合它的事」
👉 在複雜實際工作負載中,GPU+LPU 更接近全系統最優解
資本配置與折舊風險(投資人重點)
TPU
• 架構與模型綁定
• 模型變 → 晶片可能提前折舊
GPU + LPU
• GPU 壽命由軟體延展
• LPU 專注固定場景,投資回收路徑清楚
👉 GPU+LPU 的資本風險更可控
四、把差異說到最清楚
TPU 是「把未來假設寫進硬體」
GPU + LPU 是「讓硬體接受未來會變」
這不是技術優劣問題,而是設計哲學差異。
五、為什麼這讓 NVIDIA 比 Google 更有戰略彈性?
因為:
• Google 可以確保自己的模型世界長什麼樣子
• NVIDIA 必須活在「全世界模型都在亂變」的現實裡
在這個前提下:
GPU + LPU 幾乎是唯一合理的長期架構選擇
投資級最終結論
TPU
• 是極佳的內部成本武器
• 但風險集中、外溢效益有限
GPU + LPU
• 是為不確定世界設計的系統
• 更符合 AI 長期演化路徑
GPU + LPU 系統的優點與代價
優點:
• GPU 吸收所有不確定性(模型怎麼變都能接)
• LPU 專心壓榨推論延遲與能耗
• 訓練 / 控制 / 推論分層清楚
• 對 AI 架構變動的「適應能力」最強
代價:
• 系統複雜度提高
• 需要極強的軟體與系統整合能力
• 只有少數公司玩得起
👉 這正是 NVIDIA 的核心優勢所在。憑藉著極其充裕的現金流,NVIDIA 有能力投入巨額研發,完善生態系統供業界使用;這不僅能進一步擴大獲利,更鞏固了其市場護城河,達成企業與生態系的雙贏。
四、真正的結論:這不是晶片戰,而是系統戰
如果只看單一晶片:
• GPU 不夠省電
• TPU 不夠彈性
• LPU 不夠通用
但如果從 系統第一性原理來看:
GPU 管理變化
LPU 壓榨確定性
NVIDIA 統一整個堆疊
這解釋了為什麼 NVIDIA 不會放棄 GPU,
卻一定要把 LPU 納入版圖。
未來的AI發展
GPU 是 AI 世界的作業系統,
LPU 是推論時代的加速器,
NVIDIA 要的是「整個系統的主導權」。
免責聲明
本文僅為個人對半導體與 AI 架構之產業研究與分析,不構成任何投資建議,亦不保證市場走勢或個股表現。投資有風險,請自行判斷並承擔相關風險。
Hashtags