2026年1月20日 星期二

AI進入物理世界後,它的推論引擎就不能再搞黑箱作業,AI必須揭露其推論邏輯,並以人類能夠理解的方式,說明其推理過程與結果。

AI進入物理世界後,它的推論引擎就不能再搞黑箱作業,AI必須揭露其推論邏輯,並以人類能夠理解的方式,說明其推理過程與結果,如果出事了,人類(保險公司、法院等)才能夠據以究責與決定AI創作者與使用者應分擔的責任比例。

例如,NVIDIA Alpamayo與Tesla FSD v14系列的核心變革在於導入思維鏈(Chain of Thought)技術。當車輛遭遇陌生複雜路況,系統不再僅是搜尋記憶庫比對舊有案例,而是啟動即時邏輯推理。例如:看見前方施工且路障擺放混亂,AI能分析——路障雖擋住車道,但前車已跨越雙黃線繞行,且對向無來車,故我也應違規跨線繞行以保持車流順暢,此過程即為推理,而且人類能夠理解並可以歸責。

另外,引用萬鈞法人視野的好文如下:

上禮拜我去跟法人做簡報,一位資深主管在 Q&A 時很直接地說,他研究機器人很久了,不看好,理由是「看了幾十年,從來沒成功過」。那一瞬間,我其實並沒有想反駁,只是腦中突然閃回到 16 年前。
2010年,我還在券商當分析師,去向一家壽險報告 iPhone 供應鏈,那位主管當場逐一點名底下研究員,問一句很簡單的問題:「你會不會買 iPhone這種華而不實的玩具?」沒有人敢回答。最後他下了結論:既然沒人會買,那這個市場不會起來。
後來的故事大家都知道了。不是那群人不聰明,而是他們都犯了同一個錯誤,用「過去沒有成功」去否定「正在發生的範式轉移」。
這也是為什麼,當我最近重新仔細研究 Tesla Optimus Gen 3 的技術路線與商業假設時,我反而越來越確信:如果你的機器人認知還停留在「會走路的玩具」,或是「波士頓動力做了三十年也沒量產」,那你其實已經站在錯過下一個 iPhone 的那一側。
真正的分水嶺,不在於機器人會不會走,而在於 AI 是否正式從虛擬世界,跨進物理世界。
過去十年,AI 的主戰場是在 Bits 的世界:語言、影像、推薦、搜尋。但物理世界不是 token,而是重力、摩擦力、慣性與即時回饋。讓一個人型機器人穩定地拿起杯子、避開障礙、在不確定環境中連續決策,背後需要的是感知、推理與控制的即時閉環,而不是單點模型能力。
這正是多數人低估 Tesla 的地方。它真正的護城河,從來不只是會造車,而是全球最大規模的「移動中具身智能資料庫」。FSD 累積的是真實世界、毫秒級決策、失敗與修正的資料流。這十多年來,Tesla 所蒐集的不是駕駛影片,而是讓 AI 在物理世界中「不斷犯錯、修正、再學習」的燃料。從 Embodied AI 的角度來看,這是其他機器人公司根本無法複製的起跑點。
第二個被市場嚴重誤判的,是成本結構。馬斯克提到 Optimus 長期目標價格約 2 萬美元,很多人第一反應是「不可能」。但如果你真的從第一性原理拆解,一個人型機器人並不需要汽車等級的功率密度,電池容量只需要 Model 3 的三分之一左右,驅動系統與散熱複雜度也完全不同。
當 Tesla 把自研晶片、視覺演算法、電池、馬達、供應鏈與製造端一次整合,這已經不是傳統機器人公司那種「單機成本」的比較,而是系統級、規模級的壓縮。這正是為什麼科研導向的公司、或只擅長設計的新創,在這一輪會被拉開差距。
第三個關鍵,則是商業模式的質變。多數人仍然用「賣一台機器人多少錢」來估值,但真正的槓桿在軟體。Optimus 的終局,很可能是一個技能平台:基礎動作免費,但高附加價值技能必須訂閱。從精密裝配、倉儲協作,到長照、餐飲與家庭服務,這是一個標準化硬體、差異化技能的 App Store 模型。如果你接受這個假設,那你就會理解,這不再是一門硬體生意,而是一個潛在年產值數千億美元的服務平台。
回到我最熟悉的半導體與記憶體。人型機器人不是低階 MCU 的應用,它需要即時感知、多模態推理與長時間運作的在地算力。這意味著更高性能的邊緣運算晶片,以及對高頻寬、高可靠記憶體的結構性需求。從 HBM 到高階 DRAM,這不是替代,而是新增。
當年的 iPhone,讓市場忘記 Apple 曾經是一家電腦公司;未來的 Optimus,也會讓世界逐漸忘記 Tesla 曾經只是車廠。
投資研究最危險的一句話,永遠是:「這個東西以前沒成功過。」16 年前,那位壽險主管錯過的是整個行動網路世代;16 年後,當 AI 開始長出四肢,走進工廠與家庭,你還要繼續站在懷疑論那一邊嗎?
這就是我的法人視野。當趨勢已經在敲門,真正該問的從來不是「你會不會買」,而是這個世界,準備好被改變了嗎?

台積電已經是全世界市值第六大的公司,而前五大都是它的客戶,且都位於美國,因此其必須因應地緣政治而「順勢而為」在美國生產其產品,好降低關稅衝擊且就近服務客戶,這是當然的道理。

其實因為美國眾多AI巨頭客戶的「巨量訂單要求」(訂單都排滿到2028年了,急單要加價50%甚至超急單的100%)與非常願意買單較高的晶圓代工報價(台積電從2026年起到2030年,每年都要調整先進製程的晶圓代工報價),在營業收入可預期、經營利潤率可確保的情況下,而且美國的水、電、土地都不是問題,再加上美國要對不投資美國的晶圓廠課徵關稅,台積電本來就要在美國大幅擴產,土地也買了,董事會也通過了,所以,這個台美關稅談判結果,不管台灣或是美國,我認為都是搭了這台台積電順風車而已。

而且,台積電已經是全世界市值第六大的公司,而前五大都是它的客戶,且都位於美國,因此其必須因應地緣政治而「順勢而為」在美國生產其產品,好降低關稅衝擊且就近服務客戶,這是當然的道理。何況台積電的所有台灣股東加上台灣政府的持股,都還不到台積電總股數的25%,以一個這樣外資持股超過七成的公司來說,董事會必須為自己的投資決策向股東負責,這是公司治理的最基本條件,所以,台積電擴大在美投資的決策,其實醞釀已久,且如前所述,是台積電在多方確認其訂單可確保且盈利率有保障下的「正常商業決策」,而說台積電是「被逼迫」赴美投資或「配合」台灣政府關稅談判而加碼投資美國,其實都是「言過其實」與「想像力豐富」的說法,所以我前面才會說,台灣政府與美國政府這次的聲明,很明顯的都是搭上台積電擴大在美國投資的順風車而已。

「台美關稅協議15日拍板,台積電財務長黃仁昭後續接受兩家美媒採訪時都提到,台積電在美擴大投資是基於客戶需求。在實務考量下,最先進製程將留在台灣。他也說,台美關稅協議是政府間協議,台積電並未參與討論。」

報導連結:https://www.cna.com.tw/news/afe/202601190011.aspx?topic=4704

另外,引用邏輯投資的好文如下:

 
忽然間,美國商務部長盧特尼克(Howard Lutnick)說的話被當成「聖旨」,大家都覺得一定會實現,台灣會被掏空,這畫面真的很諷刺。
以前就說過,川普政府當中比較被華爾街信賴的是貝森特(Scott Bessent),被稱為「房間裡的成年人」;去(2025)年扭轉川普「對等關稅」亂局的是他,近期也傳出他對於針對聯準會主席鮑威爾啟動刑事調查感到不滿,並已向川普表達擔憂。簡單地說,貝森特才是川普政府經濟、貿易、貨幣政策的具體操盤手。
而盧特尼克則是川普的堅定擁護者,他的關注對象只有川普,他曾跟員工說過:「只要那天能與總統(川普)交談,那就是『美好的一天』」,他確實也是這樣做,將大部分的時間都花在白宮上,因此很多商務部的員工表示,他們從沒見過盧特尼克。
所以你可以將盧特尼克說的話,當成川普意志的延伸與宣傳,但這不代表盧特尼克可以片面決定一切,因為民主社會與商業環境仍有自己的秩序與規則。
盧特尼克說要將台灣先進製程產能40%轉移至美國,這是一個目標,也可以理解成是一個口號,但前提是美國的需求有這麼多。如果美國的先進製程晶片需求真的能佔全球40%,那在關稅保護的當地市場建立供應鏈,本就是資源分配下的合理結果,台積電到當地設廠,台商到當地建立供應鏈,其實再正常不過。
但假設美國市場沒有這麼大,同時成本還很高,甚至可能造成虧損,那對於台積電與供應鏈夥伴來說,「循序漸進」才是正常的投資步調。
如果台積電與相關供應鏈在當地投資產能卻虧損嚴重,美國政府也無法逼著私人企業加大投資,擴大虧損,除非美國政府願意補貼成本,但那又回到拜登政府的老路了,這就是民主與商業的基本秩序。
那該如何理解台積電大幅成長的資本支出呢?
台積電總裁魏哲家是這樣說的:
「AI的需求是真的還是假的?我也很緊張,要投資大概 520至560億美元的資本支出,如果沒有謹慎行事,那對台積電來說將會是一場巨大的災難。」
魏哲家表示他有做過調查,有廣泛地跟CSP客戶交流,確認AI需求強勁,客戶提前預約2nm製程產能,因此才決定啟動如此大規模的資本投資。
換言之,台積電願意啟動鉅額投資,不僅是政治與關稅因素,「有利可圖」才是關鍵,但不懂為何台灣有一堆人忽然成為「晶片產業分析師」,都能提前預告台積電的「失敗」?大家都比台積電董事長與經營團隊更為專業?
那台積電的客戶看到什麼了呢?
無非是自駕車、機器人、無人機、太空產業、AI邊緣運算帶來的無限可能,若從這個角度思考,台積電與供應鏈赴美投資其實是合理的決定,一來美國市場受到關稅保護,未來甚至可能實施232調查半導體關稅,台灣能透過關稅談判成功鎖定稅率並取得最惠國待遇,實則是保護台灣晶片產業,將影響降至最低。
另一方面,台灣企業到當地建立供應鏈,掌握主動權,絕對好過故步自封,將未來美國晶片市場拱手讓人。把球握在自己手上,由台積電與台灣本土供應鏈搶佔美國晶片市場大餅,確實是眼下的「最優解」。
回到大家關心的先進製程產能投資問題上,美國半導體產業分析師歐唐納爾(Bob O'Donnell)的說法相對客觀,他表示市場對於半導體需求確實非常龐大,但也對地緣政治感到憂心,因此創造朝著更多製造環節在美國本土完成的「動能」,供應鏈轉移也確實出現進展。
然而他也指出,供應鏈的轉移還需要很長的時間,這樣的轉移工程需要非常多年,不可能在川普任內完成,現實狀況就是「不可能」,因為半導體供應鏈極其複雜,而很多人往往會做出不切實際的時程估計。
而台積電財務長黃仁昭受訪時也說得很清楚,他提到台積電確實準備在美國亞利桑那州加速投資,但最先進的技術將繼續在台灣開發與擴大規模。
至於先進技術是否外流美國,這一點台積電總裁魏哲家也解釋過了:「台積電的研發包括真正的技術研發中心,與生產線製程改進的研發中心,例如台積電的2奈米,將來到1.6奈米、1.4奈米,以及正在計畫的1奈米,都是真正研發人員在做,在台灣有1萬人左右,是台積電往前進的重心」。
另外台積電擴大在美布局,不僅有維持市佔,卡住美國先進晶片的目的,實際上在當地也才有機會招募更多頂尖人才,維持台積電的長期競爭優勢。
說了這麼多,只是想提醒投資朋友,「政治」領域有其自身的規則與說話藝術,我自己是完全不會參考盧特尼克的說法,真的要看,也是參考貝森特的觀點就好。
如果你習慣依賴政治語言來思考投資邏輯,可能會錯得相當嚴重,不然我們來打個賭,我繼續投資台積電與台股,那看空的你也請認真地下一張台積電或0050空單,甚至可以直接放空台指期,我們來看看三年或五年後,被掏空的台灣加權指數能走到哪裡?
如果你不敢用真金白銀押注你認知的未來,那你如何有機會在投資上取得成果呢?如果你自認不是「韭菜」,那就用「空單」證明自己的政治與商業判斷吧,因為你認為你是對的,不是嗎?。

2026年1月8日 星期四

AI 晶片架構與異質運算平台 全面技術分析報告

《 AI 晶片架構與異質運算平台 全面技術分析報告 》
NVIDIA Vera Rubin/Feynman vs AMD MI455X/Helios vs Google TPU v7 vs Cerebras WSE-3
暨 頻寬瓶頸、物理AI突破與NVIDIA-Groq技術授權影響評估
【第六次修正版】
(四大平台全面比較:NVIDIA五大競爭優勢、AMD網路互連解決方案、Google TPU產品路線圖、Cerebras推論優勢)

報告日期:中華民國 115 年 1 月 7 日
報告編號:RISETEK-2026-AI-001(第六次修正版)

撰寫人:陳宜誠 律師暨專利代理人

【摘要】

本報告針對2026年AI加速器市場之四大主要平台——NVIDIA GPU、AMD Instinct、Google TPU與Cerebras WSE——進行全面技術與經濟分析,並特別聚焦於「頻寬瓶頸」與「物理AI」此二AI運算之關鍵議題。本第六次修正版整合CES 2026最新發表資訊、物理AI突破(Alpamayo VLA模型)、TPU v7正式量產數據,並恢復原第四版中關於NVIDIA-Groq技術授權、Feynman架構、台積電COUPE技術之完整分析。主要發現如下:

一、NVIDIA五大競爭優勢構成結構性領先(第六次修正版核心論點):當NVIDIA宣告「AI正從螢幕走入物理世界」時,其已同時掌握五大競爭優勢:(1)CUDA軟體護城河——超過400萬開發者生態系統;(2)BlueField-4 ICMSP突破記憶體頻寬牆——將KV Cache升級為系統級可調度記憶體資產;(3)CPO光電整合——台積電COUPE技術實現73%功耗降低;(4)系統級Token吞吐量優化——從晶片效能競爭轉向系統整體運算架構;(5)開源物理AI領域知識——Alpamayo VLA、Cosmos世界模型、Isaac GR00T機器人平台。此五大優勢相互強化,構成難以複製之結構性領先。

二、BlueField-4 ICMSP重新定義AI推論基礎設施(第六次修正版新增):NVIDIA於CES 2026發表之BlueField-4 Inference Context Memory Storage Platform(ICMSP)代表AI推論架構之典範轉移。萬鈞法人視野(WJ Capital Perspective)分析指出,此技術將KV Cache從「GPU附屬記憶體」升級為「系統級可調度記憶體資產」,記憶體需求計算從「模型大小」改為「上下文生命週期 × 並發代理數 × 重用率」。對記憶體產業結構性影響:HBM效率提升但仍供不應求;DDR重新定位為DPU/Storage Node主要需求來源;NAND/SSD成為KV Cache持久化儲存之結構性受惠者。

三、AMD MI455X/Helios展現競爭力但缺乏系統整合(第六次修正版新增):AMD於CES 2026發表之Instinct MI455X為業界首款2nm製程AI加速器,搭載432GB HBM4記憶體(較NVIDIA Rubin多50%),OpenAI 6GW資料中心協議驗證其商用可行性。然而,AMD仍停留在強調晶片與機櫃之效能、容量與性價比層次,缺乏系統級整合能力——無ICMSP等效方案、無物理AI生態系統、無CPO光電整合。選型評估不應僅比較晶片規格與價格,而應從系統整體運算架構與傳輸效能出發。

四、xAI Colossus證明非OCS架構亦可支援超大規模(第六次修正版新增):xAI以NVLink + Spectrum-X架構成功建置超過200,000顆GPU之Colossus叢集,為全球最大AI訓練叢集之一。此案例修正本報告先前「OCS為巨大叢集唯一選擇」之過於武斷結論。實務上,OCS、CPO與Spectrum-X Ethernet各有優勢場景:OCS適合頻繁重組拓撲之超大規模叢集;CPO適合機櫃間高密度互連;Spectrum-X適合快速部署與成本敏感場景。

五、物理AI之「ChatGPT時刻」:NVIDIA於CES 2026宣布開源Alpamayo 1——首個具備推理能力之VLA(視覺-語言-動作)模型。此100億參數模型能透過影片輸入直接生成行車軌跡與推理過程,為首個chain-of-thought reasoning自駕系統。黃仁勳表示,搭載NVIDIA技術之汽車將於2026年第一季在美國正式上路。華爾街見聞以「物理AI的ChatGPT時刻」形容此突破。物理AI長期所能帶動的市場規模,至少是純算力市場的5至10倍。

六、Mercedes CLA L2++自駕合作:NVIDIA DRIVE AV駕駛輔助軟體將首度搭載於全新賓士CLA車型,預計2026年底率先在美國市場推出。CLA採用L2++概念——技術能力接近L3,但策略上保守停留在L2。此設計透過法律與保險風險管理決策,為符合實際上路需求之實用方案。

七、CES 2026 Vera Rubin正式發表:NVIDIA於2026年1月5日正式發表六晶片極致共同設計平台——Rubin GPU(50 PFLOPS FP4、288GB HBM4、22 TB/s)+ Vera CPU(88核心Olympus ARM)+ NVLink 6 Switch + ConnectX-9 + BlueField-4 + Spectrum-6。NVL72機架總算力3.6 EFLOPS FP4,推論成本較Blackwell降低10倍。預計2026年下半年出貨。

八、頻寬層級成為AI運算關鍵瓶頸:過去20年GPU運算能力成長60,000倍,但DRAM記憶體頻寬僅成長100倍,形成嚴重「記憶體牆」(Memory Wall)。AI運算之有效性能已非僅取決於晶片算力,而是受限於五個頻寬層級:(一)晶片內HBM/SRAM頻寬、(二)晶片間銅線/CPO光連接、(三)機櫃內NVLink/銅線背板、(四)機櫃間OCS光交換、(五)資料中心間光通訊。

九、台積電COUPE技術突破:台積電COUPE(緊湊型通用光子引擎)技術利用SoIC-X晶片堆疊,將電子積體電路(EIC)直接堆疊於光子積體電路(PIC)上方,可降低70%功耗並大幅提升頻寬密度。NVIDIA Quantum-X與Spectrum-X光子交換器均採用COUPE技術,每個光學引擎支援1.6 Tbps雙向傳輸。預計2026年進入商轉爆發期。

十、Feynman架構X3D堆疊LPU設計:根據AGF爆料,NVIDIA計劃於2028年推出之Feynman架構GPU,將採用台積電A16(1.6奈米)製程與X3D堆疊設計,將專為推論加速設計之LPU單元直接堆疊於GPU上方。此為本報告先前預測之「Mini-Groq核心整合」之具體實現方案,結合Groq之確定性執行技術,將使AI推論速度達到「質的飛躍」。

十一、Google TPU v7正式量產:TPU v7已於2025年11月進入正式量產。單晶片規格4,614 TFLOPS FP8、192GB HBM3e、7.4 TB/s頻寬。單一Pod可擴展至9,216顆晶片(42.5 EFLOPS FP8),為現階段業界最大可用叢集規模。Anthropic已宣布訂購100萬顆TPU v7用於Claude模型訓練。

十二、Cerebras WSE-3推論速度優勢:Cerebras晶圓級引擎WSE-3在AI推論速度方面展現顯著優勢。根據Artificial Analysis驗證基準測試,Cerebras在Llama 3.1 70B推論達2,100 tokens/s(較最快GPU方案快16-68倍),首字回應時間約50ms(GPU方案約500-2000ms)。此優勢源於晶圓級整合之21 PB/s記憶體頻寬與214 Pb/s晶片內互連頻寬。

十三、CUDA演進為智慧型異質調度器:在導入LPU異質架構後,CUDA極有可能演進為「智慧型異質調度器」,實現自動化異質資源調度。程式設計師只需描述「要算什麼」,編譯器自動決定「如何算」與「在哪算」。

十四、軟體定義硬體之鎖定效應:CUDA作為「軟體定義硬體」平台,已形成超過400萬開發者之生態系統。程式碼資產與轉換成本構成難以逾越之護城河,轉換成本將高到難以想像的地步。

十五、Groq專利組合價值:Groq擁有63件全球專利,其核心價值在於靜態編譯器排程與確定性執行技術。此技術是實現Feynman架構X3D堆疊設計之關鍵。

十六、選型核心建議:軟體投資保護為首要考量,AI開發之軟體投資通常超過硬體投資3-5倍。系統整合能力重於單一晶片規格,AI系統效能取決於晶片、互連、記憶體、軟體之整體協作。應避免頻繁更換平台,每次平台轉換均需承擔軟體遷移成本(中型專案6-12人月、大型專案50+人月)。

十七、總體結論:對於企業級AI平台建置,NVIDIA仍為最具投資保障之選擇。其五大競爭優勢(CUDA生態、ICMSP、CPO、系統級優化、物理AI)構成結構性領先,明確之升級路徑(Vera Rubin 2026H2 → Rubin Ultra 2027H2 → Feynman 2028H2)確保投資延續性,CUDA生態系統確保軟體資產不致浪費。客戶只有一筆錢能花——應選擇架構有延伸性、投資有保障、營運成本低、好維護、不需不斷重新開發或轉換軟體程式之平台。基於本報告之全面分析,NVIDIA符合上述所有條件,為企業級AI投資之首選方案。



2025年12月29日 星期一

NVIDIA取得Groq技術之深層邏輯,不僅是「GPU+LPU」架構優勢,更透過「軟體定義硬體」實現「運算無感化」!

 本文我基本認同,但需要下述重要補充。

全球AI運算競爭態勢:
目前競爭已形成「三足鼎立」態勢,各家針對「記憶體牆」(Memory Wall)與「延遲問題」提出完全不同的解方:
一、異質架構陣營:NVIDIA + Groq
• 技術核心:將「通用性控制」與「確定性推論」分離
• 解決路徑:GPU處理複雜邏輯,LPU之SRAM解決HBM存取延遲
• 優勢:軟體生態系成熟(CUDA)、適應性強、可處理動態工作負載
• 劣勢:跨機櫃通訊仍依賴InfiniBand電路交換,存在O-E-O轉換延遲
二、晶圓級運算陣營:Cerebras WSE-3
• 技術核心:將整塊晶圓(46,225 mm²)做成單一晶片
• 規格:4兆電晶體、90萬AI核心、44GB片上SRAM、125 petaflops
• 效能:Llama 3.1-405B達969 tokens/sec,較GPU快10-75倍
• 優勢:徹底消滅晶片間通訊延遲,記憶體頻寬為H100之7,000倍
• 劣勢:成本極高、散熱挑戰、彈性較低
關鍵威脅:Cerebras之推論速度在某些場景甚至高於LPU。NVIDIA取得Groq後,Cerebras成為其在專用推論晶片領域之主要競爭對手。
三、垂直整合陣營:Google TPU + OCS
Google之競爭優勢不僅在於TPU本身,更在於其Apollo/Palomar光通訊交換系統(OCS):
(一)OCS技術核心
• MEMS光學交換:使用2D鏡面陣列、透鏡、攝影機進行光束轉向
• 消除O-E-O轉換:傳統網路需進行「光-電-光」轉換,OCS允許訊號直接在光域交換
• 能耗降低40%、延遲降低30%:Google論文數據
• 動態拓撲重構:可在毫秒內重新繞道,軟體層級即時重構數萬顆TPU連線
• 規模:TPUv7 pod可達9,216顆TPU,使用48個300埠OCS交換機
(二)Google OCS對NVIDIA之衝擊
根據SemiAnalysis、LightCounting等專業分析:
• NVIDIA每顆GPU未來可能需要10個光收發器,Google僅需1.5個/TPU
• Google對LPO/CPO無興趣,因其OCS設計本身已極為高效
• NVIDIA之NVLink雖在機櫃內表現優異,但跨機櫃仍依賴InfiniBand電路交換
關鍵洞見1:NVIDIA急於引進Groq,本質上是為了在「單點推論效率」取得絕對領先,以彌補其在「跨機櫃網路通訊」成本較Google高昂之劣勢。這是「以電學對抗光學」之戰略選擇。
另外,台積電之COUPE(COmpact Universal Photonic Engine)封裝技術正在改變遊戲規則,可能直接威脅Google在光通訊架構上的領先地位。
且NVIDIA自2024年起大幅投資矽光子,Blackwell之後的架構(如2026年的Rubin)預計將全面導入CPO(共封裝光學),以應對NVLink Switch的頻寬壓力。根據NVIDIA官方部落格,Quantum-X Photonics與Spectrum-X Photonics將於2026年商用。
*** 結論(硬體)***:所以,隨著台積電CPO技術於2026年成熟量產,NVIDIA將同時擁有「LPU單點突破」與「CPO光學連結」兩張牌。這可能使NVIDIA在「單一機櫃內頻寬」追平甚至超越Google,同時在「推論效率」上保持領先。
關鍵洞見2:CUDA 13.1 的自動化能力,在導入 LPU 後,將會演進為一個 「智慧型異質調度器(Intelligent Heterogeneous Dispatcher)」。
未來的 CUDA 版本將不再只是分配 GPU 核心數,而是進行「任務性質識別」:
。 邏輯運算與預處理(GPU 負責): CUDA 將自動偵測程式碼中涉及條件分支(Branches)、複雜控制流或 RAG 檢索的部分,將其派發至 Blackwell/Rubin GPU。
。 確定性序列生成(LPU 負責): 針對 Transformer 架構中極度標準化的 Attention 與 FFN 層,CUDA 將利用 Groq 的編譯器技術,將其轉換為 LPU 的時序指令集(Timing-based Instructions)。
。 無感化編譯: 程式設計師只需撰寫標準的 PyTorch 或 JAX 代碼,CUDA 驅動程式會在底層自動完成「異質編譯」,實現真正的「軟體定義運算」。
*** 結論(軟體)***:購併 Groq 對 NVIDIA 軟體護城河的實質影響
NVIDIA 購併 Groq 並非僅僅是買下其硬體,而是為了取得 Groq 那套「強決定性編譯器」並將其 CUDA 化。
*** 綜合結論 ***:NVIDIA取得Groq技術之深層邏輯,不僅是「GPU+LPU」架構優勢,更是在「光通訊技術落後Google」之現實下,透過「軟體定義硬體」實現「運算無感化」——開發者僅需描述「要算什麼」,編譯器自動決定「在哪算」。這是比硬體規格更強大的競爭護城河。
【深度解析】NVIDIA 為什麼一定要 Groq:「GPU + LPU」可能是AI推論爆發後,下一代的標準架構
本該休息的聖誕夜,NVIDIA 低調丟出一顆深水炸彈——
與 LPU(Language Processing Unit)推論晶片業者 Groq 達成非獨家授權合作,Groq 創辦人暨 CEO Jonathan Ross 及部分高階主管將加入 NVIDIA。
CNBC 一度傳出這是 200 億美元等級的併購案,但實際公布的結構更像 Meta × Scale AI 的模式:
不直接併購、不吃下公司,而是 吃下關鍵技術與關鍵人,巧妙避開反壟斷審查。
如果只把這件事理解成「NVIDIA 又買了一家新創」,那就太低估此次投資案的影響力了。
這其實是 NVIDIA 首度正式承認:GPU 並不是 AI 推論的終局。但也同時組成目前AI最強架構。
一、為什麼是 Groq?為什麼是 LPU?
Groq 不是一般新創。
創辦人 Jonathan Ross,正是當年在 Google 內部發起 TPU 計畫、並擔任第一代 TPU 架構師的人。他離開 Google 的理由很簡單:
「TPU 在軟硬體整合上,還有本質性的進步空間。」
於是 2016 年,Groq 誕生,核心理念只有一句話:
LLM 推論不是平行運算問題,而是時間問題。
這個觀點,直接導向了 LPU 架構,可以說LPU就是為了AI推論而生的最適設計。
LPU 的設計
• LLM 推論是 token-by-token 的序列生成
• 下一個 token,必須等上一個 token 完成
• 吞吐不是關鍵,延遲才是王道
因此 LPU 做了 GPU、TPU 都沒做的事:
• 不用外掛 HBM
• 晶片上配置 超大面積 SRAM
• 不需要 cache(因為資料位置在編譯期已完全確定)
• 編譯器直接把模型「攤平成時間表」
結果是什麼?
資料幾乎零延遲、執行完全確定性、推論效率逼近物理極限
這不是「GPU 或 TPU 的小改良」,而是完全不同的哲學。
二、GPU × LPU:不是競爭,而是上下游分工
市場最容易犯的錯誤,是想了解:
「LPU 會不會取代 GPU?」
真正該問的是:
「哪些工作,根本不該再由 GPU 來做?」
AI 工作負載自然會分裂成兩個世界
① 不確定性世界(GPU 的主場)
• 模型載入與切換
• Prompt 處理
• KV cache 管理
• Speculative decoding
• 多模型 routing(MoE、Agent)
• RAG、工具呼叫
• 動態 batch、控制流判斷
這些任務的共同點是:
• 分支多
• 邏輯複雜
• 模型與策略隨時會變
👉 這是 GPU 存在的根本價值
GPU 的本質,是 AI 系統的 Control Plane(控制平面)。
② 確定性世界(LPU 的主場)
• Attention block
• FFN
• 已知 shape 的 token 推論
• 重複性極高、可預測的 kernel
這些任務的共同點是:
• 結構固定
• 重複性極高
• 嚴格時間序列
👉 GPU 也能做,但不是最有效率的做法
LPU 的本質,是 AI 系統的 Data Plane(資料平面)。
NVIDIA 最合理的整合方式,不是把GPU跟LPU「合成一顆晶片」
關鍵不是把 LPU 塞進 GPU,而是:
GPU 負責「決定要做什麼」
LPU 負責「把確定的事做到最有效率」
實際運作會長得像這樣:
GPU
• 接收推論請求
• 決定模型與路徑
• 處理動態與不確定性
LPU
• 執行已排好序的推論工作
• 以最低延遲輸出 token
這是一個系統級異質運算架構,而不是單晶片競賽。
三、GPU + LPU vs 純 TPU 系統:誰更有長期優勢?
這裡,才是投資人真正該關心的比較。
市場上很多討論 TPU vs GPU的文章:
但今天真正的對手,已經不是「GPU 單打獨鬥」,而是 GPU + LPU 的異質系統。
如果不把「系統層級」攤開來看,無法得出正確結論。
1、兩種系統的「核心世界觀」完全不同
純 TPU 系統的世界觀是:
AI 的主要運算型態是可預期的張量乘法,只要把這件事做到最有效率即可
因此 TPU 系統的設計邏輯是:
• 用硬體鎖死「最常見的數學形式」
• 用 HBM 解決資料量問題
• 用整代晶片更新來追模型演進
這是一種 效率極高、但前提極強的假設。
GPU + LPU 系統的世界觀是:
AI 的上層是不確定的,但底層存在大量可壓榨的確定性
因此它的設計邏輯是:
• GPU 吞下所有不確定性
• LPU 只處理「已經確定、不會再變」的部分
• 把適應成本留在軟體與系統層,而不是硬體層
這是一種 為變化而生 但又 極其有效率 的架構。
二、在「AI 模型架構改變時」,兩者反應方式完全不同
這是最關鍵、也是投資人最該在意的地方。
當模型架構「小幅變動」時(attention 變體、參數放大)
TPU
• 仍能運作
• 但效能是否最優,取決於是否符合原始假設
• 真正的修正要等下一代 TPU
GPU + LPU
• GPU 立刻用新 kernel、新 runtime 接住
• LPU 只要推論流程不變,仍可繼續使用
• 風險主要在軟體,不在硬體
👉 GPU+LPU 的適應速度明顯快於 TPU
當模型架構「中度變動」時(MoE、Agent、多模型協作)
TPU
• 問題開始浮現
• 動態 routing、條件分支、模型切換,並非 TPU 的強項
• 系統複雜度快速上升
GPU + LPU
• GPU 負責 routing、決策、控制流
• LPU 繼續只做固定推論
• 系統自然解耦,不需硬體重構
👉 這一階段,GPU+LPU 開始明顯拉開差距
當模型架構「典範轉移」時(全新推論流程)
這才是「生死線」。
TPU
• 需要重新定義:
• 運算單元
• 記憶體配置
• 資料流假設
• 本質上就是:等下一代晶片救命
GPU + LPU
• GPU 先用軟體頂上
• 新的「確定性部分」再慢慢下放給 LPU
• 系統仍可持續運作
👉 TPU 承擔的是「硬體世代風險」,GPU+LPU 承擔的是「軟體工程風險」
這對投資人來說,差異極大。
三、延遲、能耗、資本效率:誰在什麼條件下更好?
推論延遲
TPU
• 仍需經過 HBM
• 延遲存在物理下限
GPU + LPU
• 真正關鍵推論在 SRAM
• 延遲更接近理論極限
👉 在即時推論(real-time inference)上,GPU+LPU 上限更高
能耗效率
TPU
• 在張量密集、穩定負載下表現極佳
GPU + LPU
• LPU 負責吃掉最耗能的推論段
• GPU 不再被迫做「不適合它的事」
👉 在複雜實際工作負載中,GPU+LPU 更接近全系統最優解
資本配置與折舊風險(投資人重點)
TPU
• 架構與模型綁定
• 模型變 → 晶片可能提前折舊
GPU + LPU
• GPU 壽命由軟體延展
• LPU 專注固定場景,投資回收路徑清楚
👉 GPU+LPU 的資本風險更可控
四、把差異說到最清楚
TPU 是「把未來假設寫進硬體」
GPU + LPU 是「讓硬體接受未來會變」
這不是技術優劣問題,而是設計哲學差異。
五、為什麼這讓 NVIDIA 比 Google 更有戰略彈性?
因為:
• Google 可以確保自己的模型世界長什麼樣子
• NVIDIA 必須活在「全世界模型都在亂變」的現實裡
在這個前提下:
GPU + LPU 幾乎是唯一合理的長期架構選擇
投資級最終結論
TPU
• 是極佳的內部成本武器
• 但風險集中、外溢效益有限
GPU + LPU
• 是為不確定世界設計的系統
• 更符合 AI 長期演化路徑
GPU + LPU 系統的優點與代價
優點:
• GPU 吸收所有不確定性(模型怎麼變都能接)
• LPU 專心壓榨推論延遲與能耗
• 訓練 / 控制 / 推論分層清楚
• 對 AI 架構變動的「適應能力」最強
代價:
• 系統複雜度提高
• 需要極強的軟體與系統整合能力
• 只有少數公司玩得起
👉 這正是 NVIDIA 的核心優勢所在。憑藉著極其充裕的現金流,NVIDIA 有能力投入巨額研發,完善生態系統供業界使用;這不僅能進一步擴大獲利,更鞏固了其市場護城河,達成企業與生態系的雙贏。
四、真正的結論:這不是晶片戰,而是系統戰
如果只看單一晶片:
• GPU 不夠省電
• TPU 不夠彈性
• LPU 不夠通用
但如果從 系統第一性原理來看:
GPU 管理變化
LPU 壓榨確定性
NVIDIA 統一整個堆疊
這解釋了為什麼 NVIDIA 不會放棄 GPU,
卻一定要把 LPU 納入版圖。
未來的AI發展
GPU 是 AI 世界的作業系統,
LPU 是推論時代的加速器,
NVIDIA 要的是「整個系統的主導權」。
免責聲明
本文僅為個人對半導體與 AI 架構之產業研究與分析,不構成任何投資建議,亦不保證市場走勢或個股表現。投資有風險,請自行判斷並承擔相關風險。
Hashtags