從GPU到AI基礎(chǔ)設施,英偉達的戰(zhàn)略眼光早已超越了系統(tǒng)供應商、數(shù)據(jù)中心方案提供商,鎖定了數(shù)萬億美元價值的AI基礎(chǔ)設施行業(yè)。
在Computex2025開幕演講中,英偉達CEO黃仁勛開門見山地宣稱,英偉達在實現(xiàn)從GPU到AI基礎(chǔ)設施的轉(zhuǎn)型。
黃仁勛不無調(diào)侃地說起剛剛創(chuàng)辦英偉達時的愿景,當時,他認為公司所面臨的市場很巨大,是價值3億美元的芯片行業(yè)。而后來看到,數(shù)據(jù)中心是價值1萬億美元的機會。
隨著AI發(fā)展到今天,不論是定位于生產(chǎn)token的“AI工廠”或是AI基礎(chǔ)設施企業(yè),所面臨的都是數(shù)萬億美元的價值。
“我向大家保證,10年后,你們再回首時,會發(fā)現(xiàn)AI已經(jīng)融入一切,我們也需要AI無處不在。就像互聯(lián)網(wǎng)、電力,這就是我們今天所構(gòu)建的‘工廠’,它不像過去的數(shù)據(jù)中心,而是AI工廠”,黃仁勛強調(diào)。
英偉達的“來時路”和“未來途”
黃仁勛表示,當天的主題演講,雖然90%的內(nèi)容都不是GeForce,但都與GeForce有關(guān)。
正是Geforce 系列奠定了英偉達在圖形處理領(lǐng)域的地位,并將CUDA推向了世界。他主題演講中所展現(xiàn)的視頻,僅有10%的像素經(jīng)過渲染,其余90%都由AI推測完成,也就是英偉達有名的DLSS神經(jīng)渲染技術(shù)。
GeForce將AI推向了世界,AI也徹底改變了GeForce。
如果說GeForce是英偉達的“來時路”,那么,AI基礎(chǔ)設施正是英偉達努力抵達的“未來途”。
通往AI基礎(chǔ)設施的重大戰(zhàn)略動向
黃仁勛在Computex主題演講上介紹了一系列重大進展,包括Blackwell GB300、RTX Pro 系列服務器、Omniverse 數(shù)字孿生技術(shù)、開源人形機器人Isaac Groot N1.5 平臺等等。不過,我們著重關(guān)注一下英偉達在通往AI基礎(chǔ)設施這個目標的重大戰(zhàn)略動向,主要包括:NVLink Fusion、Grace Blackwell系統(tǒng)和DGX Cloud Lepton平臺。
NVLink Fusion:打開英偉達AI生態(tài)系統(tǒng),瞄準AI工廠規(guī)?;枨?/strong>
NVLink作為英偉達專有的高速互連技術(shù),一直是其AI系統(tǒng)性能優(yōu)勢的關(guān)鍵差異化因素。最新宣布的NVLink Fusion,則可以說是進一步打開了英偉達生態(tài)的大門,拓展至合作伙伴半定制的AI基礎(chǔ)設施解決方案中。
黃仁勛解釋了如何將NVLink Fusion與其他公司的定制ASIC集成:"現(xiàn)在,我們使你能夠在計算層面上進行混搭。這就是你使用定制ASIC所做的事情。我們有很棒的合作伙伴,他們正在與我們合作,將你的專用TPU、專用ASIC或?qū)S眉铀倨骷傻酱笠?guī)模系統(tǒng)中。我們創(chuàng)建了一個NVLink芯片組,基本上是一個直接靠近你芯片的交換機。也有IP可用于集成到你的半定制ASIC中。然后,它可以直接放入計算板中,融入英偉達的AI超級計算機生態(tài)系統(tǒng)。"
這也意味著,即使用戶的AI基礎(chǔ)設施中不全是英偉達的產(chǎn)品,可能有其他的CPU、ASIC等,通過NVLink芯片組,或是IP集成的方式,都可以使用NVLink基礎(chǔ)設施和生態(tài)系統(tǒng)。
MediaTek、Marvell、Alchip Technologies、Astera Labs、Synopsys 和 Cadence 是首批采用 NVLink Fusion 的廠商,可支持定制化芯片縱向擴展(Scale-up)以滿足模型訓練和代理式 AI 推理等要求嚴苛的工作負載的需求。
使用 NVLink Fusion,富士通和 Qualcomm CPU 還可與 NVIDIA GPU 進行整合,以構(gòu)建高性能的 NVIDIA AI 工廠。
藉由NVLink Fusion開放生態(tài)系統(tǒng),是英偉達非常明智的一步棋,它正是瞄準了AI工廠的規(guī)模化需求,以及異構(gòu)計算的多樣化需求,通過發(fā)揮其性能優(yōu)勢和生態(tài)粘性,形成超大規(guī)模集群支持,擴大AI工廠的應用邊界,打造其AI基礎(chǔ)設施的不可替代性。
Grace Blackwell實現(xiàn)“巨型計算機”愿景,支撐AI推理范式升級
新的計算架構(gòu)Grace Blackwell——是英偉達通往AI基礎(chǔ)設施的重要橋梁。
黃仁勛說:"過去三年,我們一直在開發(fā)一個新的計算機系統(tǒng),使我們能夠進行推理時間擴展,或者說極快地思考。因為當你思考時,你實際上是在你的頭腦中生成大量的'tokens',生成大量的想法,并在產(chǎn)生答案之前在大腦中進行迭代。所以,過去的一次性AI現(xiàn)在將變成思考AI、推理AI、推理時間擴展AI,這將需要更多的計算。" Grace Blackwell——正是為了應對AI推理時間擴展的挑戰(zhàn)而設計的。
Grace Blackwell系統(tǒng)有兩大能力非常關(guān)鍵:scale up和scale out。黃仁勛解釋了這兩個概念的區(qū)別:"scale up意味著將一臺計算機變成一臺巨型計算機;scale out是將一臺計算機連接到多臺計算機,讓工作在多臺不同的計算機上完成。scale out很容易,scale up極其困難。因為建造超越半導體物理極限的更大計算機是極其困難的,這正是Grace Blackwell所做的。”
傳統(tǒng)計算架構(gòu)由于受限于芯片制程、散熱和互聯(lián)帶寬,無法通過簡單堆疊硬件提升性能。而Grace Blackwell通過創(chuàng)新的芯片設計和NVLink技術(shù),將單機算力推向了新高度。
據(jù)介紹,Grace Blackwell 已全面投入生產(chǎn),并于2月開始交付。英偉達將于今年第三季度推出GB300硬件系統(tǒng),配備升級版Blackwell芯片,其推理性能提升了1.5倍,HBM內(nèi)存容量增加了1.5倍,網(wǎng)絡連接能力翻倍,整體性能都得到加強。
對于打造AI基礎(chǔ)設施這個宏圖愿景來說,Grace Blackwell具有技術(shù)和商業(yè)的雙重意義:技術(shù)方面,它突破單機算力極限,實現(xiàn)了“巨型計算機”愿景,支撐AI從預測到思考的范式升級;商業(yè)方面,它將繼續(xù)幫助英偉達鎖定超大規(guī)模客戶,與合作伙伴共建以Grace Blackwell為核心的AI基礎(chǔ)設施。
DGX Cloud Lepton平臺:將全球開發(fā)者與數(shù)萬顆GPU連接起來
隨著英偉達逐年高漲的財報,其GPU的安裝基礎(chǔ)也越來越遍布全球。這其中有一個價值閉環(huán)可以思考一下:GPU安裝基數(shù)越大,參與其中的開發(fā)人員就越多;軟件生態(tài)發(fā)展,會吸引更多開發(fā)者主動構(gòu)建針對英偉達GPU的加速庫,豐富的庫和工具鏈使開發(fā)者能夠快速部署高性能AI應用;當開發(fā)者通過庫實現(xiàn)更復雜的模型,用戶對算力的需求呈指數(shù)級增長,將會推動更多GPU部署或是升級至最先進的GPU產(chǎn)品。
你是否注意到了這個閉環(huán)中最核心的環(huán)節(jié)?沒錯,就是開發(fā)者。對于英偉達構(gòu)建全球AI工廠、打造全球AI基礎(chǔ)設施的宏大愿景中,開發(fā)者是一個不變的核心。
在英偉達的多個產(chǎn)品使命中,DGX Cloud的目的是讓全球開發(fā)者能夠無縫連接所有計算資源。而當前,開發(fā)者面臨的挑戰(zhàn)在于:如何快速獲取、發(fā)現(xiàn)和準備算力,并實現(xiàn)跨多個云服務商的工作負載。
為此,英偉達最新推出了DGX Cloud Lepton平臺,這是一個能夠?qū)⑷蜷_發(fā)者與數(shù)萬顆GPU連接起來的計算平臺。這些GPU可從全球云服務提供商網(wǎng)絡獲取,用于構(gòu)建代理和物理AI應用程序。
DGX Cloud Lepton平臺提供跨開發(fā)、訓練和推理的統(tǒng)一體驗,開發(fā)者可以直接通過市場從參與的云服務提供商購買GPU容量,或自帶計算集群,提高了生產(chǎn)力和靈活性。它也支持在多云和混合環(huán)境中以最小的操作負擔部署AI應用,使用集成服務進行推理、測試和訓練工作負載。并且,開發(fā)者可以快速訪問特定區(qū)域的GPU資源,確保遵守數(shù)據(jù)主權(quán)法規(guī),并滿足敏感工作負載的低延遲要求。
包括CoreWeave、Crusoe、Firmus、富士康(Foxconn)、GMI Cloud、Lambda、Nebius、Nscale、軟銀(Softbank Corp.)和Yotta Data Services在內(nèi)的NVIDIA云合作伙伴(NCPs),將在DGX Cloud Lepton市場上提供基于NVIDIA Blackwell架構(gòu)及其他NVIDIA GPU的算力資源。
黃仁勛表示:“DGX Cloud Lepton將全球GPU云服務商與AI開發(fā)者連接在一起。我們與NCPs共同打造的行星級AI工廠,將成為未來AI創(chuàng)新的核心基礎(chǔ)設施。”
正如黃仁勛所介紹,DGX Cloud Lepton是一個典型的以AI為核心的軟件平臺,通過智能化能力使資源訪問和部署變得無縫化,并支持在全球范圍內(nèi)自動擴展工作負載。
此外,開發(fā)者可以按需選擇部署區(qū)域——例如,若需低延遲的推理服務,可選擇靠近用戶的區(qū)域。這種跨云編排能力此前一直是開發(fā)者的痛點,而該平臺的目標正是簡化這一流程。
寫在最后
構(gòu)建全球AI工廠,是英偉達近年來攜手云合作伙伴不斷推進的一個重大舉措,本質(zhì)上來看,這也標志著從傳統(tǒng)數(shù)據(jù)中心向?qū)锳I工作負載設計的基礎(chǔ)設施的根本轉(zhuǎn)變。
在這個宏大藍圖中,英偉達需要對很多產(chǎn)品進行規(guī)模化、標準化的探索,才能構(gòu)筑全球AI基礎(chǔ)設施這個牢固的底座。比如CUDA、NVLINK Fusion、DGX Cloud Lepton、以及作為重要支撐的Grace Blackwell,還有本文沒有展開介紹的高性能網(wǎng)絡、各種豐富的軟件庫、工具等等,只有所有這些因素形成一個有機整體,才能構(gòu)筑強有力的AI基礎(chǔ)設施,真正通往未來AI。