一塊芯片炒到50萬元,國(guó)產(chǎn)GPU備戰(zhàn)突圍,誰是“中國(guó)版”英偉達(dá)?
一塊芯片炒到50萬元,國(guó)產(chǎn)GPU備戰(zhàn)突圍,誰是“中國(guó)版”英偉達(dá)?
“芯事重重”騰訊科技半導(dǎo)體產(chǎn)業(yè)研究策劃,本期聚焦大模型爆火的背后,全球芯片算力市場(chǎng)的新格局的形成,頭部企業(yè)的布局以及國(guó)產(chǎn)廠商的追逐。
?文 I 王藝可 十巷 , 編輯 I 蘇揚(yáng)?敘白
報(bào)道 I 芯潮 IC ,ID I xinchaoIC
ChatGPT意外掀起的一波AI革命,再次帶火了AI芯片市場(chǎng)。
“A800?和 H800?這類芯片,從原來的12萬人民幣左右,變成了現(xiàn)在25萬甚至30萬,甚至有高達(dá)50萬一片。”這是發(fā)生在國(guó)內(nèi)芯片分銷圈的真實(shí)一幕,除了價(jià)格不斷暴漲,國(guó)內(nèi)大廠想大批量拿芯片,還要得和黃仁勛“有直接關(guān)系”。
正所謂“無芯片,不AI”,隨著大模型的算力需求飆升,身為AI技術(shù)地基的芯片迎來了重要商機(jī)。OpenAI曾預(yù)計(jì),人工智能科學(xué)研究要想取得突破,所需要消耗的計(jì)算資源每3到4個(gè)月就要翻一倍,資金也需要通過指數(shù)級(jí)增長(zhǎng)獲得匹配,這也被稱為人工智能領(lǐng)域的“摩爾定律”。
英偉達(dá)CFO克雷斯表示,目前AI 算力市場(chǎng)的需求已經(jīng)超出了公司對(duì)未來數(shù)個(gè)季度的預(yù)期,訂單已經(jīng)多到做不過來。
生成式AI這波浪潮,讓英偉達(dá)賺了個(gè)盆滿缽滿。在上市14年之后,英偉達(dá)成功躋身萬億美元市值俱樂部,而實(shí)現(xiàn)這一目標(biāo),硅谷巨頭們諸如蘋果用了37年、微軟用了33年、亞馬遜用了21年,特斯拉跑得最快,只用了11年。
這也刺激著中國(guó)芯片企業(yè)躍躍欲試,諸如海光信息、寒武紀(jì)、龍芯中科、壁仞科技、天數(shù)智芯等國(guó)產(chǎn)芯片企業(yè),都懷揣一顆“中國(guó)版”英偉達(dá)的雄心,嘗試憑自研為國(guó)產(chǎn)大模型賦能。一些大廠也開始用自研AI芯片支持模型的部分訓(xùn)練或推理任務(wù),如百度昆侖芯片、阿里含光800......
面對(duì)AI算力帶來的萬億市場(chǎng),國(guó)內(nèi)企業(yè)能不能吃到這波紅利呢?國(guó)產(chǎn)芯片廠商該如何越過英偉達(dá)“高山”?這是任何一家公司都無法逃避的問題。
01
AI狂潮
締造了一個(gè)萬億市值的英偉達(dá)
愛穿皮衣的男人最先吃到了AI紅利。
2022年底,ChatGPT問世后,迅速在全世界引起了 AI 狂潮。在這其中,一直押注AI未來的英偉達(dá),成為了ChatGPT浪潮中受益最多的公司之一。在今年的英偉達(dá)GTC大會(huì)上,英偉達(dá)創(chuàng)始人CEO黃仁勛披露了全新的人工智能及芯片技術(shù),并稱人工智能的“iPhone時(shí)刻”已經(jīng)到來。
在發(fā)布會(huì)上,黃仁勛表示,類似ChatGPT的大型語言模型的部署是一個(gè)重要的全新推理工作負(fù)載,為了支持大型語言模型推理,英偉達(dá)發(fā)布了一系列圍繞 AI 領(lǐng)域的產(chǎn)品和服務(wù),其中,采用全新架構(gòu)和更先進(jìn)制程的 H100?芯片最為引人注目。
圖源:NVIDIA官網(wǎng)
這款 GPU是基于 NVIDIA Hopper 架構(gòu)的 H100?,配有一個(gè) Transformer 引擎,旨在處理驅(qū)動(dòng)類似ChatGPT的?預(yù)訓(xùn)練模型。與用于 GPT-3 處理的 HGX A100?相比,配備四對(duì) H100?與雙 GPU NVLink 的標(biāo)準(zhǔn)服務(wù)器的訓(xùn)練速度可提10?倍。
“H100可以將大語言模型的處理成本降低一個(gè)數(shù)量級(jí)?!秉S仁勛曾表示。基于H100芯片,英偉達(dá)還構(gòu)建了最新的DGX超級(jí)計(jì)算機(jī),搭載8個(gè)H100 GPU,使它們連接成為一個(gè)巨大的GPU,為AI基礎(chǔ)設(shè)施的構(gòu)建提供“藍(lán)圖”,目前全新的DGX超級(jí)計(jì)算機(jī)已經(jīng)全面投產(chǎn)。
在這之后,英偉達(dá)旗下?A100、H100、A800?和?H800?等高性能?GPU?芯片應(yīng)聲漲價(jià),尤其旗艦級(jí)芯片H100,4 月中旬在海外電商平臺(tái)就已炒到超 4 萬美元,甚至有賣家標(biāo)價(jià) 6.5 萬美元。
同時(shí),英偉達(dá)的中國(guó)特供版 A800?和 H800芯片也遭到了哄搶?!皣?guó)內(nèi)大模型企業(yè)基本上很難拿得到這些芯片。整個(gè)市場(chǎng)需大于求,缺貨非常厲害。”電子元器件采購(gòu)供應(yīng)商「廣鑫世紀(jì)」創(chuàng)始人張覺對(duì)芯潮IC坦言:“今年,這類GPU芯片從原來的12萬人民幣左右,變成了現(xiàn)在是25萬甚至30萬,甚至有高達(dá)50萬一片?!?。
毫無疑問,英偉達(dá)在高性能GPU方面的技術(shù)領(lǐng)先地位,旗下A100和H100兩款A(yù)I芯片是ChatGPT這樣的大語言模型的核心動(dòng)力。
一些云計(jì)算專業(yè)人士認(rèn)為,1萬顆英偉達(dá)A100芯片是一個(gè)好的AI模型的算力門檻。而微軟為OpenAI構(gòu)建的用于訓(xùn)練其模型的AI超級(jí)計(jì)算機(jī)就配備了1萬顆英偉達(dá)的GPU芯片。無獨(dú)有偶,國(guó)內(nèi)各互聯(lián)網(wǎng)大公司也紛紛向英偉達(dá)下大單,據(jù)晚點(diǎn) LatePost報(bào)道,字節(jié)今年向英偉達(dá)訂購(gòu)了超過 10?億美元的 GPU,另一家不便透露姓名的大公司,其訂單也至少超過 10?億元人民幣。
更夸張的是,這些公司最終能否搶到卡,更多是看商業(yè)關(guān)系,尤其以往是不是英偉達(dá)大客戶的企業(yè)。“你是和中國(guó)英偉達(dá)談,還是去美國(guó)找老黃(黃仁勛)直接談,都有差別?!?/strong>
由此,英偉達(dá)的財(cái)務(wù)數(shù)據(jù)再度攀上新高。5月25日,英偉達(dá)發(fā)布一季度財(cái)報(bào),AI芯片所在數(shù)據(jù)中心業(yè)務(wù)的營(yíng)收創(chuàng)歷史新高,保持10%以上同比增速。
黃仁勛透露,現(xiàn)在整個(gè)數(shù)據(jù)中心產(chǎn)品系列都在生產(chǎn)中,都正在大幅增加供應(yīng),以滿足激增的需求。
一系列好消息,直接帶動(dòng)英偉達(dá)股價(jià)節(jié)節(jié)走高。5月30日晚,美股開盤,英偉達(dá)市值直接突破1萬億美元。而7月19日,英偉達(dá)總市值更是在一夜間飆升了1750億美元,再次引發(fā)投資熱潮。
根據(jù)companiesmarketcap網(wǎng)站顯示,英偉達(dá)總市值排名全球第6,也是目前市值最高的芯片公司,接近于兩個(gè)臺(tái)積電(5336億美元),今年以來英偉達(dá)股價(jià)漲幅約180%。不得不承認(rèn),這波AI狂潮讓黃仁勛的英偉達(dá)盆滿缽滿。
02
英偉達(dá)不可能獨(dú)享算力狂潮
“英偉達(dá)不會(huì)永遠(yuǎn)在大規(guī)模訓(xùn)練和推理芯片市場(chǎng)占據(jù)壟斷地位?!?/p>
這是特斯拉CEO埃隆·馬斯克對(duì)社交問答網(wǎng)站和在線知識(shí)市場(chǎng)Quora的首席執(zhí)行官Adam?D'Angelo一條推文的回應(yīng),后者寫道:“人工智能熱潮被低估的一個(gè)原因是GPU/TPU短缺,這種短缺導(dǎo)致了產(chǎn)品推出和模型培訓(xùn)的各種限制,但這些都不明顯。相反,我們看到的是英偉達(dá)的股價(jià)飆升。一旦供給滿足需求,事情就會(huì)加速發(fā)展?!?/p>
顯然,硅谷鋼鐵俠對(duì)此并不認(rèn)同,他還評(píng)論稱:“許多其他的神經(jīng)網(wǎng)絡(luò)加速器芯片也在開發(fā)中,英偉達(dá)不會(huì)永遠(yuǎn)壟斷大規(guī)模訓(xùn)練和推理。”
一場(chǎng)風(fēng)暴即將來襲。
以大模型為核心的AI狂潮,能帶動(dòng)多大的算力市場(chǎng)?東吳證券認(rèn)為,AI模型算力需求持續(xù)擴(kuò)張,打開高性能計(jì)算芯片的市場(chǎng)需求,預(yù)計(jì)2025年我國(guó)AI芯片市場(chǎng)規(guī)模將達(dá)到1780億元,2019-2025復(fù)合年均增長(zhǎng)率可達(dá)42.9%。從市場(chǎng)規(guī)模來看,AI芯片上處于起步階段,但增長(zhǎng)潛力巨大。
而AI芯片是一個(gè)廣義概念,泛指專門用于處理人工智能應(yīng)用中的計(jì)算任務(wù)的模塊,是誕生于人工智能應(yīng)用快速發(fā)展時(shí)代的處理計(jì)算任務(wù)硬件,凡是面向人工智能應(yīng)用的芯片均被稱為AI芯片。主要的技術(shù)路線有三種:通用型(GPU)、半定制型(FPGA)、定制型(ASIC)。
從大模型的訓(xùn)練、場(chǎng)景化的微調(diào)以及推理應(yīng)用場(chǎng)景來看,以CPU+AI芯片提供的異構(gòu)算力,并行計(jì)算能力優(yōu)越、具有高互聯(lián)帶寬,可以支持AI計(jì)算效力實(shí)現(xiàn)最大化,成為智能計(jì)算的主流解決方案。
從市場(chǎng)份額來看,據(jù)艾瑞咨詢測(cè)算,到2027年,中國(guó)的AI芯片市場(chǎng)規(guī)模預(yù)計(jì)將達(dá)到2164億元。隨著AI模型的優(yōu)化落地,AI推理芯片的占比將日益提升。2022年,中國(guó)AI訓(xùn)練芯片以及AI推理芯片的占比分別為47.2%和52.8%。
目前,在AI芯片領(lǐng)域有三類玩家:一種是以英偉達(dá)、AMD為代表的老牌芯片巨頭,產(chǎn)品性能突出;其二是以Google、百度、華為為代表的云計(jì)算巨頭,這些企業(yè)紛紛布局通用大模型,并自己開發(fā)了AI芯片、深度學(xué)習(xí)平臺(tái)等支持大模型發(fā)展。譬如,華為的鯤鵬昇騰、CANN及Mindspore,百度的昆侖芯等。最后還有一些小而美的AI芯片獨(dú)角獸,如寒武紀(jì)、壁仞科技、天數(shù)智芯等。
雖然國(guó)產(chǎn)大模型爆發(fā),可能引發(fā)算力缺口,但國(guó)內(nèi)芯片廠商吃上國(guó)產(chǎn)替代這波紅利只是時(shí)間問題。作為AI訓(xùn)練芯片研發(fā)商,“AI芯片第一股”寒武紀(jì)再次得到市場(chǎng)關(guān)注,股價(jià)不斷拉升,最新市值突破900億。
在云端產(chǎn)品線,寒武紀(jì)已經(jīng)推出了四代芯片產(chǎn)品:2018年的思元100、2019年的思元270、2020年的思元290(車載)、以及2021年發(fā)布的思元370系列,用以支撐在云計(jì)算和數(shù)據(jù)中心場(chǎng)景下復(fù)雜度和數(shù)據(jù)吞吐量高速增長(zhǎng)的人工智能處理任務(wù)。此外,寒武紀(jì)還有一款在研產(chǎn)品思元590,尚未發(fā)布。此外,2022年底,思元370系列與AIGC產(chǎn)品百度飛槳完成II級(jí)兼容性測(cè)試。
但國(guó)內(nèi)大模型公司是否采用了寒武紀(jì)芯片,尚未得到準(zhǔn)確消息。“在高端AI芯片領(lǐng)域,國(guó)產(chǎn)廠商處于剛剛起步的階段,很多東西需要時(shí)間和金錢驗(yàn)證?!蹦迟Y深芯片工程師袒露。哪怕是華為、百度、海光信息等企業(yè)的芯片也與英偉達(dá)產(chǎn)品有著明顯差距。
曾有人坦言,英偉達(dá)與其他芯片廠商的差距,是院士與高中生的差別。就如同黃仁勛所言,英偉達(dá)“一直在奔跑”,想要超越巨人的其它芯片廠商只能奮力狂奔。
03
AI大模型背后的“權(quán)力游戲”
除了英偉達(dá)之外,另一個(gè)GPU巨頭AMD,最近也有了行動(dòng)。
近日,AMD發(fā)布最新加速卡,就在AMD推出最新加速卡Instinct MI300X的發(fā)布會(huì)現(xiàn)場(chǎng),PPT上專門打出一行字——大語言模型專用,這被業(yè)界視為直接向英偉達(dá)宣戰(zhàn)!
據(jù)悉,MI300X的高帶寬內(nèi)存(HBM)密度,最高可達(dá)英偉達(dá)H100的2.4倍,高帶寬內(nèi)存帶寬最高可達(dá)H100的1.6倍,顯然MI300X能運(yùn)行比H100更大的AI模型。
MI300X所在的MI300系列,是AMD為AI和HPC打造的一系列最新APU加速卡。其中,MI300A是“基礎(chǔ)款”,MI300X則是硬件性能更高的“大模型優(yōu)化款”。
目前來看,MI300A已經(jīng)出樣,估計(jì)不久就能買上;大模型專用卡MI300X、以及集成8個(gè)MI300X的AMD Instinct計(jì)算平臺(tái),預(yù)計(jì)今年第三季度出樣,第四季度就能推出。
這幾年來,相比英偉達(dá)一直在AI領(lǐng)域的大動(dòng)作,AMD的行動(dòng)顯得有點(diǎn)遲緩。正如DeepBrain AI的CEO Eric Jang所言,感覺AMD這幾年讓他很失望,5年來沒什么變化。尤其是在AIGC的爆發(fā)過程中,如果AMD不努力跟上,差距只會(huì)越拉越大。
而隨著AMD此次MI300系列產(chǎn)品的推出,終于能看到AMD和英偉達(dá)正面打擂臺(tái)了。
但遺憾的是,市場(chǎng)對(duì)AMD的新卡好像不太買賬。
就在這次AMD發(fā)布會(huì)期間,其股價(jià)不升反降。相比之下,英偉達(dá)股價(jià)還上漲了一波。市場(chǎng)情緒也不難理解,因?yàn)樵诟呖萍碱I(lǐng)域,尤其是新興市場(chǎng),一步快步步快、強(qiáng)者恒強(qiáng)正在成為商業(yè)市場(chǎng)的普遍邏輯。
但其實(shí)細(xì)究原因也能發(fā)現(xiàn),英偉達(dá)壟斷人工智能訓(xùn)練芯片市場(chǎng)的主要原因是其自研的CUDA生態(tài)。所以AMD MI300想要替代英偉達(dá),首先需要兼容英偉達(dá)的CUDA生態(tài),AMD為此推出ROCm生態(tài)圈,并實(shí)現(xiàn)通過HIP完全兼容CUDA,借此來減少用戶已知成本。
對(duì)此,知名投資博主慕容衣認(rèn)為,走兼容英偉達(dá)?CUDA?的路線的難點(diǎn)在于其更新迭代速度永遠(yuǎn)跟不上?CUDA?,并且很難做到完全兼容,即一方面迭代永遠(yuǎn)慢一步。英偉達(dá) GPU 在微架構(gòu)和指令集上迭代很快,在上層軟件堆棧上很多地方也要做相應(yīng)的功能更新,但是 AMD 不可能知道英偉達(dá)的產(chǎn)品路線圖,軟件更新永遠(yuǎn)會(huì)慢英偉達(dá)一步(例如 AMD 有可能剛宣布支持了 CUDA11,?但是英偉達(dá)已經(jīng)推出 CUDA12了);另一方面,難以完全兼容反而會(huì)增加開發(fā)者的工作量,像 CUDA 這樣的大型軟件本身架構(gòu)很復(fù)雜,AMD 需要投入大量人力物力用幾年甚至十幾年才能追趕上,因?yàn)殡y免存在功能差異,如果兼容做不好反而會(huì)影響性能。所以,這些也是大家目前不太買賬的關(guān)鍵原因。
據(jù)Khaveen Investments測(cè)算,英偉達(dá)數(shù)據(jù)中心GPU 2022年市占率高達(dá)88%,AMD和英特爾瓜分剩下的部分。
自從去年OpenAI發(fā)布ChatGPT以來,新一輪科技革命持續(xù)發(fā)酵??梢哉f,很多年都沒有哪一項(xiàng)科技進(jìn)步如ChatGPT這般吸引全球的目光。
國(guó)內(nèi)外各個(gè)科技公司、科研機(jī)構(gòu)、高等院校都在跟進(jìn),不到半年時(shí)間,就跑出了非常多的大模型應(yīng)用的創(chuàng)業(yè)公司,融資規(guī)模也屢創(chuàng)新高。
據(jù)知乎博主wgang梳理,包括百度、科大訊飛、第四范式、清華、復(fù)旦在內(nèi)的國(guó)內(nèi)各個(gè)大廠、創(chuàng)業(yè)公司、科研院校都相繼發(fā)布了大模型產(chǎn)品:
圖源:知乎wgwang
能看到,不僅是在通用領(lǐng)域,在具體的行業(yè)場(chǎng)景,尤其是一些專業(yè)性強(qiáng)、知識(shí)密度高的領(lǐng)域,科技公司們也在紛紛發(fā)布垂直領(lǐng)域的大模型。譬如美股上市公司百家云(RTC)結(jié)合對(duì)企業(yè)服務(wù)需求的洞察,近日發(fā)布了AIGC產(chǎn)品「市場(chǎng)易」,這也是首款適用于企業(yè)市場(chǎng)部?jī)?nèi)容生產(chǎn)場(chǎng)景的GPT大模型引擎。
有業(yè)內(nèi)人士笑稱:“國(guó)產(chǎn)大模型已形成群模亂舞、百模大戰(zhàn)的局面,預(yù)計(jì)到年底會(huì)有超過100個(gè)的大模型?!?/p>
然而,大模型的發(fā)展需要算法、算力、數(shù)據(jù)三大重要因素的支撐,算力是大模型訓(xùn)練的重要能量引擎,也是目前國(guó)內(nèi)發(fā)展大模型產(chǎn)業(yè)的一大壁壘。
芯片能力直接影響著高算力訓(xùn)練效果和速度。上文提到,盡管國(guó)產(chǎn)大模型產(chǎn)品頻出,但從其背后支持的芯片來看,所有這些平臺(tái)使用的要么是英偉達(dá) A100、H100 GPU,要么是去年禁令后英偉達(dá)專門推出的減配版 A800、H800,這兩款處理器帶寬分別是原版的約3/4和約一半,避開了高性能 GPU 的限制標(biāo)準(zhǔn)。
今年 3 月,騰訊率先宣布已用上H800,在騰訊云發(fā)布的新版高性能計(jì)算服務(wù)中已使用了 H800,并稱這是國(guó)內(nèi)首發(fā)。
阿里云也在今年 5 月對(duì)內(nèi)提出把?“智算戰(zhàn)役”?作為今年的頭號(hào)戰(zhàn)役,GPU數(shù)量成為其戰(zhàn)役的重要指標(biāo)。
此外,商湯也宣稱,其?“AI 大裝置”?計(jì)算集群中已總共部署了近3萬塊GPU,其中有1萬塊是英偉達(dá)A100。字節(jié)和美團(tuán)則直接從公司其他業(yè)務(wù)團(tuán)隊(duì)那里勻出GPU供大模型訓(xùn)練使用。甚至有廠家自2022年下半年起就持續(xù)在市場(chǎng)中尋覓能拆出A100的各類整機(jī)產(chǎn)品,目的僅是獲得GPU芯片?!皺C(jī)子太多,存放的地方都不夠用。”
據(jù)了解,國(guó)內(nèi)頭部科技企業(yè)在AI和云計(jì)算方面投入較大,過去A100的積累都達(dá)到上萬塊。
與此同時(shí),中國(guó)科技大廠還在進(jìn)行新一輪的采購(gòu)競(jìng)爭(zhēng)。
據(jù)某云服務(wù)商透露,字節(jié)、阿里等大公司主要是和英偉達(dá)原廠直接談采購(gòu),代理商和二手市場(chǎng)難以滿足其龐大需求。
正如上文提到的,字節(jié)跳動(dòng)今年已向英偉達(dá)訂購(gòu)了超過10億美元的GPU產(chǎn)品,僅字節(jié)一家公司今年的采購(gòu)量就已經(jīng)接近英偉達(dá)去年在中國(guó)銷售的商用GPU總銷售額。報(bào)道稱,還有另一家大公司的訂單也至少超過 10?億元。
可見,中國(guó)大科技公司對(duì)于采購(gòu)GPU非常急迫。
不止國(guó)內(nèi)企業(yè),國(guó)外大客戶對(duì)英偉達(dá)的A100/H100芯片需求同樣非常強(qiáng)烈。據(jù)數(shù)據(jù)統(tǒng)計(jì),最早開始測(cè)試類ChatGPT產(chǎn)品的百度,2020年以來的年資本開支在8-20億美元之間,阿里在60-80億美元之間。同期,亞馬遜、Meta、Google、微軟這四家自建數(shù)據(jù)中心的美國(guó)科技公司的年資本開支最少均超過150億美元。
目前英偉達(dá)訂單能見度已至2024年,高端芯片非常緊缺。以現(xiàn)在的排產(chǎn)進(jìn)度,就連A800/H800都要到今年底或明年才能交貨。短期內(nèi),從其受追捧程度來看,唯一影響英偉達(dá)高端GPU銷量的或許只有臺(tái)積電的產(chǎn)能。
04
“瘋搶”英偉達(dá)背后,國(guó)產(chǎn)芯片軟硬皆不足?
從大模型產(chǎn)品芯片供應(yīng)情況來看,在AI大模型訓(xùn)練上,現(xiàn)在A100、H100及其特供中國(guó)的減配版A800、H800找不到替代品。
那么,為什么在這一輪GPT熱潮中,英偉達(dá)率先跑出來并表現(xiàn)出色?
華映資本管理合伙人章高男表示,一方面是因?yàn)橛ミ_(dá)布局最早,其微內(nèi)核結(jié)構(gòu)也是一代一代去演進(jìn)和改進(jìn)的?,F(xiàn)在無論是從并發(fā)能力、總線速度,還是微內(nèi)核對(duì)矩陣變換的成熟支持,其能力已經(jīng)非常高效,包括它同時(shí)提供非常完善的CUDA計(jì)算平臺(tái),事實(shí)上已經(jīng)成為深度學(xué)習(xí)算法實(shí)現(xiàn)的潛在行業(yè)標(biāo)準(zhǔn),整個(gè)產(chǎn)業(yè)鏈的配套也非常完整,綜合競(jìng)爭(zhēng)壁壘和護(hù)城河深度極高。
總結(jié)來看,英偉達(dá)GPU目前的不可替代性,源自大模型的訓(xùn)練機(jī)制,其核心步驟是預(yù)訓(xùn)練(pre-training)和微調(diào)(fine-tuning),前者是打基礎(chǔ),相當(dāng)于接受通識(shí)教育至大學(xué)畢業(yè);后者則是針對(duì)具體場(chǎng)景和任務(wù)做優(yōu)化,以提升工作表現(xiàn)。
那么,國(guó)產(chǎn)GPU芯片是否可以支撐大模型的算力需求呢?
在實(shí)際應(yīng)用中,大模型對(duì)于算力的需求分為兩個(gè)階段,一是訓(xùn)練出ChatGPT大模型的過程;二是將這個(gè)模型商業(yè)化的推理過程。即AI 訓(xùn)練是做出模型,AI 推理是使用模型,訓(xùn)練對(duì)芯片性能要求更高。
基于此,國(guó)產(chǎn)AI芯片公司持續(xù)涌現(xiàn),陸續(xù)發(fā)布產(chǎn)品推向市場(chǎng)。燧原科技、壁仞科技、天數(shù)智芯、寒武紀(jì)等公司都推出了自己的云端GPU產(chǎn)品,且理論性能指標(biāo)不弱。海光信息的DCU芯片“深算一號(hào)”軟硬件生態(tài)相對(duì)完整,且能夠兼容CUDA架構(gòu)。而騰訊、百度、阿里等互聯(lián)網(wǎng)大廠也通過投資、孵化等方式在AI芯片領(lǐng)域大力布局。
其中,大模型訓(xùn)練需要處理高顆粒度的信息,對(duì)云端訓(xùn)練芯片的芯片處理信息的精細(xì)度和算力速度要求更高,現(xiàn)階段國(guó)產(chǎn)GPU大多還不具備支撐大模型訓(xùn)練所需的能力,更適合做對(duì)信息顆粒度要求沒有那么高的云端推理工作。
國(guó)內(nèi)部分相關(guān)企業(yè)AI產(chǎn)品與應(yīng)用? 芯潮IC據(jù)公開資料整理
今年3月,百度李彥宏曾公開表示,昆侖芯片現(xiàn)在很適合做大模型的推理,將來會(huì)適合做訓(xùn)練。
天數(shù)智芯副總裁鄒翾也向芯潮IC表示,國(guó)產(chǎn)芯片距離英偉達(dá)最新產(chǎn)品仍存在一定差距,不過在推理運(yùn)算方面國(guó)產(chǎn)芯片可以做到不輸主流產(chǎn)品的性能實(shí)力,而隨著人工智能的應(yīng)用普及,推理芯片的市場(chǎng)需求將加速增長(zhǎng),隨著需求的擴(kuò)大,國(guó)產(chǎn)芯片也將擁有更大的市場(chǎng)。
另有不愿意透露姓名的業(yè)內(nèi)人士表示“國(guó)內(nèi)通用GPU產(chǎn)品的確在滿足大模型訓(xùn)練上與國(guó)際旗艦產(chǎn)品存在差距,但并非不可彌補(bǔ),只是此前行業(yè)在產(chǎn)品定義里未朝著大模型方向做設(shè)計(jì)?!?/p>
目前,行業(yè)從業(yè)者在做相關(guān)的探索和努力,如思考能否通過Chiplet、先進(jìn)封裝的方式來提高芯片算力。目前國(guó)產(chǎn)GPU公司都在朝著大模型領(lǐng)域去做芯片開發(fā)和布局。
而從資本角度來看,華映資本管理合伙人章高男向芯潮IC表示,華映很早就高度關(guān)注算力基礎(chǔ)設(shè)施,無論是GPU、DPU還是更前沿的光電混合計(jì)算,量子計(jì)算,都有針對(duì)性研究和布局。整體上則側(cè)重于通用算力基礎(chǔ)設(shè)施,譬如FPGA、邊緣計(jì)算等。相比之下,目前很多圍繞深度學(xué)習(xí)、特殊算法、局部算力優(yōu)化等的算力芯片并不是其考慮的重點(diǎn)。
實(shí)際上,除了硬件性能差距外,軟件生態(tài)也是國(guó)產(chǎn)AI芯片廠商的短板。
芯片需要適配硬件系統(tǒng)、工具鏈、編譯器等多個(gè)層級(jí),需要很強(qiáng)的適配性,否則會(huì)出現(xiàn)這款芯片在某個(gè)場(chǎng)景能跑出90%的算力,在另一場(chǎng)景只能跑出80%效能的情景。
上文提到,英偉達(dá)在這方面優(yōu)勢(shì)明顯。早在2006年,英偉達(dá)就推出了計(jì)算平臺(tái)CUDA,這是一個(gè)并行計(jì)算軟件引擎,CUDA框架里集成了很多調(diào)用GPU算力所需的代碼,工程師可以直接使用這些代碼,無須一一編寫。開發(fā)者可使用CUDA更高效地進(jìn)行AI訓(xùn)練和推理,更好的發(fā)揮GPU算力。時(shí)至今日,CUDA已成為AI基礎(chǔ)設(shè)施,主流的AI框架、庫(kù)、工具都以CUDA為基礎(chǔ)進(jìn)行開發(fā)。
如果沒有這套編碼語言,軟件工程師發(fā)揮硬件價(jià)值的難度會(huì)變得極大。
英偉達(dá)之外的GPU和AI芯片如要接入CUDA,需要自己提供適配軟件。據(jù)業(yè)內(nèi)人士透露,曾接觸過一家非英偉達(dá)GPU廠商,盡管其芯片和服務(wù)報(bào)價(jià)比英偉達(dá)更低,也承諾提供更及時(shí)的服務(wù),但使用其GPU的整體訓(xùn)練和開發(fā)成本會(huì)高于英偉達(dá),還得承擔(dān)結(jié)果和開發(fā)時(shí)間的不確定性。
雖然英偉達(dá)GPU價(jià)格貴,但實(shí)際用起來反而是最便宜的。這對(duì)有意抓住大模型機(jī)會(huì)的企業(yè)來說,錢往往不是問題,時(shí)間才是更寶貴的資源,大家都必須盡快獲得足夠多的先進(jìn)算力來確保先發(fā)優(yōu)勢(shì)。
因此,對(duì)于國(guó)產(chǎn)芯片供應(yīng)商來講,哪怕能通過堆芯片的方式能堆出一個(gè)算力相當(dāng)?shù)漠a(chǎn)品,但軟件適配與兼容讓客戶接受更難。此外,從服務(wù)器運(yùn)營(yíng)的角度,它的主板開銷、電費(fèi)、運(yùn)營(yíng)費(fèi),以及需要考慮的功耗、散熱等問題,都會(huì)大大增加數(shù)據(jù)中心的運(yùn)營(yíng)成本。
因?yàn)樗懔Y源常需要以池化的形式呈現(xiàn),數(shù)據(jù)中心通常更愿意采用同一種芯片,或者同一家公司的芯片來降低算力池化難度。
算力的釋放需要復(fù)雜的軟硬件配合,才能將芯片的理論算力變?yōu)橛行懔?。?duì)客戶而言,把國(guó)產(chǎn)AI芯片用起來并不容易,更換云端AI芯片要承擔(dān)一定的遷移成本和風(fēng)險(xiǎn),除非新產(chǎn)品存在性能優(yōu)勢(shì),或者能在某個(gè)維度上提供其他人解決不了的問題,否則客戶更換的意愿很低。
作為當(dāng)前唯一可以實(shí)際處理ChatGPT的GPU供應(yīng)商,英偉達(dá)是當(dāng)之無愧的“AI算力王者”。6年前,黃仁勛親自向OpenAI交付了第一臺(tái)搭載A100芯片的超級(jí)計(jì)算機(jī),幫助后者創(chuàng)造ChatGPT,并成為AI時(shí)代的引領(lǐng)者。
不過,去年美國(guó)實(shí)施出口管制以來,英偉達(dá)已經(jīng)被禁止向中國(guó)出口兩款最先進(jìn)的GPU芯片H100和A100。這對(duì)于下游應(yīng)用企業(yè)來說,無疑是受到打擊的。
從安全性以及自主可控的角度來說,這也為國(guó)內(nèi)芯片企業(yè)提供了新的機(jī)遇窗口。盡管國(guó)產(chǎn)芯片在性能和軟件生態(tài)上比不過英偉達(dá)、AMD等行業(yè)巨頭,但在復(fù)雜的國(guó)際貿(mào)易關(guān)系及地緣政治因素等驅(qū)動(dòng)下,“國(guó)產(chǎn)替代”成為國(guó)內(nèi)半導(dǎo)體行業(yè)發(fā)展的主旋律。
05
結(jié)語
算力的每一次提升,都會(huì)掀起技術(shù)與產(chǎn)業(yè)變革的浪潮:CPU帶領(lǐng)人類進(jìn)入PC時(shí)代,移動(dòng)芯片掀起移動(dòng)互聯(lián)網(wǎng)浪潮,而AI芯片打破了AI產(chǎn)業(yè)此前長(zhǎng)達(dá)數(shù)十年的算力瓶頸。
如今,“人工智能的iPhone時(shí)刻”已經(jīng)來臨,走向下一個(gè)時(shí)代的路,或許已經(jīng)擺在我們眼前。
盡管這些數(shù)據(jù)中心的AI芯片、軟件系統(tǒng)等領(lǐng)域仍是國(guó)外廠商的天下,但如今,“算力國(guó)產(chǎn)化”的市場(chǎng)大門或許正在打開。
免責(zé)聲明:
1、本文內(nèi)容為芯潮IC原創(chuàng),內(nèi)容及觀點(diǎn)僅供參考,不構(gòu)成任何投資建議;文中所引用信息均來自市場(chǎng)公開資料,我司對(duì)所引信息的準(zhǔn)確性和完整性不作任何保證。
2、本文未經(jīng)許可,不得翻版、復(fù)制、刊登、發(fā)表或引用。如需轉(zhuǎn)載,請(qǐng)聯(lián)系我們。





