英偉達(dá)最強(qiáng)AI超算再升級(jí),CEO黃仁勛:大模型運(yùn)行成本將大幅降低
英偉達(dá)最強(qiáng)AI超算再升級(jí),CEO黃仁勛:大模型運(yùn)行成本將大幅降低
騰訊科技訊 8月9日消息,美國(guó)當(dāng)?shù)貢r(shí)間周二晚間,英偉達(dá)創(chuàng)始人兼首席執(zhí)行官黃仁勛在2023年度計(jì)算機(jī)圖形學(xué)大會(huì)(SIGGRAPH)上發(fā)表演講,討論該公司最新的人工智能和3D圖形領(lǐng)域的創(chuàng)新。
演講中,黃仁勛發(fā)布了用于生成式 AI 的 GH200 Grace Hopper 超級(jí)芯片、桌面AI工作站GPU系列、NVIDIA AI Workbench 以及通過(guò)生成式 AI 和 OpenUSD 升級(jí)的 NVIDIA Omniverse。
據(jù)估計(jì),目前英偉達(dá)在AI芯片市場(chǎng)占據(jù)了超過(guò)80%的市場(chǎng)份額。該公司的專(zhuān)長(zhǎng)是圖形處理單元(GPU),已成為支撐生成式人工智能軟件(如谷歌的Bard和OpenAI的ChatGPT)的大型AI模型的首選芯片。但由于科技巨頭、云服務(wù)提供商和初創(chuàng)企業(yè)爭(zhēng)奪GPU容量來(lái)開(kāi)發(fā)自己的AI模型,英偉達(dá)的芯片供應(yīng)短缺。
英偉達(dá)最強(qiáng)AI超算再升級(jí)
英偉達(dá)最新發(fā)布的芯片GH200,與該公司目前最高端的AI芯片H100采用相同的GPU。但GH200還配備了141GB的尖端內(nèi)存和一個(gè)72核的ARM中央處理器。
相比前代平臺(tái),新GH200 Grace Hopper平臺(tái)的雙芯片配置將內(nèi)存容量提高3.5倍,帶寬增加三倍,一個(gè)服務(wù)器就有144個(gè)Arm Neoverse高性能內(nèi)核、8 petaflops 的 AI 性能和282GB的最新HBM3e內(nèi)存技術(shù)。
HBM3e是一種高帶寬內(nèi)存,帶寬達(dá)每秒5TB。該內(nèi)存比當(dāng)前的HBM3快50%,可提供總共每秒10TB的組合帶寬,使新平臺(tái)能運(yùn)行比前代大3.5倍的模型,同時(shí)通過(guò)快三倍的內(nèi)存帶寬提高性能。
英偉達(dá)CEO黃仁勛在周二的演講中表示:“我們給這個(gè)處理器加了一些提升?!彼a(bǔ)充說(shuō):“這個(gè)處理器是為全球數(shù)據(jù)中心的規(guī)模而設(shè)計(jì)的?!?/p>
據(jù)黃仁勛透露,這款新芯片將于明年第二季度在英偉達(dá)的經(jīng)銷(xiāo)商處上市,并計(jì)劃在年底前提供樣品。英偉達(dá)的代表拒絕透露價(jià)格。
通常,處理AI模型的過(guò)程至少分為兩個(gè)部分:訓(xùn)練和推理。
首先,使用大量數(shù)據(jù)對(duì)模型進(jìn)行訓(xùn)練,這個(gè)過(guò)程可能需要數(shù)月時(shí)間,有時(shí)需要數(shù)千個(gè)GPU,例如英偉達(dá)的H100和A100芯片。
然后,該模型將在軟件中用于進(jìn)行預(yù)測(cè)或生成內(nèi)容,這個(gè)過(guò)程稱(chēng)為推理。與訓(xùn)練類(lèi)似,推理需要大量的計(jì)算資源,并且每次軟件運(yùn)行時(shí)都需要大量的處理能力,例如生成文本或圖像時(shí)。但與訓(xùn)練不同,推理是幾乎持續(xù)進(jìn)行的,而訓(xùn)練只在需要更新模型時(shí)才需要進(jìn)行。
黃仁勛表示:“你可以將幾乎任何大型語(yǔ)言模型放入其中,它將進(jìn)行瘋狂的推理。大型語(yǔ)言模型的推理成本將大幅降低。”
英偉達(dá)的新芯片GH200專(zhuān)為推理而設(shè)計(jì),因?yàn)樗哂懈蟮膬?nèi)存容量,可以容納更大的AI模型在單個(gè)系統(tǒng)中。英偉達(dá)副總裁伊恩·巴克在與分析師和記者的電話(huà)會(huì)議上表示,英偉達(dá)的H100具有80GB的內(nèi)存,而新的GH200則有141GB的內(nèi)存。英偉達(dá)還宣布推出了一種將兩個(gè)GH200芯片組合到一臺(tái)計(jì)算機(jī)中的系統(tǒng),以支持更大的模型。
巴克表示:“更大的內(nèi)存使得模型可以常駐在單個(gè)GPU上,而不需要多個(gè)系統(tǒng)或多個(gè)GPU來(lái)運(yùn)行?!?/p>
此次宣布正值英偉達(dá)的主要GPU競(jìng)爭(zhēng)對(duì)手AMD推出面向AI的芯片MI300X,該芯片支持192GB的內(nèi)存,并被市場(chǎng)推廣為適用于AI推理。谷歌和亞馬遜等公司也正在設(shè)計(jì)自己的定制AI芯片用于推理。
RTX工作站:4款顯卡齊上新
除了GH200,英偉達(dá)的桌面AI工作站GPU系列也全面上新,一口氣推出了4款新品:RTX 6000、RTX 5000、RTX 4500和RTX 4000。針對(duì)企業(yè)客戶(hù),英偉達(dá)還準(zhǔn)備一套一站式解決方案—— RTX Workstation,支持最多4張RTX 6000 GPU。
作為旗艦級(jí)專(zhuān)業(yè)卡,RTX 6000的性能參數(shù)毫無(wú)疑問(wèn)是4款新品中最強(qiáng)的。
憑借著48GB的顯存,18176個(gè)CUDA核心,568個(gè)Tensor核心,142個(gè)RT核心,和高達(dá)960GB/s的帶寬,它可謂是一騎絕塵。
基于新發(fā)布的4張新的GPU,針對(duì)企業(yè)客戶(hù),老黃還準(zhǔn)備一套一站式解決方案—— RTX Workstation。
支持最多4張RTX 6000 GPU,可以在15小時(shí)內(nèi)完成8.6億token的GPT3-40B的微調(diào)。
還能讓Stable Diffusion XL每分鐘生成40張圖片,比4090快5倍。
OVX服務(wù)器:搭載L40S,性能小勝A100
針對(duì)數(shù)據(jù)中心市場(chǎng),英偉達(dá)推出了最多可搭載8張L40S GPU的OVX服務(wù)器。據(jù)介紹,對(duì)于具有數(shù)十億參數(shù)和多種模態(tài)的生成式AI工作負(fù)載,L40S相較于老前輩A100可實(shí)現(xiàn)高達(dá)1.2倍的推理性能提升,以及高達(dá)1.7倍的訓(xùn)練性能提升。
AI Workbench:加速定制生成式AI應(yīng)用
除了各種強(qiáng)大的硬件之外,英偉達(dá)還發(fā)布了全新的AI Workbench,來(lái)幫助開(kāi)發(fā)和部署生成式AI模型。AI Workbench為開(kāi)發(fā)者提供了一個(gè)統(tǒng)一且易于使用的工具包,能夠快速在PC或工作站上創(chuàng)建、測(cè)試和微調(diào)模型,并擴(kuò)展到幾乎任何數(shù)據(jù)中心、公有云或英偉達(dá)的云服務(wù)DGX Cloud上。
具體而言,AI Workbench具備易于使用、集成AI開(kāi)發(fā)工具和存儲(chǔ)庫(kù)、增強(qiáng)協(xié)作、訪問(wèn)加速計(jì)算資源等優(yōu)勢(shì)。
五年前悄然押注AI獲得豐厚回報(bào)
黃仁勛表示,英偉達(dá)在2018年做出了一個(gè)攸關(guān)公司生死存亡的商業(yè)決定,但卻很少有人意識(shí)到這個(gè)決定將對(duì)英偉達(dá)乃至整個(gè)半導(dǎo)體行業(yè)的重大意義。當(dāng)然,這一押注為英偉達(dá)帶來(lái)了豐厚的回報(bào),但黃仁勛表示,這只是人工智能驅(qū)動(dòng)的未來(lái)的開(kāi)端,一個(gè)主要由英偉達(dá)硬件驅(qū)動(dòng)的未來(lái)。
黃仁勛回憶說(shuō),五年前的分水嶺時(shí)刻是選擇采用以光線追蹤(RTX)還是智能升級(jí)(DLSS)形式的人工智能圖像處理方案?!拔覀円庾R(shí)到柵格化正在達(dá)到極限,”他說(shuō),他指的是傳統(tǒng)的、被廣泛使用的3D場(chǎng)景渲染方法?!?018年是一個(gè)‘押注公司’的時(shí)刻。這需要我們重新發(fā)明硬件、軟件和算法。在我們用人工智能重塑CG的同時(shí),我們也在為人工智能重塑GPU?!?/p>
雖然光線跟蹤和DLSS仍在消費(fèi)者GPU和游戲多樣化等領(lǐng)域被采用,但他們?yōu)閷?shí)現(xiàn)它而創(chuàng)建的架構(gòu)卻是不斷增長(zhǎng)的機(jī)器學(xué)習(xí)開(kāi)發(fā)社區(qū)的完美合作伙伴。
訓(xùn)練越來(lái)越大的生成式模型所需的大量計(jì)算,不再由某些具有GPU功能的傳統(tǒng)數(shù)據(jù)中心提供,而是從一開(kāi)始就設(shè)計(jì)用于執(zhí)行必要大規(guī)模操作的系統(tǒng)支持,如H100。公平地說(shuō),人工智能的發(fā)展在某些方面只是受到這些計(jì)算資源可用性的限制。英偉達(dá)從人工智能熱潮中受益,其服務(wù)器和工作站的銷(xiāo)量始終處于供不應(yīng)求的狀態(tài)。
但黃仁勛堅(jiān)稱(chēng),這只是個(gè)開(kāi)始。新的模型不僅需要訓(xùn)練,還需要數(shù)百萬(wàn)甚至數(shù)十億用戶(hù)的實(shí)時(shí)運(yùn)行支持。他說(shuō):“大語(yǔ)言模型在未來(lái)幾乎處于一切事物的前沿:從視覺(jué)效果到快速數(shù)字化的制造市場(chǎng)、工廠設(shè)計(jì)和重工業(yè),一切都將在某種程度上采用自然語(yǔ)言界面。整個(gè)工廠將由軟件控制的機(jī)器人操控,他們將制造的汽車(chē)本身也將是機(jī)器人。所以這是機(jī)器人設(shè)計(jì)機(jī)器人,并負(fù)責(zé)建造機(jī)器人?!?/p>
有些人可能不同意黃仁勛的觀點(diǎn),這雖然看似合理,但碰巧也非常有利于英偉達(dá)的利益。
但是,盡管我們對(duì)大語(yǔ)言模型的依賴(lài)程度尚不確定,但很少有人敢說(shuō)不使用它們,甚至對(duì)誰(shuí)將使用它,以及在什么情況下需要在新的計(jì)算資源上進(jìn)行重大投資方面也是如此。
在以CPU為核心的機(jī)架等上一代計(jì)算資源上投資數(shù)百萬(wàn)美元已經(jīng)沒(méi)有意義,因?yàn)橄馟H200這樣的硬件,可以用不到十分之一的成本和電力需求來(lái)完成同樣的工作。GH200是英偉達(dá)新推出的、專(zhuān)用于數(shù)據(jù)中心的人工智能開(kāi)發(fā)硬件。
黃仁勛還播放了一段視頻,展示了由多個(gè)Grace Hopper計(jì)算單元組成的樂(lè)高積木般的組件,它們先是組成了刀片,然后是機(jī)架,最后是成排的GH200,所有這些計(jì)算單元都被高速連接在一起,成為“世界上最大的單個(gè)GPU”,它擁有完整的ML專(zhuān)業(yè)計(jì)算能力。
黃仁勛提出,這些將成為未來(lái)人工智能主導(dǎo)的數(shù)字行業(yè)的基本單位。他說(shuō):“我不知道是誰(shuí)說(shuō)的,但你買(mǎi)的越多,省的錢(qián)就越多。如果我能讓你們記住我今天演講中的一件事,那就是它了。”
黃仁勛在演講中沒(méi)有提到人工智能面臨的諸多挑戰(zhàn)、監(jiān)管,也沒(méi)有談到人工智能的整體概念在發(fā)生變化, 就像它在去年已經(jīng)多次經(jīng)歷過(guò)的那樣。當(dāng)然,這是一種樂(lè)觀的世界觀,就像在淘金熱期間出售鎬和鏟子等工具的商人,他們同樣賺得盆滿(mǎn)缽滿(mǎn)。
延展閱讀:
在發(fā)布這新GPU的時(shí)候,現(xiàn)場(chǎng)還出現(xiàn)了一個(gè)意外的小花絮。老黃從后臺(tái)拿出第一塊GPU的時(shí)候,似乎不小心在鏡面面板上沾了指紋。老黃發(fā)現(xiàn)后很不好意思地和現(xiàn)場(chǎng)觀眾說(shuō)對(duì)不起,如此可愛(ài)的老黃,也惹得在場(chǎng)觀眾不斷發(fā)笑,點(diǎn)擊閱讀更多發(fā)布會(huì)細(xì)節(jié):老黃深夜炸場(chǎng),AIGC進(jìn)入iPhone時(shí)刻,神秘顯卡勝過(guò)A100
黃仁勛依然不改金牌銷(xiāo)售的風(fēng)格,英偉達(dá)“核彈工廠”上線,更多關(guān)于OpenUSD 升級(jí)的 NVIDIA Omniverse信息可參閱:黃仁勛:「核彈工廠」即將上線,要讓所有人用上生成式 AI





