英偉達(dá)“最強(qiáng)AI芯片”炸裂全場!業(yè)內(nèi)驚呼:新的摩爾定律誕生
激石Pepperstone(http://hskilr.com/)報道:
“最強(qiáng)AI芯片” Blackwell B200 GPU的高調(diào)發(fā)布,已不單單是穩(wěn)固英偉達(dá)在芯片領(lǐng)域的王者地位,更是讓業(yè)內(nèi)人士高呼:新的摩爾定律誕生!
在隔夜的2024 GTC大會上,黃仁勛介紹了運(yùn)行AI模型的新一代芯片和軟件。他表示,新一代的B200 GPU擁有2080億個晶體管,可以提供高達(dá)20 petaflops的FP4性能。相比之下,H100僅為4 petaflops。
此外,將兩個B200 GPU與單個Grace CPU 結(jié)合在一起的 GB200,可以為LLM推理工作負(fù)載提供30倍的性能,并且顯著提高效率。
黃仁勛還強(qiáng)調(diào)稱:“與H100相比,GB200的成本和能耗降低了25倍!
關(guān)于市場近期頗為關(guān)注的能源消耗問題,B200 GPU也交出了最新的答卷。
黃仁勛表示,此前訓(xùn)練一個1.8 萬億參數(shù)模型,需要8000 個 Hopper GPU 并消耗15 MW電力。但如今,2000 個 Blackwell GPU就可以實(shí)現(xiàn)這一目標(biāo),耗電量僅為4MW。
在擁有1750億參數(shù)的GPT-3大模型基準(zhǔn)測試中,GB200的性能是H100的7倍,訓(xùn)練速度是H100的4倍。
值得一提的是,B200 GPU的重要進(jìn)步之一,是采用了第二代Transformer引擎。
它通過對每個神經(jīng)元使用4位(20 petaflops FP4)而不是8位,直接將計算能力、帶寬和模型參數(shù)規(guī)模翻了一倍。
而只有當(dāng)這些大量的GPU連接在一起時,第二個重要區(qū)別才會顯現(xiàn),那就是新一代NVLink交換機(jī)可以讓576個GPU相互通信,雙向帶寬高達(dá)1.8TB/秒。
而這就需要英偉達(dá)構(gòu)建一個全新的網(wǎng)絡(luò)交換芯片,其中包括500億個晶體管和一些自己的板載計算:擁有3.6 teraflops FP8處理能力。
在此之前,僅16個GPU組成的集群,就會耗費(fèi)60%的時間用于相互通信,只有40%的時間能用于實(shí)際計算。
一石激起千層浪,“最強(qiáng)AI芯片”的推出讓網(wǎng)友紛紛贊嘆。
其中英偉達(dá)高級科學(xué)家Jim Fan直呼:Blackwell新王誕生,新的摩爾定律已經(jīng)應(yīng)運(yùn)而生。
DGX Grace-Blackwell GB200:單個機(jī)架的計算能力超過1 Exaflop。
黃仁勛交付給OpenAI的第一臺DGX是0.17 Petaflops。
GPT-4的1.8T參數(shù)可在2000個Blackwell上完成90天的訓(xùn)練。
還有網(wǎng)友感嘆:1000倍成就達(dá)成!
Blackwell標(biāo)志著在短短8年內(nèi),Nvidia AI 芯片的計算能力實(shí)現(xiàn)了提升1000倍的歷史性成就。
2016 年,“Pascal”芯片的計算能力僅為19 teraflops,而今天Blackwell的計算能力已經(jīng)達(dá)到了 20000 teraflops。?????????
掃描二維碼推送至手機(jī)訪問。
版權(quán)聲明:本文由激石Pepperstone發(fā)布,如需轉(zhuǎn)載請注明出處。