4萬億晶體管5nm制程,全球最快AI芯片碾壓H100!單機(jī)可訓(xùn)24萬億參數(shù)LLM,Llama70B一天搞定
分類: 最新資訊
戀愛詞典
編輯 : 大寶
發(fā)布 : 03-15
閱讀 :201
新智元報(bào)道編輯:桃子 好困【新智元導(dǎo)讀】AI世界的進(jìn)化快的有點(diǎn)跟不上了。剛剛,全球最強(qiáng)最大AI芯片WSE-3發(fā)布,4萬億晶體管5nm工藝制程。更厲害的是,WSE-3打造的單個(gè)超算可訓(xùn)出24萬億參數(shù)模型,相當(dāng)于GPT-4/Gemini的十倍大。全球最快、最強(qiáng)的AI芯片面世,讓整個(gè)行業(yè)瞬間驚掉了下巴!就在剛剛,AI芯片初創(chuàng)公司Cerebras重磅發(fā)布了「第三代晶圓級(jí)引擎」(WSE-3)。性能上,WSE-3是上一代WSE-2的兩倍,且功耗依舊保持不變。90萬個(gè)AI核心,44GB的片上SRAM存儲(chǔ),讓W(xué)SE-3的峰值性能達(dá)到了125 FP16 PetaFLOPS。這相當(dāng)于52塊英偉達(dá)H100 GPU!不僅如此,相比于800億個(gè)晶體管,芯片面積為814平方毫米的英偉達(dá)H100。采用臺(tái)積電5nm制程的WSE-3,不僅搭載了40000億個(gè)晶體管(50倍),芯片面積更是高達(dá)46225平方毫米(57倍)。專為AI打造的計(jì)算能力此前,在傳統(tǒng)的GPU集群上,研究團(tuán)隊(duì)不僅需要科學(xué)地分配模型,還必須在過程中處理各種復(fù)雜問題,比如處理器單元的內(nèi)存容量、互聯(lián)帶寬、同步機(jī)制等等,同時(shí)還要不斷調(diào)整超參數(shù)并進(jìn)行優(yōu)化實(shí)驗(yàn)。更令人頭疼的是,最終的實(shí)現(xiàn)很容易因?yàn)樾⌒〉淖儎?dòng)而受到影響,這樣就會(huì)進(jìn)一步延長(zhǎng)解決問題所需的總時(shí)間。相比之下,WSE-3的每一個(gè)核心都可以獨(dú)立編程,并且專為神經(jīng)網(wǎng)絡(luò)訓(xùn)練和深度學(xué)習(xí)推理中,所需的基于張量的稀疏線性代數(shù)運(yùn)算,進(jìn)行了優(yōu)化。而團(tuán)隊(duì)也可以在WSE-3的加持下,以前所未有的速度和規(guī)模訓(xùn)練和運(yùn)行AI模型,并且不需要任何復(fù)雜分布式編程技巧。單芯片實(shí)現(xiàn)集群級(jí)性能其中,WSE-3配備的44GB片上SRAM內(nèi)存均勻分布在芯片表面,使得每個(gè)核心都能在單個(gè)時(shí)鐘周期內(nèi)以極高的帶寬(21 PB/s)訪問到快速內(nèi)存——是當(dāng)今地表最強(qiáng)GPU英偉達(dá)H100的7000倍。超高帶寬,極低延遲而WSE-3的片上互連技術(shù),更是實(shí)現(xiàn)了核心間驚人的214 Pb/s互連帶寬,是H100系統(tǒng)的3715倍。單個(gè)CS-3可訓(xùn)24萬億參數(shù),大GPT-4十倍由WSE-3組成的CS-3超算,可訓(xùn)練比GPT-4和Gemini大10倍的下一代前沿大模型。再次打破了「摩爾定律」!2019年Cerebras首次推出CS-1,便打破了這一長(zhǎng)達(dá)50年的行業(yè)法則。官方博客中的一句話,簡(jiǎn)直刷新世界觀:在CS-3上訓(xùn)練一個(gè)萬億參數(shù)模型,就像在GPU上訓(xùn)練一個(gè)10億參數(shù)模型一樣簡(jiǎn)單!顯然,Cerebras的CS-3強(qiáng)勢(shì)出擊,就是為了加速最新的大模型訓(xùn)練。它配備了高達(dá)1.2PB的巨大存儲(chǔ)系統(tǒng),單個(gè)系統(tǒng)即可訓(xùn)出24萬億參數(shù)的模型——為比GPT-4和Gemini大十倍的模型鋪平道路。簡(jiǎn)之,無需分區(qū)或重構(gòu),大大簡(jiǎn)化訓(xùn)練工作流提高開發(fā)效率。在Llama 2、Falcon 40B、MPT-30B以及多模態(tài)模型的真實(shí)測(cè)試中,CS-3每秒輸出的token是上一代的2倍。而且,CS-3在不增加功耗/成本的情況下,將性能提高了一倍。除此之外,為了跟上不斷升級(jí)的計(jì)算和內(nèi)存需求,Cerebras提高了集群的可擴(kuò)展性。上一代CS-2支持多達(dá)192個(gè)系統(tǒng)的集群,而CS-3可配置高達(dá)2048個(gè)系統(tǒng)集群,性能飆升10倍。具體來說,由2048個(gè)CS-3組成的集群,可以提供256 exafloop的AI計(jì)算。能夠在24小時(shí)內(nèi),從頭訓(xùn)練一個(gè)Llama 70B的模型。相比之下,Llama2 70B可是用了大約一個(gè)月的時(shí)間,在Meta的GPU集群上完成的訓(xùn)練。與GPU系統(tǒng)的另一個(gè)不同是,Cerebras晶圓規(guī)模集群可分離計(jì)算和內(nèi)存組件,讓開發(fā)者能輕松擴(kuò)展MemoryX單元中的內(nèi)存容量。得益于Cerebras獨(dú)特的Weight Streaming架構(gòu),整個(gè)集群看起來與單個(gè)芯片無異。換言之,一名ML工程師可以在一臺(tái)系統(tǒng)上開發(fā)和調(diào)試數(shù)萬億個(gè)參數(shù)模型,這在GPU領(lǐng)域是聞所未聞的。具體來說,CS-3除了為企業(yè)提供24TB和36TB這兩個(gè)版本外,還有面向超算的120TB和1200TB內(nèi)存版本。(之前的CS-2集群只有1.5TB和12TB可選)單個(gè)CS-3可與單個(gè)1200 TB內(nèi)存單元配對(duì)使用,這意味著單個(gè)CS-3機(jī)架可以存儲(chǔ)模型參數(shù),比10000個(gè)節(jié)點(diǎn)的GPU集群多得多。除此之外,與使用GPU相比,在Cerebras平臺(tái)上開發(fā)所需的代碼量還減少了高達(dá)97%。更令人震驚的數(shù)字是——訓(xùn)練一個(gè)GPT-3規(guī)模的模型,僅需565行代碼!Playground AI創(chuàng)始人稱,GPT-3正穩(wěn)步成為AI領(lǐng)域的新「Hello World」。在Cerebras上,一個(gè)標(biāo)準(zhǔn)的GPT-3規(guī)模的模型,只需565行代碼即可實(shí)現(xiàn),創(chuàng)下行業(yè)新紀(jì)錄。首個(gè)世界最強(qiáng)芯片打造的超算來了由G42和Cerebras聯(lián)手打造的超級(jí)計(jì)算機(jī)——Condor Galaxy,是目前在云端構(gòu)建AI模型最簡(jiǎn)單、最快速的解決方案。它具備超過16 ExaFLOPs的AI計(jì)算能力,能夠在幾小時(shí)之內(nèi)完成對(duì)最復(fù)雜模型的訓(xùn)練,這一過程在傳統(tǒng)系統(tǒng)中可能需要數(shù)天。其MemoryX系統(tǒng)擁有TB級(jí)別的內(nèi)存容量,能夠輕松處理超過1000億參數(shù)的大模型,大大簡(jiǎn)化了大規(guī)模訓(xùn)練的復(fù)雜度。與現(xiàn)有的基于GPU的集群系統(tǒng)不同,Condor Galaxy在處理GPT這類大型語言模型,包括GPT的不同變體、Falcon和Llama時(shí),展現(xiàn)出了幾乎完美的擴(kuò)展能力。這意味著,隨著更多的CS-3設(shè)備投入使用,模型訓(xùn)練的時(shí)間將按照幾乎完美的比例縮短。而且,配置一個(gè)生成式AI模型只需幾分鐘,不再是數(shù)月,這一切只需一人便可輕松完成。在簡(jiǎn)化大規(guī)模AI計(jì)算方面,傳統(tǒng)系統(tǒng)因?yàn)樾枰诙鄠€(gè)節(jié)點(diǎn)之間同步大量處理器而遇到了難題。而Cerebras的全片級(jí)計(jì)算系統(tǒng)(WSC)則輕松跨越這一障礙——它通過無縫整合各個(gè)組件,實(shí)現(xiàn)了大規(guī)模并行計(jì)算,并提供了簡(jiǎn)潔的數(shù)據(jù)并行編程界面。此前,這兩家公司已經(jīng)聯(lián)手打造了世界上最大的兩臺(tái)AI超級(jí)計(jì)算機(jī):Condor Galaxy 1和Condor Galaxy 2,綜合性能達(dá)到8exaFLOPs。G42集團(tuán)的首席技術(shù)官Kiril Evtimov表示:「我們正在建設(shè)的下一代AI超級(jí)計(jì)算機(jī)Condor Galaxy 3,具有8exaFLOPs的性能,很快將使我們的AI計(jì)算總產(chǎn)能達(dá)到16exaFLOPs?!谷缃瘢覀兗磳⒂瓉硇乱徊ǖ膭?chuàng)新浪潮,而全球AI革命的腳步,也再一次被加快了。參考資料:https://www.cerebras.net/