高清无吗一区&近親伦L中文字幕&午夜看看一区&色99窝窝色97&国产∨a免费精品观看精品&东京热性爱dv&久久九九久国产精品尤物&全肉野战高H苞&先锋影音日夜&丝袜.制服.丝袜.亚洲.日韩.中文&www.草草影院.com&天媒传媒91制片厂何苗

?

名企面對面|潞晨科技:AI大模型的挑戰(zhàn)與系統(tǒng)優(yōu)化

新聞來源:CHTF組委會 發(fā)布日期:2023-11-21 17:37

11月16日,新加坡國立大學(xué)校長青年教授、潞晨科技創(chuàng)始人兼董事長尤洋出席中國高新技術(shù)論壇,并在“改變世界的新興科技”主題論壇中發(fā)表演講,以下為精彩觀點實錄:

我今天主要介紹一下大模型訓(xùn)練的一些關(guān)鍵技術(shù),我們公司打造了一個系統(tǒng)叫Colossal-AI,我今天會重點介紹一下如何通過更好的軟件把硬件的價值發(fā)揮出來,同時大幅度降低AI 大模型訓(xùn)練部署的成本。

從2016年-2020年,大模型一直是在高速蓬勃地發(fā)展,在短短四年之中,沒有被大眾關(guān)注的時候,它的參數(shù)已經(jīng)增長了一萬。很有意思的點是,我們這一波用的大模型都是人工神經(jīng)網(wǎng)絡(luò),到2015年前后的時候,大家都叫這個技術(shù)是深度學(xué)習(xí),它相對80年代的神經(jīng)網(wǎng)絡(luò)多了很多層。

現(xiàn)在的大模型,比如2016年的時候的Resnet50是50層,2020年的GPT3的參數(shù)沒有超過100層,現(xiàn)在這種AI的技術(shù)不能再叫做深度學(xué)習(xí),其實更像是寬度學(xué)習(xí),模型的層反而變得更寬了。但是現(xiàn)在一個很嚴(yán)重的問題是算力、硬件跟不上,不管是中國還是美國,都無法充分地去滿足大模型訓(xùn)練的全部能力。為什么?其實我們都知道,現(xiàn)在的GPT3、GPT4都需要上T 的內(nèi)存,世界上最好的GPU,英偉達(dá)的8100只有100內(nèi)存左右,單個CPU遠(yuǎn)遠(yuǎn)不足夠去訓(xùn)練大模型,這就是為什么需要成千上萬,甚至以后上十萬GPU訓(xùn)練大模型的核心原因。

我總結(jié)一下,從AI技術(shù)發(fā)展看到的問題,首先大模型成本特別高,根據(jù)一些報道,Open AI的消息,他們訓(xùn)練GPT4的時候用了2000個GPU,成本是一美元一小時,大概是6300萬美元,換上H100之后,他的成本降到2100萬美元,直接換一個硬件,成本降了3 倍,省了4000多萬美元,這還是非常讓人眼前一亮的。即便我們現(xiàn)在想訓(xùn)一個不是那么大的模型,像Palm,相當(dāng)于谷歌版的GPT,它有500個參數(shù),訓(xùn)練它要900萬美元,用A100訓(xùn)練的話,需要300年。我們訓(xùn)練大模型,如果只用幾個GPU訓(xùn)練,雖然理論上可行,但是基本上這個產(chǎn)品就沒法做了,300年變化太大了。

尤洋:新加坡國立大學(xué)校長青年教授、潞晨科技創(chuàng)始人兼董事長

我認(rèn)為未來AI大模型的生態(tài)和基礎(chǔ)設(shè)施應(yīng)該包括六層,首先最下層就是硬件,不管是英偉達(dá)的硬件,還是英特爾硬件、華為的硬件。第二層是更底層的軟件,這個軟件一般是由硬件廠商控制的。第三層是像集成管理工具,RA、SLURM等這些工具。任務(wù)管理工具就是把上百個任務(wù)合理劃分給GPU,相當(dāng)于我是一個將軍,要指揮一百個團作戰(zhàn),如何把有限的資源分給這一百個兵團,是集成管理工具要干的事情。第四層是集成訓(xùn)練,我的團內(nèi)的這些士兵相互配合好去完成一個任務(wù),這是分布式訓(xùn)練所做的事情。第五層是用戶的編程接口。第六層是現(xiàn)在的大模型,不管是ChatGPT、Lmm等都是屬于這一層。我簡單解釋一下,大模型到來的時代,第三層和第四層的關(guān)系發(fā)生很大變化,之前的模型不是很大的情況下,我們有一萬個GPU,每天或者每個月要訓(xùn)10萬個任務(wù),任務(wù)數(shù),一個GPU同時在訓(xùn)多任務(wù),多個小任務(wù)驅(qū)動環(huán)境,使得這個集群管理工具變得非常重要。但是現(xiàn)在大模型時代的計算特點發(fā)生了實質(zhì)上的變化,一個任務(wù)占據(jù)了1000個GPU,占據(jù)20天、30 天,或者一個任務(wù)占據(jù)5000個GPU一個月,它便成了每個任務(wù)都很重,所以任務(wù)之間的關(guān)系不是那么重要,我如果把任務(wù)內(nèi)的上千個GPU分配好是比較關(guān)鍵的技術(shù)。為了應(yīng)對目前的問題,我們團隊打造了Colossal-AI這個軟件,Colossal-AI主要包括三個層次,第一個曾經(jīng)就是內(nèi)存管理系統(tǒng),我們希望通過Colossal-AI去大幅度降低AI大模型訓(xùn)練的內(nèi)存開銷。第二層就是變形技術(shù),未來需要上千個GPU去訓(xùn)練,我把GPU的數(shù)量從十個上升到幾百,能不能進行加速,GPU和GPU的數(shù)據(jù)傳輸和服務(wù)器與服務(wù)器的數(shù)據(jù)傳輸占滿運行時間的80%到90%,我們的效率只有10%左右或者20%,這就是為什么英偉達(dá)要斥巨資收購ARM的原因。全國有很多算力,但是無法把它集中起來訓(xùn)練一個模型,因為這個數(shù)據(jù)傳輸?shù)拈_銷會遠(yuǎn)大于計算的開銷,假定把內(nèi)蒙古、北京、上海、天津各個分散的算力集中起來訓(xùn)練一個Chat GPT,它的訓(xùn)練速度還不到10個GPU的訓(xùn)練速度,因為它的所有時間都會浪費在計算上,因為這是現(xiàn)在大模型的特點,我們的大模型是很大的參數(shù),把它分割成很多塊之后,最終都是需要匯總結(jié)果的。

聲明

· 本網(wǎng)站文章內(nèi)容未經(jīng)授權(quán)不得擅自使用,如需轉(zhuǎn)載請注明出處和保持信息完整性。

· 本文內(nèi)有未注明出處的信息、圖片或素材,如無意中侵犯某方的知識產(chǎn)權(quán),請聯(lián)系我們刪除。