AI時(shí)代同樣也是算力的時(shí)代。國內(nèi)外的科技企業(yè)、電信運(yùn)營商紛紛“卷”起了萬卡乃至超萬卡,但生態(tài)兼容、異構(gòu)計(jì)算等難題也成為行業(yè)必須翻越的高山。
9月28日,在2024中國算力大會(huì)開幕式期間,中國工程院院士劉韻潔接受新京報(bào)貝殼財(cái)經(jīng)等媒體采訪時(shí)表示,短時(shí)間內(nèi)國內(nèi)端點(diǎn)GPU仍無法與國外競爭。彌補(bǔ)短板的可能辦法是建設(shè)算力網(wǎng)絡(luò)“把整個(gè)算力練起來”,發(fā)揮GPU集群效果。
另外,他指出,不能簡單判斷哪類企業(yè)建設(shè)算力網(wǎng)絡(luò)更有優(yōu)勢,主要還得通過技術(shù)評(píng)判?!翱茨愕募夹g(shù)能不能使用、怎么發(fā)展,看你的創(chuàng)新、走的路徑是不是符合需要。”對(duì)于算力成本問題,他仍強(qiáng)調(diào)“要用新技術(shù)解決”。
目前,劉韻潔研究的確定性網(wǎng)絡(luò)技術(shù)能節(jié)省60%到70%的成本,他聯(lián)合其他機(jī)構(gòu)推出的算網(wǎng)調(diào)度項(xiàng)目,能夠?qū)崿F(xiàn)多個(gè)異地訓(xùn)練達(dá)到單點(diǎn)訓(xùn)練80%的效率。
建議走行業(yè)大模型賽道,要解決數(shù)據(jù)流通和算力利用率問題
“中國要走行業(yè)大模型這條路?!眲㈨崫嵲谥髦佳葜v中強(qiáng)調(diào)。他認(rèn)為,國內(nèi)通用大模型短期內(nèi)跟美國相比可能差距較大,并且追趕起來具有一定難度。
他提出,國內(nèi)模型企業(yè)如果能夠在通用大模型基礎(chǔ)上,把行業(yè)數(shù)據(jù)訓(xùn)練好、做好行業(yè)大模型,“完全可以走出中國道路”。他看好這一技術(shù)方向是因?yàn)樗J(rèn)為“中國行業(yè)數(shù)據(jù)最完整、全面”。
同時(shí)他表示,發(fā)展行業(yè)大模型需要政府、企業(yè)、資本一起努力。他向貝殼財(cái)經(jīng)記者表示,當(dāng)前,國內(nèi)數(shù)據(jù)的共享、流通程度仍有待加強(qiáng),這對(duì)訓(xùn)練行業(yè)大模型產(chǎn)生了影響,“大家還在摸索”哪類賽道更有前景。
2024中國算力大會(huì)披露的數(shù)據(jù)顯示,全國算力總規(guī)模達(dá)246 EFLOPS。據(jù)劉韻潔觀察,國產(chǎn)算力已具備一定規(guī)模,但利用率不算十分理想。
“算力想要服務(wù)實(shí)體經(jīng)濟(jì),得幾方都說好。”劉韻潔認(rèn)為,首先算力和網(wǎng)絡(luò)提供方要說好,“它們通過這些服務(wù)獲得了效益”。另外政府要說好,“政府解決了問題”。最后企業(yè)要說好,“企業(yè)通過使用算力、網(wǎng)絡(luò)提升了自身效率”。
他強(qiáng)調(diào),只是“一方說好”的效果并不持久,這代表行業(yè)沒有建立起算力生態(tài)?!安唤鉀Q生態(tài)問題,大家也用不起來。”
確定性網(wǎng)絡(luò)是未來算力網(wǎng)基礎(chǔ)技術(shù)之一,將節(jié)省60%-70%成本
“大模型訓(xùn)練要求數(shù)據(jù)無損傳輸,對(duì)丟包、抖動(dòng)和時(shí)延等網(wǎng)絡(luò)指標(biāo)提出要求?!眲㈨崫嵳f。他以國際數(shù)據(jù)標(biāo)準(zhǔn)為例解釋稱,丟包率達(dá)千分之五,傳輸效率將下降50%。
他進(jìn)一步解釋道,這就像在利用整條100G帶寬傳輸數(shù)據(jù)時(shí),只有50G的帶寬有用?!爱?dāng)下降到1%時(shí),它的效率約等于0,這就沒辦法訓(xùn)練、推理。”
網(wǎng)絡(luò)不丟包需要采用RDMA協(xié)議。該技術(shù)使計(jì)算機(jī)能夠直接訪問遠(yuǎn)程計(jì)算機(jī)的內(nèi)存,在內(nèi)存層面進(jìn)行數(shù)據(jù)傳輸而無需GPU頻繁介入,減少數(shù)據(jù)傳輸過程中收發(fā)端的處理延遲及資源消耗。
如何達(dá)到大模型訓(xùn)練、推理的數(shù)據(jù)傳輸標(biāo)準(zhǔn)?劉韻潔認(rèn)為,確定性網(wǎng)絡(luò)技術(shù)相對(duì)符合要求,他判斷它是“將來算力網(wǎng)的一項(xiàng)基礎(chǔ)技術(shù)”。劉韻潔透露,2022年他帶領(lǐng)團(tuán)隊(duì)在35個(gè)城市開通了確定性網(wǎng)絡(luò),目前城市數(shù)量已增至39個(gè),能做到端到端的時(shí)延、抖動(dòng)小于50微秒,實(shí)現(xiàn)零丟包。
在研發(fā)確定性網(wǎng)絡(luò)技術(shù)過程中,劉韻潔認(rèn)為最重要的技術(shù)突破是光電融合,它帶來帶寬利用率、電網(wǎng)成本能耗等方面的突破。
其中在成本方面,他以某一自動(dòng)駕駛企業(yè)為例解釋稱,該企業(yè)在全國4個(gè)地方20輛車每天產(chǎn)生的自動(dòng)駕駛數(shù)據(jù),先傳回上海再傳到貴陽訓(xùn)練,大概需要兩條10G和一條1G的電路,一年花費(fèi)一千萬元左右。
用不起怎么辦?改用硬盤收集數(shù)據(jù),在兩個(gè)城市間運(yùn)輸,考慮數(shù)據(jù)丟失、硬盤損害等情況,一年需要190萬元左右。而利用確定性網(wǎng)絡(luò),通過切片提供服務(wù),“一年12萬元就可以”。
劉韻潔強(qiáng)調(diào),這種程度的降本通過網(wǎng)絡(luò)共享實(shí)現(xiàn)。他在主旨演講中展示的數(shù)據(jù)顯示:已在試驗(yàn)網(wǎng)上運(yùn)行三個(gè)月以上,參數(shù)效率達(dá)95%以上,成本節(jié)省60%到70%。
發(fā)揮GPU集群效果彌補(bǔ)國產(chǎn)算力短板
算力網(wǎng)絡(luò)可能成為未來國產(chǎn)算力超越國外算力的方向嗎?劉韻潔表示,更準(zhǔn)確的理解是“彌補(bǔ)短板”。他認(rèn)為,短時(shí)間內(nèi),我們端點(diǎn)GPU仍無法與國外競爭?!翱赡芪以趩蝹€(gè)方面比不過你,但發(fā)揮群體力量后有可能比得上?!彼M(jìn)一步強(qiáng)調(diào),發(fā)揮GPU集群效果需要建設(shè)網(wǎng)絡(luò)“把整個(gè)算力練起來”。
他認(rèn)為,大模型可以走協(xié)同訓(xùn)練、分布式訓(xùn)練的路子,“10萬張卡在一個(gè)地方訓(xùn)練,電力會(huì)吃不消。”他透露,他的團(tuán)隊(duì)與中國科學(xué)院、國家超級(jí)計(jì)算無錫中心等機(jī)構(gòu)聯(lián)合推出的全國算力網(wǎng)絡(luò)調(diào)度項(xiàng)目,能夠達(dá)到分鐘級(jí)解決排隊(duì)問題的效果,多個(gè)異地訓(xùn)練達(dá)到單點(diǎn)訓(xùn)練80%的效率?!盎旧希植际接?xùn)練、協(xié)同訓(xùn)練是可行的?!?/p>
當(dāng)談及如何協(xié)調(diào)算力硬件與軟件發(fā)展關(guān)系時(shí),劉韻潔提出,軟硬件要結(jié)合、融合發(fā)展。
他表示,硬件生產(chǎn)消耗地球物理資源?!跋囊稽c(diǎn),資源就少一點(diǎn)?!倍浖鄬?duì)靈活,可以修改,對(duì)物理資源消耗較少,“這是一個(gè)很重要的社會(huì)發(fā)展理念”。另外,劉韻潔認(rèn)為,軟件開發(fā)消耗一定的人力資源,但應(yīng)用AI后,開發(fā)效率有所加快。他繼而提出,凡是能用軟件代替的部分,盡量發(fā)展軟件。
“但軟件不是萬能的,必須滿足算力所要求的硬件條件?!彼J(rèn)為,軟件無法承擔(dān)的部分要與硬件結(jié)合發(fā)展。
如何打造共享的算力網(wǎng)絡(luò)生態(tài)?劉韻潔建議,有關(guān)政府部門要把它協(xié)同、管理起來,企業(yè)和科研機(jī)構(gòu)等要密切配合?!斑@是一個(gè)整體工程,但目前大家都是自己悶頭干自己的?!?/p>