導(dǎo)讀:在 11 月底的 2024 中國信息通信大會“算力網(wǎng)絡(luò)算網(wǎng)一體創(chuàng)新發(fā)展論壇”上,中國移動研究院副院長段曉東攜手天數(shù)智芯、壁仞科技、中興、海光、瀚博等產(chǎn)業(yè)合作伙伴,發(fā)布了“芯合”異構(gòu)混合并行訓練系統(tǒng) 1.0。
12 月 3 日消息,在 11 月底的 2024 中國信息通信大會“算力網(wǎng)絡(luò)算網(wǎng)一體創(chuàng)新發(fā)展論壇”上,中國移動研究院副院長段曉東攜手天數(shù)智芯、壁仞科技、中興、海光、瀚博等產(chǎn)業(yè)合作伙伴,發(fā)布了“芯合”異構(gòu)混合并行訓練系統(tǒng) 1.0。
據(jù)介紹,“芯合”異構(gòu)混合并行訓練系統(tǒng)具備基于非均勻計算任務(wù)切分 ITD(Inhomogeneous Task Distribution)算法的 3D 并行策略和基于 GDR(GPU Direct RDMA)的異構(gòu)芯片高速通信兩大核心能力。
基于 ITD 算法的 3D 并行技術(shù)可通過通用混合訓練框架實現(xiàn)異構(gòu)數(shù)據(jù)并行、異構(gòu)流水線并行,實現(xiàn)數(shù)據(jù)微批次大小、數(shù)量、流水線并行度等參數(shù)在異構(gòu)算力上的自適應(yīng)調(diào)整;
基于 GDR 的異構(gòu)芯片高速通信技術(shù)可在不改變芯片原有通信接口基礎(chǔ)上,通過定義數(shù)據(jù)傳輸架構(gòu)、流程及接口標準,屏蔽底層硬件差異,實現(xiàn)頂層訓練任務(wù)在異構(gòu)算力集群上分布式通信的無感拆解。
中國移動透露,當前,系統(tǒng)已實現(xiàn)百億參數(shù)大模型在英偉達、天數(shù)智芯、壁仞科技、海光等 4 家智算芯片上的交叉混合訓練,規(guī)??芍С秩f卡集群,訓練加速比達 95% 以上,達到“業(yè)界領(lǐng)先水平”,未來將在提升智能算力資源利用率及促進國產(chǎn)算力發(fā)展等方面發(fā)揮重要作用。
此外,中國移動攜手華為、瀚博、澎峰、海光、天數(shù)智芯等產(chǎn)業(yè)合作伙伴在論壇上發(fā)布了智算“芯合”算力原生基礎(chǔ)軟件棧 2.0。
IT之家查詢公開資料獲悉,中國移動于 2023 年研發(fā)并發(fā)布“芯合”算力原生基礎(chǔ)軟件棧 1.0,首次實現(xiàn)智算應(yīng)用一鍵式跨芯遷移的目標,已在山東、廣西等多省市的路橋檢測、智能安防等場景試點應(yīng)用,降低智算應(yīng)用向國產(chǎn)化芯片遷移的復(fù)雜度。
“芯合”基礎(chǔ)軟件棧 2.0 相較于之前實現(xiàn)了三大升級:
一是能力升級,全面重構(gòu)算力抽象模型,插件化靈活接入英偉達、華為、海光等 6 家 AI 芯片,拓展 ONNX、SYCL 等更多編程范式,支持泛 AI 應(yīng)用的跨芯遷移。
二是性能升級,新增對標 CUDA 的 DNN、BLAS 等高性能計算庫,提供圖算融合編譯優(yōu)化能力,實現(xiàn)性能大幅提升,當前應(yīng)用跨架構(gòu)遷移損耗已降低至 10% 以內(nèi)。
三是效率升級,構(gòu)建面向智算應(yīng)用的“跨架構(gòu)軟件工廠”,提供統(tǒng)一開發(fā)、調(diào)試、優(yōu)化、部署、遷移全生命周期服務(wù)能力,縮短應(yīng)用開發(fā)、上線時間,提升整體研發(fā)效率。
中國移動透露,當前,“芯合”算力原生基礎(chǔ)軟件棧 2.0 已實現(xiàn)泛 AI 應(yīng)用在英偉達、英特爾、華為、瀚博、天數(shù)智芯、海光 6 家智算芯片間的一鍵式跨芯流轉(zhuǎn)遷移,源源轉(zhuǎn)換效率 > 95%,遷移性能損耗 < 10%,遷移時間 < 20s,已具備規(guī)模商用條件,未來將在提升智能算力網(wǎng)絡(luò)自主可控水平方面發(fā)揮重要作用。