亚洲手机在线观看,久久国产福利国产秒拍

中國移動發(fā)布“芯合”異構(gòu)混合并行訓練系統(tǒng) 1.0，支持多品牌萬卡集群

2024-12-04 08:49 IT之家

導(dǎo)讀：在 11 月底的 2024 中國信息通信大會“算力網(wǎng)絡(luò)算網(wǎng)一體創(chuàng)新發(fā)展論壇”上，中國移動研究院副院長段曉東攜手天數(shù)智芯、壁仞科技、中興、海光、瀚博等產(chǎn)業(yè)合作伙伴，發(fā)布了“芯合”異構(gòu)混合并行訓練系統(tǒng) 1.0。

　　12 月 3 日消息，在 11 月底的 2024 中國信息通信大會“算力網(wǎng)絡(luò)算網(wǎng)一體創(chuàng)新發(fā)展論壇”上，中國移動研究院副院長段曉東攜手天數(shù)智芯、壁仞科技、中興、海光、瀚博等產(chǎn)業(yè)合作伙伴，發(fā)布了“芯合”異構(gòu)混合并行訓練系統(tǒng) 1.0。

　　據(jù)介紹，“芯合”異構(gòu)混合并行訓練系統(tǒng)具備基于非均勻計算任務(wù)切分 ITD（Inhomogeneous Task Distribution）算法的 3D 并行策略和基于 GDR（GPU Direct RDMA）的異構(gòu)芯片高速通信兩大核心能力。

　　基于 ITD 算法的 3D 并行技術(shù)可通過通用混合訓練框架實現(xiàn)異構(gòu)數(shù)據(jù)并行、異構(gòu)流水線并行，實現(xiàn)數(shù)據(jù)微批次大小、數(shù)量、流水線并行度等參數(shù)在異構(gòu)算力上的自適應(yīng)調(diào)整；

　　基于 GDR 的異構(gòu)芯片高速通信技術(shù)可在不改變芯片原有通信接口基礎(chǔ)上，通過定義數(shù)據(jù)傳輸架構(gòu)、流程及接口標準，屏蔽底層硬件差異，實現(xiàn)頂層訓練任務(wù)在異構(gòu)算力集群上分布式通信的無感拆解。

　　中國移動透露，當前，系統(tǒng)已實現(xiàn)百億參數(shù)大模型在英偉達、天數(shù)智芯、壁仞科技、海光等 4 家智算芯片上的交叉混合訓練，規(guī)?？芍С秩f卡集群，訓練加速比達 95% 以上，達到“業(yè)界領(lǐng)先水平”，未來將在提升智能算力資源利用率及促進國產(chǎn)算力發(fā)展等方面發(fā)揮重要作用。

　　此外，中國移動攜手華為、瀚博、澎峰、海光、天數(shù)智芯等產(chǎn)業(yè)合作伙伴在論壇上發(fā)布了智算“芯合”算力原生基礎(chǔ)軟件棧 2.0。

　　IT之家查詢公開資料獲悉，中國移動于 2023 年研發(fā)并發(fā)布“芯合”算力原生基礎(chǔ)軟件棧 1.0，首次實現(xiàn)智算應(yīng)用一鍵式跨芯遷移的目標，已在山東、廣西等多省市的路橋檢測、智能安防等場景試點應(yīng)用，降低智算應(yīng)用向國產(chǎn)化芯片遷移的復(fù)雜度。

　　“芯合”基礎(chǔ)軟件棧 2.0 相較于之前實現(xiàn)了三大升級：

　　一是能力升級，全面重構(gòu)算力抽象模型，插件化靈活接入英偉達、華為、海光等 6 家 AI 芯片，拓展 ONNX、SYCL 等更多編程范式，支持泛 AI 應(yīng)用的跨芯遷移。
　　二是性能升級，新增對標 CUDA 的 DNN、BLAS 等高性能計算庫，提供圖算融合編譯優(yōu)化能力，實現(xiàn)性能大幅提升，當前應(yīng)用跨架構(gòu)遷移損耗已降低至 10% 以內(nèi)。
　　三是效率升級，構(gòu)建面向智算應(yīng)用的“跨架構(gòu)軟件工廠”，提供統(tǒng)一開發(fā)、調(diào)試、優(yōu)化、部署、遷移全生命周期服務(wù)能力，縮短應(yīng)用開發(fā)、上線時間，提升整體研發(fā)效率。

　　中國移動透露，當前，“芯合”算力原生基礎(chǔ)軟件棧 2.0 已實現(xiàn)泛 AI 應(yīng)用在英偉達、英特爾、華為、瀚博、天數(shù)智芯、海光 6 家智算芯片間的一鍵式跨芯流轉(zhuǎn)遷移，源源轉(zhuǎn)換效率 > 95%，遷移性能損耗 < 10%，遷移時間 < 20s，已具備規(guī)模商用條件，未來將在提升智能算力網(wǎng)絡(luò)自主可控水平方面發(fā)揮重要作用。

中國移動發(fā)布“芯合”異構(gòu)混合并行訓練系統(tǒng) 1.0，支持多品牌萬卡集群

相關(guān)閱讀

中國移動發(fā)布“芯合”異構(gòu)混合并行訓練系統(tǒng) 1.0，支持多品牌萬卡集群