導讀:12 月 19 日,摩爾線程宣布,首個全國產千卡千億模型訓練平臺 —— 摩爾線程 KUAE 智算中心揭幕儀式在北京成功舉辦,宣告國內首個以國產全功能 GPU 為底座的大規(guī)模算力集群正式落地,大模型智算加速卡 MTT S4000 也同步發(fā)布。
12 月 19 日,摩爾線程宣布,首個全國產千卡千億模型訓練平臺 —— 摩爾線程 KUAE 智算中心揭幕儀式在北京成功舉辦,宣告國內首個以國產全功能 GPU 為底座的大規(guī)模算力集群正式落地,大模型智算加速卡 MTT S4000 也同步發(fā)布。
摩爾線程大模型智算加速卡 MTT S4000,采用第三代 MUSA 內核,單卡支持 48GB 顯存和 768GB/s的顯存帶寬?;谀柧€程自研 MTLink1.0 技術,MTT S4000 可以支持多卡互聯(lián),助力千億大模型的分布式計算加速。同時,MTT S4000 提供先進的圖形渲染能力、視頻編解碼能力和超高清 8K HDR 顯示能力,助力 AI 計算、圖形渲染、多媒體等綜合應用場景的落地。尤為重要的是,借助摩爾線程自研 MUSIFY 開發(fā)工具,MTT S4000 計算卡可以充分利用現(xiàn)有 CUDA 軟件生態(tài),實現(xiàn) CUDA 代碼零成本遷移到 MUSA 平臺。
官方表示,摩爾線程 KUAE 智算中心解決方案以全功能 GPU 為底座,是軟硬一體化的全棧解決方案,包括以 KUAE 計算集群為核心的基礎設施、KUAE Platform 集群管理平臺以及 KUAE ModelStudio 模型服務,旨在以一體化交付的方式解決大規(guī)模 GPU 算力的建設和運營管理問題。該方案可實現(xiàn)開箱即用,大大降低傳統(tǒng)算力建設、應用開發(fā)和運維運營平臺搭建的時間成本,實現(xiàn)快速投放市場開展商業(yè)化運營。
摩爾線程 KUAE 支持包括 DeepSpeed、Megatron-DeepSpeed、Colossal-AI、FlagScale 在內的業(yè)界主流分布式框架,并融合了多種并行算法策略,包括數(shù)據(jù)并行、張量并行、流水線并行和 ZeRO,且針對高效通信計算并行和 Flash Attention 做了額外優(yōu)化。目前,摩爾線程支持包括 LLaMA、GLM、Aquila、Baichuan、GPT、Bloom、玉言等各類主流大模型的訓練和微調?;谀柧€程 KUAE 千卡集群,70B 到 130B 參數(shù)的大模型訓練,線性加速比均可達到 91%,算力利用率基本保持不變。以 2000 億訓練數(shù)據(jù)量為例,智源研究院 700 億參數(shù) Aquila2 可在 33 天完成訓練;1300 億參數(shù)規(guī)模的模型可在 56 天完成訓練。此外,摩爾線程 KUAE 千卡集群支持長時間連續(xù)穩(wěn)定運行,支持斷點續(xù)訓,異步 Checkpoint 少于 2 分鐘。