中國版NV！摩爾線程GPU千卡集群化解AI算力國產化難題

54 閱讀 0 評論 0 點讚

這是一個AI的時代，這是一個算力的時代。遺憾的是，我們已經無緣接觸到最先進的AI硬件和算力，用著H20這樣閹割兩次的N卡，還要支付上百億元的費用，實在憋屈。

面對持續上漲的AI算力需求，我們唯有發展自己的國產方案，發展自己的大規模AI算力集群，才能突破圍追堵截，走上康莊大道。

說到這裡，很多人或許會第一時間想到華為，在美國制裁下頑強屹立突破的中國企業標桿，昇騰910B在AI算力領域也取得瞭一定的成就。

當然瞭，中國隻依靠一個華為是不夠的。中國的AI生態需要遍地開花，才有可能多點突破，讓生態更繁榮。

目前來看，摩爾線程以全功能GPU走通用計算路線是另一條希望之路，尤其是它已經成為華為之外，另一傢可以實現千卡千億參數大模型訓推的全國產AI芯片公司。

說起來，大傢對摩爾線程並不陌生，其堪稱中國自主GPU最大的希望，但很多人對摩爾線程的認知還停留在國產遊戲顯卡，其實不然，摩爾線程在AI上也實力突出。

自成立以來，摩爾線程做的就是通用GPU，跟英偉達一樣，除瞭圖形渲染，也能用於AI人工智能加速、科學計算。

經過三年多潛心發展，摩爾線程在AI GPU方面已經展現瞭強勁的實力，構建瞭一張從芯片、板卡、服務器，到集群、軟件棧的全棧AI智算產品版圖，並且已經多點落地、處處開花。

中國版NV！摩爾線程GPU千卡集群化解AI算力國產化難題

比如和清華系AI大模型公司無問芯穹的合作。摩爾線程是第一傢接入無問芯穹，並成功完成千卡級別大模型訓練的國產GPU公司。

摩爾線程的“誇娥”(KUAE)千卡智算集群，已與無穹Infini-AI大模型開發與服務平臺完成系統級融合適配，並完成瞭LLama2 700億參數大模型的訓練測試。近期，雙方又完成瞭“MT-infini-3B” 3B(30億參數)大模型的實訓。

這意味著什麼呢?這是行業首個基於國產GPU芯片的從0到1的端到端大模型實訓案例。誇娥也成為業內首個成功跑通並完整運行國產大模型的千卡集群。

無問芯穹聯合創始人兼CEO夏立雪表示力挺：“經過無問芯穹Infini-AI平臺的實訓與聯合優化工作驗證，摩爾線程誇娥千卡智算集群在精度、性能、易用性和算力利用率上均有優異表現，而且在實訓中實現瞭長時間穩定訓練不中斷，可以為千億參數級別大模型訓練提供持續高效的高性能算力支持。”

另外，滴普科技、實在智能等也基於摩爾線程的誇娥千卡智算集群，成功完成瞭不同參數量級的大模型分佈式訓練測試，效率、精度、穩定性都相當完美。基於摩爾線程誇娥千卡智算集群，滴普科技成功完成瞭700億參數LLaMA2大語言模型的預訓練測試，訓練時長共計77小時，全程無故障連續運行，集群訓練穩定性達到100%。

中國版NV！摩爾線程GPU千卡集群化解AI算力國產化難題

誇娥(KUAE)是摩爾線程推出的智算中心全棧解決方案，而誇娥這個名字來自我國神話傳說中的大力神誇娥氏，

可以說，為AI算力集群取這麼一個名字，充分展現瞭獨屬於中國人的堅忍不拔和浪漫情懷。出自《愚公移山》：“帝感其誠，命誇娥氏二子負二山，一厝朔東，一厝雍南。自此，冀之南，漢之陰，無隴斷焉。”

誇娥解決方案的基本節點是大模型智算加速卡MTT S4000組成的雙路八卡GPU服務器“MCCX D800”，以軟硬件一體化交付、開箱即用的方式，高可靠地解決大規模GPU算力的建設和運營管理問題。

中國版NV！摩爾線程GPU千卡集群化解AI算力國產化難題

MTT S4000是摩爾線程新一代專為AI大模型打造的智算加速卡，基於其自主研發的第三代MUSA架構。

利用自研的MTLink互連技術，MTT S4000可以高效千卡並行，線性加速比高達91%以上。

最為關鍵的是，摩爾線程擁有自研的全功能GPU MUSA統一系統架構，包括指令集架構、MUSA 編程模型、驅動、運行時庫、算子庫、通訊庫、數學庫等，而且充分兼容CUDA軟件生態，代碼可以幾乎零成本遷移，也無需擔心未來的可用性問題。

中國版NV！摩爾線程GPU千卡集群化解AI算力國產化難題

MTT S4000不但可用於大規模AI計算，還具備領先的圖形渲染能力、視頻編解碼能力、8K超高清顯示能力。

這使得它可為數字孿生、雲遊戲、雲渲染、數字內容創作等場景提供支持，並配合大模型推理能力，服務於AIGC等多模態業務場景。

從2024年的趨勢來看，多模態需求將快速崛起，英偉達CFO Colette Kress曾預計這塊業務將從零增長至數十億美元，對國產芯片來說也同樣如此。

中國版NV！摩爾線程GPU千卡集群化解AI算力國產化難題

MCCX D800作為AI大模型訓推一體機，是專為支持MTT S4000大模型智算加速卡充分發揮其訓練與推理性能、穩定性、可靠性的服務器系統，同時兼容主流GPU軟硬件生態。

中國版NV！摩爾線程GPU千卡集群化解AI算力國產化難題

就這樣，從核心基礎層面的MUSA統一架構芯片，到性能強大、可靈活部署的MTT S系列智算加速卡，到高度整合、完整方案的訓推一體機，到小型的智算微模塊，最終到誇娥千卡集群，摩爾線程提供瞭全套的全功能GPU產品組合。

如此一來，不同需求的客戶，都可以根據實際情況，選擇最適合自己的對應層級方案。

中國版NV！摩爾線程GPU千卡集群化解AI算力國產化難題

誇娥智算中心全棧解決方案，包括底層的以誇娥計算集群為核心的基礎設施、中間層的KUAE Platform集群管理平臺、最上層的KUAE Model Studio大模型平臺，軟硬一體開箱即用，一站式方案，一體化交付。

首先在基礎設施方面，全功能GPU是最堅定的基石，具備AI加速計算、3D圖形渲染、超清視頻編解碼、物理仿真和科學計算四大計算引擎，在功能上是國內唯一可以對標NVIDIA的全功能國產GPU。

其次是軟硬一體，因為與傳統GPU從芯片到卡的路徑不同，摩爾線程走的是系統級平臺路線，不但有千卡規模的算力集群，還有集群管理平臺、大模型平臺，從而做到軟硬結合，以一體化交付的方式，解決大規模GPU算力的建設和運營管理問題。

最後是全棧方案，從底層基礎設施，到中間層管理平臺，再到上層應用，摩爾線程做到瞭全面覆蓋，具備雲全棧能力，能夠有效地為千億參數大模型訓練和推理提供強大支持。

中國版NV！摩爾線程GPU千卡集群化解AI算力國產化難題

總結來說，誇娥智算集群全棧方案有8大核心優勢：

一是廣泛模型覆蓋，支持包括LLaMA、GLM、Aquila、Baichuan、GPT、Bloom、玉言等數十種業界主流的多種大模型的訓練和微調。

二是CUDA主流生態兼容，可利用摩爾線程代碼移植工具Musify，幾乎零成本地將CUDA代碼自動遷移到摩爾線程統一系統架構MUSA，再快速完成優化，而且完全獨立可靠。

三是斷點續訓，可以實時監測訓練任務集群，分鐘級發現故障，並自動恢復訓練，再加上檢查點備份恢復，可以大大降低故障率，並將綜合訓練效率提升15-50%。

四是大模型分佈式訓練，支持DeepSpeed、Megatron-DeepSpeed、Colossal-AI、FlagScale等業界主流分佈式框架，並融合多種並行算法策略，還支持大模型分佈式訓練斷點續訓、分佈式推理。

五是推理加速，包含瞭KUAEModel Studio一體化應用平臺、MUSA Serving推理服務軟件、MT Transformer分佈式推理加速框架、TensorX推理加速框架四大部分，可以有效支持主流大語言模型推理。

六是高性能通信，包括2/4/8卡節點內互連、PCIe和自主研發的MT-Link鏈路帶寬聚合、自研MCCL集合通訊庫等，MT-Link帶寬高達112GB/s。

七是高性能存儲，支持存儲數據經RDMA網絡讀寫、GPU Direct Storage、數據讀寫加速、數據緩存加速、AI訓練數據集加載加速、高性能並行文件系統、與外部存儲交換冷熱數據，等等。

八是集群可靠性與性能，完全可以支持萬卡以上大規模GPU集群的運行。

中國版NV！摩爾線程GPU千卡集群化解AI算力國產化難題

歷史無數次證明，越是艱難時刻，越需要國人勇敢地站出來，獨立自主，打破封鎖，AI算力時代亦是如此。

作為國內率先落地的首個以全功能GPU為底座的全國產千卡千億模型訓練平臺，摩爾線程誇娥千卡集群方案實現瞭軟硬設計、性能算力、生態應用的多方面突破，憑借自研軟硬架構與開發平臺、通用計算路線，具備多方面的獨特優勢。

尤其是在惡劣的國際環境下，在我國GPU技術相對薄弱的情況下，摩爾線程是最有希望破局的，全功能GPU唯一可以在功能上對標媲美英偉達，尤其是摩爾線程的創始團隊基本都出自英偉達，創始人張建中是原英偉達全球副總裁、中國區總經理，不但有著豐富的行業經驗、雄厚的技術功底，更能做到知己知彼。

而在技術之外，GPU行業也迎來瞭政策利好，更有利於實現突圍。

比如北京市近期發佈的《北京市算力基礎設施建設實施方案(2024-2027年)》就明確提出，加快推動核心軟硬件產品自主可控，建設自主可控算力技術體系，推動人工智能大模型與自主可控芯片開展適配。

對於采購自主可控GPU芯片、開展智能算力服務的企業，按照投資額的一定比例給予支持，加速實現智算資源供給自主可控。

中國版NV！摩爾線程GPU千卡集群化解AI算力國產化難題

從千卡高效互連的算力領先，到軟硬一體的高度優化，從大模型訓練與推理一體化，到高度的穩定性與可靠性，摩爾線程誇娥千卡集群在各個方面都已經擁有成熟的經驗，堪稱“中國英偉達”，最有希望實現國產自主替代，解決國內AI算力緊缺的難題。

點讚(0) 打賞

本文分类：遊戲動漫
本文标签：中國版NV 摩爾線程GPU千卡集群化解AI算力國產難題
浏览次数：54 次瀏覽
发布日期：2024-06-06 17:56:37
本文链接：https://shuohk.com/cms/youxidongman/130540.html

中國版NV！摩爾線程GPU千卡集群化解AI算力國產化難題

评论列表共有 0 條評論

發表評論取消回复

中國版NV！摩爾線程GPU千卡集群化解AI算力國產化難題

中國版NV！摩爾線程GPU千卡集群化解AI算力國產化難題

评论列表 共有 0 條評論

發表評論 取消回复

评论列表共有 0 條評論

發表評論取消回复