浩鯨云計算科技股份有限公司 版權所有 2003-2023
智能化浪潮奔涌澎湃,生成式AI驅動新一輪數字化變革,運營商加速向智能化轉型,建設高速算力網絡,深化基礎設施以支撐新場景、新應用成重要目標。
2024 MWC上海浩鯨科技“智能基礎設施”展區,帶來異構智算底座調度管理、BICN3.0算力網絡一體化方案,分享在解決智算底座集成與應用難題過程中的領先經驗,打造“跨越異構GPU卡集群管理、跨越智算集群一體化調度、跨越算力主體的一體化支撐”三重能力,加速釋放智算底座價值,推動全國一體化算力網絡的加速構建。
隨著AI等新一代信息技術快速發展,智算需求爆發式增長,在基礎設施充分發揮作用的實踐過程中。我們發現在云內融合、跨云融合、云邊融合三個方面;在GPU卡、智算集群、算力主體三個維度,面臨著多重挑戰。
面對這些挑戰,要突破智算底座集成與應用的難題,釋放智算底座生產力,浩鯨科技提供異構智算調度管理綜合方案、BICN3.0算力網絡一體化升級方案,重點實現三個能力跨越,探索解決思路。
面對智算需求快速增長、智算資源稀缺、單卡分配和粗粒度資源管理粗曠、集群吞吐量受限等在資源使用上的難題,浩鯨科技提出異構集群管理方案具備三大創新能力,以解決當前異構GPU普遍存在的背景下,降低上層應用算力使用門檻,提升資源利用效率。
1) 異構GPU統一接入及管理,向應用提供標準化調用接口。目前已支持和對接了國內外10+芯片種類;
2) 自研Tower插件,無需購買原廠License,實現1%細粒度算力精分與顯存超分;
3) 分時遠程調用智算算力,實現GPU資源的共享化使用。
異構算力的多樣化現狀要求跨集群進行一體化調度,但在調度過程中存在面對不同類型應用如何一體化調度、不同調度訓練作業如何并行、如何配置最優調度方案以提升資源利用率、解決多模型并行的資源沖突等多重挑戰。為此,浩鯨科技針對異構算力調度方向提出了基于性能感知自適應跨集群調度框架的前沿性探索,重點研究三大關鍵技術:
1) 動態并行策略:按異構算力資源現狀,分片策略組合支持流水線、數據、向量等多種并行策略的靈活組合;
2) 性能探測技術:基于現網資源情況,探測不同并行策略下的最優計算性能;
3) 動態分配技術:動態感知智算集群的狀態,實現算力資源最優調度。
為了解決集群內,跨集群問題,浩鯨科技針對BICN算力網絡一體化支撐方案進行3.0全新升級,提供跨越算力主體的一體化支撐及并網能力,具備“1+N架構”、“5O調度能力”、“5M并網模式”升級亮點,并探索出靈活合作模式,促進算力服務生態運營。
1+N架構升級:一體化BICN算網支撐能力體系解耦為接入、編排、運營、方案4層,面向不同需求方的要求,組合出N解決方案;
5O調度能力升級:面向異構算力、異主體、異區域、異算色、異平臺5異算力,提供一體化調度能力;
5M并網模式豐富度升級,提供信息層、業務層、運營層、編排層、原生4類并網模式支撐,滿足各種并網形態的支撐;
商業合作模式升級,面向不同的行業,不同的客戶需求,提供靈活的商業合作模式:標品模式、集成模式、賦能模式,促進一體化算力服務生態運營。
浩鯨科技智算底座解決方案致力于為客戶快速實現智算資源的統一納管,提高資源利用吞吐率、提升的使用價值。目前已協助多個省級運營商客戶構建智算資源納管能力,實現異構GPU統一納管、集群化管理、算力切片等核心能力,為省內大小模型的訓練及推理提供算力支撐。
同時,浩鯨科技BICN3.0算力網絡一體化支撐方案協助福建移動、山東移動、江蘇移動及上海新型互聯網交換中心等多家運營商及企業,實現內外部算力資源一體化運營,積極輸出區域算力一體化平臺的建設能力,實現算力高效互補和協同聯動。
未來,浩鯨科技將會持續加強在智算方向上的關鍵技術研究,持續加強在數據加載加速、計算加速及網絡加速等方向研究,加速智算底座生產力釋放。