<bdo id='hrxah'><sup id='hrxah'><div id='hrxah'><bdo id='hrxah'></bdo></div></sup></bdo>

提升計算性能的秘密——容器與裸金屬混合調度管理

AI算力運營現狀

今天(tian)，如果隨便打開一個提供AI算力運營的(de)平臺，基(ji)本上都是基(ji)于(yu)容器云(yun)，即Kubernetes架構(gou)的(de)。

這種架構(gou)有許多優(you)越性，對于(yu)平臺(tai)開(kai)發者來說門檻低，可以借助于(yu)國外(wai)開(kai)源社區的(de)代碼、知識和方案，只需在上面(mian)構(gou)建用戶界(jie)面(mian)和運(yun)營功能，即可提供簡單的(de)算力運(yun)營功能。

客戶需求多樣化

隨著客戶群體范圍不斷拓展，既有需要借助外部推理服務和應用使用AI的用戶，也有擁有自己AI團隊、用自有數據訓練大模型的大型企業。

許多用戶利用天云融創軟件的SkyForm算力調度平臺管理GPU算例進行應用開發，需要連接本地IDE與算力池中的資源；生物信息行業不僅需要GPU資源運行如AlphaFold這樣的AI應用，還需要CPU資源進行基因分析。

算(suan)力的(de)多樣性(xing)可以大大提高(gao)資源利用率(lv)，降低算(suan)力運營者(zhe)的(de)成本。

容器集群方案的局限性

由于大(da)部分AI用戶習慣使用容器的方式進行模型訓練(lian)和推理，天云融創軟件起(qi)初也像其他算力運營平臺一樣，重點(dian)支持單個和多個容器組合的應用。

然而，隨著客戶群體的(de)擴大和應用形態及(ji)算(suan)力需求的(de)多(duo)樣(yang)化(hua)，我們發現(xian)現(xian)有的(de)容器集群方案(an)存(cun)在許多(duo)局限(xian)性：

模型訓練中調整依賴組件：每次都需重新制作鏡像，對于需要頻繁調整庫和方法的開發人員來說，調試周期長，效率低。
多機訓練鏡像瓶頸：多機訓練時，從鏡像庫下拉鏡像效率低，啟動時間長，鏡像倉庫容易成為瓶頸。
GPU故障處理復雜：在大規模GPU集群中，故障處理復雜，需自動判斷和處理故障GPU，并重新調度任務。
復雜任務調度能力不足：AI和大數據任務需要高并發、低延遲的調度能力，Kubernetes缺乏復雜任務調度能力。
存算分離架構延遲：Kubernetes的存算分離架構增加了數據訪問延遲，影響計算效率，特別是在AI和大數據場景下。
本地IDE開發限制：許多開發者希望使用本地IDE（如VSCode），通過SSH遠程連接算力池開發模型和應用，現有方案需要提供復雜的網絡轉發功能。

天云融創軟件的解決方案

基于上述問題，天云融創軟件開發了同時支持裸金屬（HPC）和容器應用的SkyForm算力調度系統。這一系統不僅能調度多容器應用，還能同時調度和運行裸金屬HPC應用。

在裸金屬上使用Conda建立(li)個人(ren)的(de)(de)用戶空間(jian)，既(ji)能(neng)達到與容器(qi)類似的(de)(de)固化軟(ruan)件組件和庫(ku)的(de)(de)功能(neng)，還能(neng)避(bi)免下(xia)拉容器(qi)鏡像(xiang)的(de)(de)動(dong)作，將大(da)型分(fen)布式(shi)模型的(de)(de)啟動(dong)時(shi)間(jian)從幾十分鐘縮短到十幾分鐘。

天云融創軟件的SkyForm調度器每15秒鐘監視一次GPU的健康狀況，自動處理GPU故障，重新調度任務，實現模型的斷點續訓或推理的自動恢復。

通過我們產品自帶的4層和7層網絡協議轉發，用戶可以動態申請GPU資源，然后使用自己桌面上的VSCode，安裝遠程連接插件，通過SSH與分配的容器資源聯通，實現遠程開發功能。

最后

天云融創軟件的SkyForm算力調度管理平臺已經在國內多家智算/超算中心、多個行業領域部署應用，為AI訓練和推理提供安全可靠的算力服務。我們堅持裸金屬和容器混合算力調度和管理，以滿足多樣化的客戶需求，提高算力資源利用率，降低運營成本。

ꄴ前一個：無(wu)

ꄲ后一個：無