提升計算性能的秘密——容器與裸金屬混合調度管理
AI算力運營現狀
今天(tian),如果隨便打開一個提供AI算力運營的(de)平臺,基(ji)本上都是基(ji)于(yu)容器云(yun),即Kubernetes架構(gou)的(de)。
這種架構(gou)有許多優(you)越性,對于(yu)平臺(tai)開(kai)發者來說門檻低,可以借助于(yu)國外(wai)開(kai)源社區的(de)代碼、知識和方案,只需在上面(mian)構(gou)建用戶界(jie)面(mian)和運(yun)營功能,即可提供簡單的(de)算力運(yun)營功能。
客戶需求多樣化
隨著客戶群體范圍不斷拓展,既有需要借助外部推理服務和應用使用AI的用戶,也有擁有自己AI團隊、用自有數據訓練大模型的大型企業。
許多用戶利用天云融創軟件的SkyForm算力調度平臺管理GPU算例進行應用開發,需要連接本地IDE與算力池中的資源;生物信息行業不僅需要GPU資源運行如AlphaFold這樣的AI應用,還需要CPU資源進行基因分析。
算(suan)力的(de)多樣性(xing)可以大大提高(gao)資源利用率(lv),降低算(suan)力運營者(zhe)的(de)成本。
容器集群方案的局限性
由于大(da)部分AI用戶習慣使用容器的方式進行模型訓練(lian)和推理,天云融創軟件起(qi)初也像其他算力運營平臺一樣,重點(dian)支持單個和多個容器組合的應用。
然而,隨著客戶群體的(de)擴大和應用形態及(ji)算(suan)力需求的(de)多(duo)樣(yang)化(hua),我們發現(xian)現(xian)有的(de)容器集群方案(an)存(cun)在許多(duo)局限(xian)性:
-
模型訓練中調整依賴組件:每次都需重新制作鏡像,對于需要頻繁調整庫和方法的開發人員來說,調試周期長,效率低。 -
多機訓練鏡像瓶頸:多機訓練時,從鏡像庫下拉鏡像效率低,啟動時間長,鏡像倉庫容易成為瓶頸。 -
GPU故障處理復雜:在大規模GPU集群中,故障處理復雜,需自動判斷和處理故障GPU,并重新調度任務。 -
復雜任務調度能力不足:AI和大數據任務需要高并發、低延遲的調度能力,Kubernetes缺乏復雜任務調度能力。 -
存算分離架構延遲:Kubernetes的存算分離架構增加了數據訪問延遲,影響計算效率,特別是在AI和大數據場景下。 -
本地IDE開發限制:許多開發者希望使用本地IDE(如VSCode),通過SSH遠程連接算力池開發模型和應用,現有方案需要提供復雜的網絡轉發功能。
基于上述問題,天云融創軟件開發了同時支持裸金屬(HPC)和容器應用的SkyForm算力調度系統。這一系統不僅能調度多容器應用,還能同時調度和運行裸金屬HPC應用。
在裸金屬上使用Conda建立(li)個人(ren)的(de)(de)用戶空間(jian),既(ji)能(neng)達到與容器(qi)類似的(de)(de)固化軟(ruan)件組件和庫(ku)的(de)(de)功能(neng),還能(neng)避(bi)免下(xia)拉容器(qi)鏡像(xiang)的(de)(de)動(dong)作,將大(da)型分(fen)布式(shi)模型的(de)(de)啟動(dong)時(shi)間(jian)從幾十分鐘縮短到十幾分鐘。
通過我們產品自帶的4層和7層網絡協議轉發,用戶可以動態申請GPU資源,然后使用自己桌面上的VSCode,安裝遠程連接插件,通過SSH與分配的容器資源聯通,實現遠程開發功能。
— 推薦閱(yue)讀(du) —
- 2022-03-22
- 2022-03-22
- 2022-03-22
- 2022-03-22
- 2022-03-18
- 2022-03-18
在(zai)線咨詢 MESSAGE