SkyForm任務調度系統助力打造新一代智算中心
近幾年(nian)超算(suan)中(zhong)(zhong)(zhong)心已經被(bei)越來越多的(de)(de)人所認識,并且(qie)被(bei)廣泛(fan)應(ying)用到(dao)工業(ye)(ye)制造領(ling)域和科(ke)研單位,用以計算(suan)龐大(da)的(de)(de)數(shu)據任務。隨(sui)著行業(ye)(ye)數(shu)字(zi)化(hua)轉型的(de)(de)不斷深入和AI技術的(de)(de)廣泛(fan)應(ying)用,未來的(de)(de)算(suan)力中(zhong)(zhong)(zhong)心的(de)(de)發(fa)展將向大(da)數(shu)據+AI及高性能計算(suan)+AI的(de)(de)融(rong)合(he)趨勢演化(hua)。作為“智慧時代(dai)”的(de)(de)基礎設施——智算(suan)中(zhong)(zhong)(zhong)心,也將開始逐步登上未來科(ke)技發(fa)展的(de)(de)舞臺,擁有(you)自己的(de)(de)一(yi)席之地。
智算(suan)(suan)中心是(shi)一(yi)種“前云后算(suan)(suan)”的(de)融合(he)架構(gou)計(ji)算(suan)(suan)平臺,即(ji)數據通過后端(duan)的(de)算(suan)(suan)力(li)把結(jie)果輸(shu)送給前端(duan)云應(ying)用,典型的(de)使(shi)用場景(jing)如天氣預(yu)報,它就(jiu)(jiu)是(shi)通過新的(de)天氣數據觸發預(yu)報計(ji)算(suan)(suan),也就(jiu)(jiu)是(shi)后端(duan)的(de)算(suan)(suan)力(li),再把計(ji)算(suan)(suan)結(jie)果自(zi)動發布到云應(ying)用上,最后將數據和結(jie)果發回氣象(xiang)局(ju)存檔。除此以外,生命科學、科研物理仿(fang)真(zhen)、高端(duan)制造、能源(yuan)研究開(kai)采(cai)等領域隨著傳統仿(fang)真(zhen)和人工智能的(de)結(jie)合(he)都逐漸向“前云后算(suan)(suan)”的(de)需求模(mo)式靠攏(long)。
智(zhi)算中心日常要處理龐(pang)大的人工智(zhi)能(neng)數(shu)(shu)據,面對(dui)復雜的數(shu)(shu)據流(liu)和計(ji)算任(ren)務(wu)管理,高(gao)性能(neng)、高(gao)吞吐的任(ren)務(wu)調度系(xi)統是智(zhi)算中心的大腦,它高(gao)效智(zhi)能(neng)地協調計(ji)算資源,有序的管理計(ji)算任(ren)務(wu),從而提高(gao)平臺資源使用效率、大大加速生產(chan)和研發進程。
近(jin)幾年國(guo)內對(dui)于“國(guo)產(chan)化替代”政(zheng)策持續(xu)輸出,全國(guo)各(ge)(ge)地都(dou)積(ji)極響(xiang)應國(guo)家政(zheng)策,迅速針對(dui)各(ge)(ge)地的(de)科研、高新技術、高端制造等領域的(de)進行調整布局,國(guo)內某(mou)省(sheng)的(de)智(zhi)算中心自成立以(yi)來一直(zhi)為高校、科研等單位(wei)提供了面(mian)向對(dui)生物信(xin)息、工業仿真、人(ren)工智(zhi)能(neng)的(de)算力支持。
隨著日益增長的(de)(de)(de)算力需(xu)求,該智算中(zhong)心已經無法滿足現有客戶的(de)(de)(de)業務(wu)(wu),迫切需(xu)要進行全面升級(ji)。為了(le)更好(hao)的(de)(de)(de)服務(wu)(wu)用(yong)(yong)戶,中(zhong)心計劃進行一次(ci)全面升級(ji),此次(ci)升級(ji)的(de)(de)(de)目標一是(shi)提(ti)升開放性(xing),要以云服務(wu)(wu)的(de)(de)(de)方(fang)式對外開放,提(ti)供各(ge)種(zhong)(zhong)常(chang)用(yong)(yong)的(de)(de)(de)借(jie)口和(he)界面,以方(fang)便用(yong)(yong)戶使用(yong)(yong)和(he)接(jie)入;二是(shi)提(ti)升集約高效性(xing),采用(yong)(yong)超大(da)規模的(de)(de)(de)先進技術(shu),支(zhi)持異構(gou)硬件架構(gou),支(zhi)持裸金屬和(he)容器的(de)(de)(de)應用(yong)(yong)方(fang)式;三是(shi)提(ti)升普適普惠性(xing),能以云服務(wu)(wu)的(de)(de)(de)方(fang)式服務(wu)(wu)大(da)眾,提(ti)供各(ge)種(zhong)(zhong)靈(ling)活的(de)(de)(de)用(yong)(yong)戶功能。
天云(yun)融創軟件(jian)接到客戶(hu)的(de)咨詢后立(li)即組織技(ji)術團隊針對上述目標進行了初步調(diao)研,發(fa)現生物信息類(lei)計算(suan)大量(liang)依賴于GPU加速(su)算(suan)力,應用(yong)封(feng)裝(zhuang)多采(cai)用(yong)Docker等(deng)容(rong)器(qi)技(ji)術,并(bing)行算(suan)法多基(ji)于MPI并(bing)行應用(yong)框架(jia)。開(kai)源社區的(de)容(rong)器(qi)集群解決方案雖能管(guan)理調(diao)度GPU和容(rong)器(qi),但無法很好地兼容(rong)需要裸金屬和高速(su)互聯InfiniBand的(de)MPI并(bing)行應用(yong)程序。
一方面由于不(bu)用(yong)計算任(ren)(ren)務(wu)所需的GPU算力差別很大(da),需要根據任(ren)(ren)務(wu)需求設定不(bu)同大(da)小的GPU實例,使(shi)GPU利(li)用(yong)率最大(da)化;另一方面,容器鏡(jing)像(xiang)的管理以及多容器任(ren)(ren)務(wu)需要與(yu)MPI等類(lei)型(xing)的普通HPC應用(yong)共(gong)享計算資(zi)源。
面對這(zhe)些棘(ji)手的(de)(de)問(wen)題天云融創軟件(jian)技術團隊立刻著手制定解(jie)決(jue)方(fang)案,結合(he)公(gong)司兩個完全自主可(ke)控的(de)(de)核(he)心產(chan)品——SkyForm應用(yong)平臺和SkyForm AIP集(ji)(ji)群資源調度(du)系(xi)統,其核(he)心代碼不依賴(lai)國(guo)外開源社區。方(fang)案具有靈(ling)活的(de)(de)GPU調度(du)能力,支(zhi)(zhi)持NVIDIA MIG多實(shi)例調度(du),限制用(yong)戶在不越權的(de)(de)情況(kuang)下靈(ling)活調用(yong)Docker容器,并且(qie)可(ke)以很好地調度(du)Singularity/Apptainer多節(jie)點(dian)MPI并行任務,同時支(zhi)(zhi)持裸金屬HPC和AI計算任務,深度(du)集(ji)(ji)成Jupyter環境,實(shi)現了(le)國(guo)產(chan)化的(de)(de)異構(gou)環境的(de)(de)融合(he)計算解(jie)決(jue)方(fang)案。
通(tong)過應(ying)用平臺提供的(de)(de)基于(yu)WEB的(de)(de)遠程可視化(hua)技術,用戶(hu)可以輕松管(guan)(guan)理和使用生(sheng)物信息領域(yu)所需(xu)的(de)(de)容器封裝應(ying)用、GPU加速應(ying)用、和MPI并(bing)行(xing)應(ying)用,實現(xian)資源共享和統(tong)一(yi)管(guan)(guan)理,應(ying)用運行(xing)環境統(tong)一(yi)管(guan)(guan)理,以及應(ying)用數據統(tong)一(yi)管(guan)(guan)理。
此方案(an)已在(zai)該智算(suan)(suan)中心(xin)正式部(bu)署(shu)上線(xian),不(bu)僅(jin)異構(gou)算(suan)(suan)力(li)得到了充分利用(yong),而且還(huan)大大縮短(duan)了應用(yong)上線(xian)時間,為多(duo)租戶和多(duo)用(yong)戶提供安全有效(xiao)的(de)計算(suan)(suan)能力(li),讓更(geng)多(duo)科研(yan)客戶享受到穩定的(de)算(suan)(suan)力(li)保障。
— 推薦(jian)閱(yue)讀 —
- 2022-03-22
- 2022-03-22
- 2022-03-22
- 2022-03-22
- 2022-03-18
- 2022-03-18
在線咨詢 MESSAGE