天云融創軟件攜手齊魯工業大學 構建高性能數據分析平臺
近年(nian)來,國(guo)(guo)家(jia)(jia)對于高新技術自主研(yan)發(fa)的(de)重視已經上升到了國(guo)(guo)家(jia)(jia)戰略(lve)層面,高校作(zuo)為國(guo)(guo)家(jia)(jia)未(wei)來人才儲備(bei)(bei),科(ke)研(yan)成果最多的(de)單位之(zhi)一,國(guo)(guo)家(jia)(jia)對其投(tou)入(ru)(ru)也在(zai)逐(zhu)年(nian)加大。教(jiao)學設(she)施(shi)(shi)的(de)優化與(yu)科(ke)研(yan)配套(tao)設(she)備(bei)(bei)對于高校教(jiao)研(yan)工作(zuo)者來說尤為重要。在(zai)眾多科(ke)研(yan)設(she)備(bei)(bei)中(zhong)(zhong),高性能計算機和計算中(zhong)(zhong)心已經越來越多的(de)作(zuo)為“基建”設(she)施(shi)(shi)被各(ge)大高校爭先引入(ru)(ru)。
齊魯工業大學作為(wei)山東省重點建設的、山東(dong)省綜合(he)性(xing)自(zi)然科(ke)(ke)(ke)學(xue)(xue)研(yan)究機構(gou)以(yi)及(ji)山東(dong)省屬高校(xiao)高水平大學(xue)(xue),緊(jin)隨國家科(ke)(ke)(ke)技興(xing)國的(de)發(fa)展(zhan)戰(zhan)略,提前布(bu)局(ju)高性(xing)能(neng)計算基礎設施,為教學(xue)(xue)、科(ke)(ke)(ke)研(yan)、行業應用等多種(zhong)應用場景提供(gong)完善的(de)融(rong)合(he)服務平臺。尤其是在人工智(zhi)能(neng)方向(xiang),校(xiao)方迫切(qie)需要搭建(jian)自(zi)己的(de)高性(xing)能(neng)數(shu)據分析集群,幫(bang)助(zhu)在校(xiao)老師及(ji)學(xue)(xue)生完成在人工智(zhi)能(neng)領域的(de)開發(fa)、模型(xing)訓(xun)練教學(xue)(xue)以(yi)及(ji)科(ke)(ke)(ke)研(yan)任務。
人工智能(neng)(neng)領域的(de)(de)(de)(de)(de)探(tan)索需(xu)要強大(da)(da)(da)的(de)(de)(de)(de)(de)算力(li)支(zhi)撐(cheng),高(gao)(gao)性能(neng)(neng)數據分析集群是(shi)(shi)不可或缺的(de)(de)(de)(de)(de)基(ji)(ji)礎設施。它(ta)不僅需(xu)要良(liang)好(hao)的(de)(de)(de)(de)(de)硬件(jian)(jian)(jian)(jian)(jian)支(zhi)撐(cheng)和(he)(he)友(you)好(hao)的(de)(de)(de)(de)(de)應用(yong)(yong)軟件(jian)(jian)(jian)(jian)(jian),更需(xu)要能(neng)(neng)把性能(neng)(neng)發揮到最大(da)(da)(da)化的(de)(de)(de)(de)(de)中臺系(xi)統——“集群資(zi)源管(guan)理(li)(li)和(he)(he)調度軟件(jian)(jian)(jian)(jian)(jian)”。所(suo)謂集群資(zi)源管(guan)理(li)(li)和(he)(he)調度軟件(jian)(jian)(jian)(jian)(jian)就(jiu)是(shi)(shi)協(xie)調底層硬件(jian)(jian)(jian)(jian)(jian)資(zi)源與應用(yong)(yong)層軟件(jian)(jian)(jian)(jian)(jian)的(de)(de)(de)(de)(de)中樞系(xi)統,好(hao)比一個繁忙十(shi)字路(lu)口的(de)(de)(de)(de)(de)紅(hong)綠燈,它(ta)可緩解擁堵的(de)(de)(de)(de)(de)道路(lu)交通,并最大(da)(da)(da)化提升道路(lu)運輸能(neng)(neng)力(li),這就(jiu)是(shi)(shi)高(gao)(gao)性能(neng)(neng)計算中資(zi)源管(guan)理(li)(li)和(he)(he)調度軟件(jian)(jian)(jian)(jian)(jian)的(de)(de)(de)(de)(de)作用(yong)(yong)。沒有它(ta)的(de)(de)(de)(de)(de)管(guan)理(li)(li),會造成用(yong)(yong)戶的(de)(de)(de)(de)(de)任務大(da)(da)(da)量沖突,IT資(zi)源大(da)(da)(da)量浪費,導(dao)致科研項目進度大(da)(da)(da)大(da)(da)(da)降低。常規的(de)(de)(de)(de)(de)開(kai)源軟件(jian)(jian)(jian)(jian)(jian)如基(ji)(ji)于容(rong)器技術的(de)(de)(de)(de)(de)Kubernetes使(shi)用(yong)(yong)和(he)(he)維護門檻(jian)較高(gao)(gao),需(xu)要使(shi)用(yong)(yong)者熟悉容(rong)器的(de)(de)(de)(de)(de)制作和(he)(he)使(shi)用(yong)(yong),運行和(he)(he)維護也缺乏代碼(ma)開(kai)發者的(de)(de)(de)(de)(de)直接(jie)支(zhi)持。
天云(yun)軟(ruan)(ruan)件(jian)與合作伙伴一(yi)(yi)起(qi)積(ji)極聽取校(xiao)方的(de)(de)(de)(de)需求(qiu)與意見,從校(xiao)方的(de)(de)(de)(de)使(shi)(shi)用(yong)場景出(chu)發,根(gen)據(ju)多年(nian)的(de)(de)(de)(de)服(fu)務經驗和(he)(he)(he)(he)高性能計(ji)(ji)算(suan)、高性能數據(ju)分(fen)(fen)析管理調度軟(ruan)(ruan)件(jian)的(de)(de)(de)(de)技術積(ji)累,基于天云(yun)自(zi)主(zhu)的(de)(de)(de)(de)高性能計(ji)(ji)算(suan)管理和(he)(he)(he)(he)調度系(xi)統SkyForm AIP設計(ji)(ji)出(chu)了(le)一(yi)(yi)套(tao)適合于高校(xiao)的(de)(de)(de)(de)高性能數據(ju)分(fen)(fen)析平臺。重點提升對(dui)GPU資(zi)源(yuan)的(de)(de)(de)(de)調度、使(shi)(shi)用(yong)和(he)(he)(he)(he)監(jian)控(kong),實(shi)現完全(quan)云(yun)模式(shi)的(de)(de)(de)(de)操作流程,讓(rang)老師和(he)(he)(he)(he)學(xue)生(sheng)們(men)可(ke)以像在本地一(yi)(yi)樣遠程可(ke)視化使(shi)(shi)用(yong)應(ying)用(yong)。調度軟(ruan)(ruan)件(jian)不(bu)僅(jin)有效為模型訓練任(ren)務分(fen)(fen)配(pei)GPU,還可(ke)監(jian)控(kong)GPU實(shi)際的(de)(de)(de)(de)使(shi)(shi)用(yong)情況,對(dui)已分(fen)(fen)配(pei)GPU后不(bu)使(shi)(shi)用(yong)以及隨意使(shi)(shi)用(yong)未經調度分(fen)(fen)配(pei)的(de)(de)(de)(de)GPU的(de)(de)(de)(de)任(ren)務,將會根(gen)據(ju)規(gui)則自(zi)動處理,這樣極大(da)的(de)(de)(de)(de)提高了(le)GPU和(he)(he)(he)(he)集(ji)群其(qi)他資(zi)源(yuan)的(de)(de)(de)(de)利用(yong)率(lv),讓(rang)老師和(he)(he)(he)(he)同(tong)學(xue)們(men)把(ba)精力集(ji)中在人工(gong)智能的(de)(de)(de)(de)科研和(he)(he)(he)(he)教學(xue)上,而不(bu)需要花費大(da)量(liang)精力去學(xue)習和(he)(he)(he)(he)處理容器、操作系(xi)統命令等復雜的(de)(de)(de)(de)IT問題
當然項目也(ye)并非進(jin)(jin)行(xing)(xing)的(de)一(yi)帆風順。在(zai)最初的(de)高性(xing)能數據分(fen)析(xi)集群部(bu)署完(wan)成后,同學(xue)們(men)爭先恐后的(de)登錄(lu)平臺,想(xiang)在(zai)平臺上盡快(kuai)建立自己(ji)的(de)研(yan)究項目,但(dan)這也(ye)引發了(le)(le)一(yi)個(ge)問(wen)題——稀缺的(de)GPU資(zi)源長時(shi)間(jian)被(bei)某些用(yong)戶(hu)(hu)長時(shi)間(jian)占(zhan)用(yong),導致其他人無法使(shi)用(yong)。天云軟件(jian)的(de)技術(shu)團(tuan)(tuan)隊(dui)迅速作出反應,對(dui)軟件(jian)產品進(jin)(jin)行(xing)(xing)了(le)(le)改進(jin)(jin)。首先對(dui)用(yong)戶(hu)(hu)任(ren)務類(lei)型(xing)分(fen)類(lei),通(tong)(tong)過限制登錄(lu)時(shi)間(jian)和資(zi)源分(fen)配,有效(xiao)釋放(fang)平臺緊俏資(zi)源;其次為(wei)防(fang)止資(zi)源分(fen)配沖突,對(dui)系統監控(kong)功(gong)能進(jin)(jin)行(xing)(xing)了(le)(le)重點升(sheng)級,使(shi)得(de)調度系統在(zai)監控(kong)下對(dui)資(zi)源分(fen)配得(de)當,效(xiao)率(lv)倍(bei)增;最后為(wei)了(le)(le)進(jin)(jin)一(yi)步(bu)提高整體(ti)系統安全(quan)性(xing),天云軟件(jian)技術(shu)團(tuan)(tuan)隊(dui)對(dui)圖形應用(yong)內(nei)網端口(kou)動態端口(kou)做了(le)(le)統一(yi)映射到一(yi)個(ge)固定(ding)端口(kou),用(yong)戶(hu)(hu)通(tong)(tong)過網關訪問(wen)系統,直接打開瀏覽器(qi)輸入登錄(lu),安全(quan)便捷(jie)。
齊(qi)魯工業大學(xue)計算機科學(xue)與技術學(xue)院姜(jiang)文峰老師說:“平臺最開始確實(shi)有些使用(yong)問題,經(jing)過一段時間(jian)的(de)(de)(de)磨合后(hou),天(tian)云(yun)軟(ruan)件逐步完善(shan)切實(shi)可行的(de)(de)(de)升級方案,并為我(wo)們(men)定制(zhi)化(hua)開發了(le)多項(xiang)配套實(shi)用(yong)功能,他們(men)不僅(jin)能夠快速(su)響應,還(huan)專門建立了(le)技術運維社群,7*24全天(tian)候在線(xian)處理突發問題,這樣的(de)(de)(de)服務令我(wo)們(men)非(fei)常滿(man)意,目前碰(peng)到的(de)(de)(de)問題都已妥善(shan)的(de)(de)(de)解決,這個平臺對于我(wo)們(men)學(xue)校的(de)(de)(de)科研(yan)教學(xue)工作(zuo)起到了(le)很大的(de)(de)(de)幫助。”
天云軟件與(yu)合(he)作伙伴通力(li)合(he)作克服(fu)了(le)項目(mu)實(shi)施中的(de)(de)諸多(duo)難點,為齊(qi)魯工業大學搭建了(le)一個模(mo)塊化、便捷(jie)、可靠且可擴(kuo)展的(de)(de)高新能數據分析平臺。經過近兩年的(de)(de)使(shi)用和(he)與(yu)運維團隊的(de)(de)緊(jin)密配合(he),系統運行(xing)穩定,資(zi)源效率實(shi)使(shi)用大幅提高,為校方教學、科研項目(mu)提供了(le)良好的(de)(de)技術支撐,得到了(le)老(lao)師同(tong)學們的(de)(de)一致好評。
— 推薦閱讀 —
- 2022-03-22
- 2022-03-22
- 2022-03-22
- 2022-03-22
- 2022-03-18
- 2022-03-18
在線(xian)咨詢(xun) MESSAGE