精品一区二区三区东京热_国产麻豆精品久久一二三_亚洲综合色视频在线观看_亚洲AV无码乱码忘忧草亚洲人

北京天云融創軟件攜超智算融合解決方案亮相CCF HPC China 2024大會

 

2024 年 9 月 24 日(ri)至 26 日(ri),第 20 屆 CCF 全國(guo)高性能(neng)計(ji)算(suan)學術年會(以下簡稱“CCF HPC China 2024”) 在湖(hu)北武(wu)漢隆重開(kai)幕。此次大會以“華章廿載 新質未來”為主題(ti)由(you)中國計算(suan)機學會主(zhu)辦,中國計算(suan)機學會高性(xing)能計算(suan)專業(ye)委員會、華中科技(ji)大(da)(da)學、上(shang)海交通大(da)(da)學承辦,中國地質大(da)(da)學(武漢)、北京并行科技(ji)股份有(you)限(xian)公司(si)協辦。

 

在AIGC新時代的浪潮中,人工智能的未來需要牢牢建立在堅實的算力基礎之上。算力不僅是推動未來發展的核心驅動力,也是新質生產力的基石。在這一輪科技革命與產業變革中,新質生產力不僅代表著高效與先進,更是對“生產力”提升和結構優化的深刻追求。

 

高性(xing)能計算將更好的與智算相融合,為人工智能、云計算(suan)、大數據和物聯網等(deng)領域提供了強大的(de)支持,推動著新質生產力的(de)蓬勃(bo)發展(zhan)。

 

北京天云融(rong)創軟(ruan)件技術有限公(gong)司(si)CEO楊(yang)立亮相本屆大會“第二屆高性(xing)能異構(gou)計算與(yu)人工智能優化”分論壇,闡述了公(gong)司(si)對超(chao)智算融(rong)合(he)的最新理念(nian)和解(jie)決(jue)方案。

 

 

每當提到AI算力調度,許多人首先想到的可能是Kubernetes,畢竟它作為當前最流行的容器編排工具,在眾多場景下表現出色。然而Kubernetes的劣勢也較為明顯,如集(ji)群資源(yuan)利用率偏低、對訓(xun)練任(ren)務的批處(chu)理(li)支持不夠靈活等,今(jin)天天云(yun)融創軟(ruan)件將(jiang)為大(da)家提供一個(ge)新的(de)視角。

探討AI算力調度,首先需要明確未來AI的真正涵蓋內容。傳統AI和AIGC雖被視為AI領域的核心組成部分,但我們認為未來AI的范圍遠不止于此。大數據和高性能計算(HPC)同樣是推動AI進步的關鍵因素。

 

清華大學鄭緯民院士提出的“AI for Science”理念,強調了HPC與AI深度融合的重要性。這種融合不僅是當前技術發展的迫切需求,也為科學研究帶來了前所未有的計算能力和效率,表明HPC將成為未來AI的重要組成部分。

 

數據處理是AI的基礎,結合大數據與AI能夠顯著提升模型的訓練和推理能力。過去,HPC、AI和大數據處理常被視為三個獨立的計算資源區,各自運行和優化。然而,隨著技術進步和應用需求增長,這三者正在逐步融合,形成一個統一的計算生態系統。這一趨勢也定義了我們對未來AI涵蓋范圍的理解。

 

     那么(me),當前的(de)Kubernetes是否(fou)能(neng)夠全面支(zhi)持未來AI的(de)算(suan)力服(fu)務(wu)(wu)需求(qiu)?首先,我(wo)們需要分析(xi)Kubernetes在支(zhi)持AI計算(suan)方面存在的(de)優化(hua)空間。隨著微服(fu)務(wu)(wu)架(jia)構和容(rong)器化(hua)服(fu)務(wu)(wu)的(de)普及(ji),Kubernetes已成(cheng)為容(rong)器編排的(de)事(shi)實標(biao)準。

 

然而,AI工作負載的快速增長對算力平臺提出了新的挑戰。其中一個關鍵問題是集群資源的利用率尤其是GPU資源的高效使用。由于GPU算力成本高昂,提升其利用率顯得尤為重要。

 

當前,Kubernetes由于其云原生特(te)性(xing),通常(chang)需要預留大量資(zi)源(yuan)以確保服務(wu)的(de)高可(ke)用性(xing),這導致整(zheng)體集(ji)群的(de)資(zi)源(yuan)利用率偏(pian)低。

 

相比之下,高性能調度器專為固定規模的集群設計,能夠更優化地利用資源。因此,探索如何通過調度器提升資源利用率、減少任務等待時間、提高資源共享和拆借效率,成為亟待解決的問題。

 

其次,訓練任務的批處理特性也是Kubernetes在AI計算中面臨的重要挑戰。傳統的Kubernetes工作負載主要集中在在線常駐服務,而AI訓練任務和離線推理任務則具有有序處理和任務關聯等批處理特性。

 

Kubernetes在支持這種批處理需求方面表現有限,缺乏如“gang調度”(即同時調度一組相關聯的任務)和高效的作業隊列管理機制,無法滿足高并發、低延遲的調度需求。

 

同時,在多租戶環境下,Kubernetes也難以有效管理有限資源的分配和共享,進一步限制了其在AI算力調度中的應用。

 

除了上述問題,Kubernetes在硬件故障敏感性和高密度數據通信需求方面也存在不足。AI訓練任務對GPU和主機的穩定性要求極高,任何故障都可能導致訓練進度中斷和數據丟失。

 

而在現有的Kubernetes容器架構下,GPU監控和故障處理機制反應較慢,影響任務的連續性。此外,分布式訓練過程中,大規模數據集和多節點通信對存儲和網絡資源提出了更高要求,Kubernetes的存算分離架構往往增加了數據訪問的延遲,進而影響整體計算效率。

 

經濟學的一個基本原理指出,資源是有限的,且其邊際效益大于零,因此“如何最有效地配置有限資源”成為永恒的主題。盡管Kubernetes在容器管理和云原生應用方面表現出色,但在支持AI計算的過程中仍存在諸多優化空間。提升整體資源利用率,尤其是針對高成本的GPU資源,是Kubernetes亟需解決的關鍵問題。

 

此外作(zuo)為未(wei)來AI的(de)重(zhong)要組成(cheng)部分,HPC是否可以使用Kubernetes AI計(ji)算平臺(tai)?

 

經過深入分析,我們的結論是,目前無法在Kubernetes上有效支持HPC計算,原因是:

首先,硬(ying)件(jian)需求不同。AI計(ji)算(suan)(suan)通常對浮(fu)點運(yun)算(suan)(suan)精(jing)(jing)度要求(qiu)較(jiao)(jiao)低,內存需(xu)(xu)求(qiu)相對較(jiao)(jiao)少,但需(xu)(xu)要配置(zhi)大量的(de)(de)(de)GPU卡以(yi)加(jia)速模型訓練。而(er)HPC計(ji)算(suan)(suan)則對計(ji)算(suan)(suan)精(jing)(jing)度要求(qiu)更(geng)高,通常使用雙精(jing)(jing)度或更(geng)高精(jing)(jing)度的(de)(de)(de)運(yun)算(suan)(suan),且對內存的(de)(de)(de)需(xu)(xu)求(qiu)較(jiao)(jiao)大,主(zhu)要依賴大規模高主(zhu)頻的(de)(de)(de)CPU。在Kubernetes平(ping)臺上,難以(yi)同時滿足這兩種不同的(de)(de)(de)硬件需(xu)(xu)求(qiu),導致AI資源(yuan)難以(yi)與HPC資源(yuan)有效共用 。

其次,計算特(te)點不(bu)同。Kubernetes主要支持容(rong)器(qi)鏡像,滿足AI計(ji)算中快速(su)打包環境和移植的(de)需求(qiu)(qiu)。然(ran)而,HPC仿真對性能(neng)(neng)有極高(gao)的(de)要求(qiu)(qiu),容(rong)器(qi)技術會(hui)引(yin)入額外(wai)的(de)性能(neng)(neng)開(kai)銷(xiao),通常(chang)不適(shi)用于HPC計(ji)算。此外(wai),HPC計(ji)算常(chang)使用MPI并行(xing)框(kuang)架,而AI計(ji)算則依(yi)賴于TensorFlow、PyTorch等深度學習框(kuang)架,這在(zai)Kubernetes上(shang)運行(xing)高(gao)效的(de)MPI并行(xing)計(ji)算仍存在(zai)諸多未知數。

再(zai)次,軟件棧需求不同。HPC仿真(zhen)涉及復(fu)雜(za)的專(zhuan)業科(ke)學計算軟(ruan)件,這些軟(ruan)件對運(yun)行環(huan)境有特定要(yao)求,容器化可能(neng)增加系統復(fu)雜(za)性甚至無法實(shi)現。此外,HPC工(gong)程師習慣于在裸金(jin)屬(shu)和工(gong)作站上進行仿真(zhen)計算,難以適(shi)應Kubernetes的使用方式。

最后,使用習慣的(de)差(cha)異。HPC領(ling)域的發展早于AI,工程(cheng)師(shi)已(yi)習慣于在專用環境中提交和管理計算任務,這與Kubernetes的操作(zuo)方式存在巨大(da)差異,導致遷移(yi)和整合(he)困難。

綜上,在Kubernetes上進行HPC計算很困難,所以目前客戶只能選擇建設單獨的HPC平臺和AI平臺,強行將計算平臺進行割裂,但這將帶來一系列問題:資源池之間的閑置算力無法共享、數據無法互通,形成算力和數據孤島;不同供應商構建的平臺導致用戶體驗差異大;以及建設和運營的割裂分散,管理和支持更加復雜和不便。

 

因(yin)此,Kubernetes平(ping)臺無法全(quan)面支持未來AI的計(ji)算需(xu)求,單(dan)獨建設HPC和(he)AI資源(yuan)池不僅效率低下,還存在不少(shao)隱患。我們應當探索新(xin)的(de)技(ji)術路(lu)線,例如改(gai)進(jin)HPC調(diao)度器以支持(chi)AI計算(suan),從而(er)在一(yi)個統(tong)一(yi)的(de)平臺上實(shi)現HPC與AI的(de)高效(xiao)協同(tong),避免資源浪費和管理復雜性,推動AI技(ji)術的(de)持(chi)續發展(zhan)。

天云(yun)融創軟件公司對此進(jin)行(xing)了積極探索(suo),我(wo)們嘗試通過(guo)改造自研(yan)的HPC調度器,以(yi)支持AI計算和HPC計算。

 

具體來說,我們以HPC計算平臺產品為底座,結合HPC和AI的需求特點,傾力打造支持超算和智算的SkyForm智算云平臺,實現異構多資源池的統一管理,提高資源池的利用率。

 

在此過(guo)程中,我(wo)們嘗試在一個平臺上(shang)支持裸金屬(shu)計算(suan)、容器分布式計算(suan),并調度(du)Kubernetes、Slurm等子(zi)集群,以滿足不同(tong)方向上(shang)的計算(suan)需(xu)求。

 

在產品演進過程中,我們重點關注AI計算中的容器調度、訓練推理效率、GPU掉卡續訓、集群節電調度等功能特性,此外,我們還在基于當前HPC架構的基礎上,優化了容器集群中常見的問題,如容器鏡像下載效率和空間利用率、容器網絡轉發問題、以及gang任務調度能力不足等,這些優化措施顯著提升了平臺的整體性能和用戶體驗。

 

下(xia)面(mian)將分享我們在(zai)某(mou)省(sheng)智算中心(xin)實際落(luo)地的案例(li),展(zhan)示SkyForm智算云平臺在(zai)實際應用中的優勢和成效。

在建設某省智算中心的過程中,客戶面臨著多資源池的統一調度與高效運營的挑戰。具體而言,他們擁有三個不同類型的資源池,分別是利舊資源池、X86資源池和國產ARM資源池。

 

每個資源池在主機數量、CPU核數、GPU卡數以及存儲容量上都有其獨特的配置和需求,計算節點規模達到了1200多臺,包含11萬核CPU、400多張GPU卡以及近50PB的存儲。客戶希望通過一個統一的平臺,實現這些異構資源的高效管理和優化利用,從而提升整體資源的利用率和運營效率

 

其次,客戶需要平臺能夠支持高性能計算、傳統人工智能應用以及大模型的訓練和推理。這意味著平臺不僅需要具備強大的計算能力,還要能夠靈活適應不同類型的計算任務,確保資源在各種應用場景下都能得到充分利用。此外,客戶對智算中心運營提出了節電調度要求,希望通過智能調度和優化管理,實現集群節能環保需求。

為了滿足客戶的這些需求,我們設計并實施了SkyForm智算云平臺方案。

 

首先,在資源池構建方面,我們根據不同資源池的特性,分別構建了三個獨立的資源池,并在每個資源池下部署了自研調度器和并行分布式存儲,確保資源的高效管理和利用。同時,為了方便用戶按需訪問和使用,每個資源池都設置了單獨的交互子門戶。

 

在算力調度服務方面,我們利用天云融創軟件自研的SkyForm 算力調度系統,對異構資源進行智能調度。調度器不僅支持NVIDIA GPU MIG和國產GPU、CPU的異構資源調度,還能夠調度Kubernetes和Slurm子集群,兼容多種AI計算框架,比如Deepspeed、Pytorch、TensorFlow。

 

這使得用戶(hu)在(zai)進行高性能(neng)(neng)計算、傳(chuan)統人工(gong)智能(neng)(neng)以及大模(mo)型的(de)(de)訓(xun)練推(tui)理時,能(neng)(neng)夠(gou)充分發揮各類(lei)資源(yuan)的(de)(de)優勢,顯著提升整體的(de)(de)資源(yuan)利用率(lv)。

 

同時,統一算力服務平臺的部署,使得三個資源池能夠在一個統一的管理界面下運行。平臺集成了統一的用戶管理、計算服務和運營運維服務,極大地提升了資源池的整合度和管理效率。

 

用(yong)戶不僅可以方便地提交和管理計算(suan)任(ren)務,還能通(tong)過平臺實(shi)時(shi)監(jian)控資(zi)源(yuan)使用(yong)情況,優化資(zi)源(yuan)分(fen)配,降(jiang)低運(yun)營成本。

 

自項目上線運營以來,取得了顯著的成果,在近兩年的運營中,一期資源池累計處理了超過1200萬次計算作業,存儲使用量達到8PB,且日常負載始終保持在高水平,充分體現了資源池的高效利用。

 

同時,X86和國產ARM資源池在上線僅幾個月內,已成功處理約200萬次作業。特別是X86資源池的GPU負載極高,主要用于AI開發及模型訓練,展示了平臺在支持AI和HPC計算方面的強大能力。

 

     在項(xiang)目設計和實施過程中也(ye)并非一帆(fan)風順,我們遇到了許多挑戰,也(ye)積累了大量(liang)寶貴的(de)經驗(yan)。

在項目實施過程中,客戶提出了兩個關鍵需求:首先是支持AI的多機多卡訓練,以應對復雜模型的訓練和大規模數據處理;其次是實現GPU故障后的自動續訓,確保訓練任務的持續性和穩定性。針對這些需求,我們在方案設計中重點關注了多機多卡訓練的優化,并深入研究了斷點續訓的實現方法。

 

SkyForm 算力調度系統與(yu)Deepspeed、PyTorch等(deng)計算框架深入集成(cheng),確保(bao)在不(bu)同框架下都能(neng)高效(xiao)運(yun)行多機多卡訓(xun)練(lian)任務。調度器(qi)接(jie)收(shou)到訓練(lian)任務(wu)后,會自(zi)動(dong)啟(qi)動(dong)指定(ding)的(de)框架,例(li)如(ru)Deepspeed,實現(xian)裸金屬或容器(qi)化的(de)多機(ji)多卡訓練(lian)。

 

在(zai)容器(qi)化環境(jing)中,調度器(qi)會在(zai)第一(yi)個分配的主機上拉取鏡(jing)像并啟動容器(qi)內的訓練腳本;而在(zai)裸(luo)金(jin)屬環境(jing)中,則直接執行(xing)訓練腳本,無(wu)需拉取鏡(jing)像。

 

通過我們自主研發的遠程分發子任務組件,調度器能夠將計算命令自動下發到其他分配的主機執行。這不僅避免了依賴容器免密SSH連接,降低了安全風險,也提高了任務執行效率。

 

在使用PyTorch框架時,與Deepspeed的集成有所不同,無需使用mpirun,而是直接利用調度器自身的runtask功能,自動在分配的主機上運行計算任務,簡化了配置流程,提升了任務啟動速度。

 

此外,在大規模訓練中,算力的穩定性是最核心的需求之一。算力設備故障是不可避免的,如何在設備故障情況下實現訓練任務的斷點續訓,成為確保訓練持續性和系統穩定性的關鍵。SkyForm 算力調度系統支持自動斷點續訓功能,通過內置傳感器不斷收集作業使用的GPU、節點狀態和系統性能等關鍵指標。調度器能夠實時感知GPU的在線狀態,及時判定是否發生GPU故障。

我們還設置了規則以判斷作業是否進入假死狀態。例如,當作業的I/O持續不變,且GPU利用率和顯存變化方差極小時,調度器會自動判定該作業為假死狀態,并根據預設的處理方案進行應對,如提醒用戶重啟或直接自動重啟作業。自動重啟后,AI訓練框架通常會基于最新的checkpoint自動重新加載并繼續訓練,從而保障訓練任務的連續性。

 

     通過不斷完善我們(men)的方案,平(ping)臺成功(gong)滿(man)足(zu)了多(duo)樣(yang)化的算力運營(ying)需(xu)求,包括支持多(duo)機多(duo)卡訓練、自動斷點續訓以及集群節點調(diao)度(du)等關鍵功(gong)能。。

在多領域計算方面,我們高效調度了異構的GPU、TPU等專用硬件,加速了訓練與推理任務。同時,針對科學計算和工程模擬,我們能夠靈活調度異構CPU,確保高精度的大規模并行計算。

 

在服務差異化方面,我們根據不同的計算需求,提供了裸金屬和容器化算力服務,滿足了用戶對算力提供方式的多樣化需求。無論是共享資源還是專屬算力節點,平臺都能滿足需求,確保每位用戶都獲得最適合的計算支持。

 

安全與節能也是我們的重要關注點。平臺通過數據隔離、加密和防泄漏機制,保障了數據在傳輸和存儲過程中的安全,為了響應環保需求,我們的系統能夠根據集群負載動態調整節點電源狀態,有效降低能耗。

 

在智能管理方面,平臺支持多資源池和多租戶的運營管理,使資源分配更加高效和合理。自動化和智能化運維功能的引入,大幅降低了人力成本,同時保障了集群業務的連續性和穩定性,確保系統持續高效運行。

 

通過這些努(nu)力(li)和優化,我們的平臺不僅全(quan)面滿足了(le)多樣(yang)化的算(suan)力(li)運營需求(qiu),還(huan)為用(yong)戶提(ti)供了(le)一(yi)個穩定、高效、安全(quan)且智能的計算(suan)環境。

 

近年來,天云融創軟件在不同行業和垂直領域成功實施了眾多HPC、AI及其融合計算項目。通過這些項目和當前技術的發展,我們深刻認識到,在復雜多變的技術與需求環境下,計算平臺必須同時適應未來AI多方面的需求,盡可能提高稀缺資源的利用率,滿足多樣化的服務要求。因此,統一分布式計算平臺將成為未來AI計算平臺的發展趨勢。

推薦閱讀 

在線(xian)咨詢 MESSAGE

姓(xing)名 *

電話 *

郵(you)箱 *

咨(zi)詢意(yi)向 *

公司名稱

所屬行業

需求(qiu)概述 *