SkyForm智算云平臺
產品概述
SkyForm智算(suan)云平臺不僅提供(gong)(gong)了(le)企業內(nei)部的資源(yuan)(包括裸金屬服務(wu)器和(he)Kubernetes集群)管理和(he)監控,更(geng)擴展到對(dui)外的算(suan)力運營服務(wu),將大模型訓練、推理、應(ying)用(yong)工具(ju)于一體,為企業私域AI應(ying)用(yong)助力,給客戶(hu)提供(gong)(gong)了(le)整套智算(suan)云一條龍解(jie)決方案。
產品定位
SkyForm智(zhi)算(suan)(suan)(suan)云平臺包含智(zhi)算(suan)(suan)(suan)控制臺、算(suan)(suan)(suan)力應用(yong)、算(suan)(suan)(suan)力調(diao)度(du)這三大功能模塊,適配了(le)國內主流國產(chan)化(hua)操作系統及國產(chan)化(hua)GPU,集成了(le)業界(jie)主流開源(yuan)大模型(xing)框架,如(ru)(ru)vllm、DeepSpeed、Openllm、Text generation inference、CTranslate2、Ray Serve、MLC LLM等,無論您是(shi)在(zai)(zai)尋(xun)找提(ti)高工作效率的(de)(de)方法,還是(shi)在(zai)(zai)尋(xun)找如(ru)(ru)何更好(hao)的(de)(de)管理資源(yuan),或是(shi)在(zai)(zai)尋(xun)找一鍵部署的(de)(de)解決(jue)方案,我們的(de)(de)智(zhi)算(suan)(suan)(suan)平臺都能為(wei)您提(ti)供最好(hao)的(de)(de)答(da)案。讓我們一起,用(yong)智(zhi)算(suan)(suan)(suan)平臺,引(yin)領(ling)未來的(de)(de)計算(suan)(suan)(suan)。
產品特性
1、國產化(hua)支持及快(kuai)速部署(shu)
平臺(tai)及模型一(yi)鍵部署解決方案
支持主流國產化操作(zuo)系統及GPU
快速(su)納管(guan)資源和集群
2、高吞吐量和(he)大模型集群支持
調度(du)(du)速度(du)(du)可達(da)每秒(miao)5000個作(zuo)業,吞(tun)吐(tu)量優于(yu)所(suo)有其他資源管理器(qi),處于(yu)國際最領(ling)先水平;
目前,已經(jing)支(zhi)持(chi)20,000臺主機的(de)大集群,達到(dao)業界領先水(shui)平。
強大的資源管理能(neng)力和優秀的調度策略
支(zhi)持混合異構的(de)資源(yuan)池(chi)管理
支持多種調度策略,如根據實(shi)際資(zi)源使用閾值(zhi)的調度、大作業(ye)資(zi)源預留、小(xiao)作業(ye)回填等(deng)
3、深度集成
與主流并(bing)行(xing)平臺MPI(如Intel MPI)深度(du)集成(cheng),可以實現MPI作業的高(gao)效調度(du)和管(guan)理;
與基于容器(qi)(qi)的資源(yuan)管理軟(ruan)件相比(bi),調度器(qi)(qi)在MPI作業的集成和性能(neng)方面具(ju)有優勢
4、安(an)全(quan)性和可(ke)靠(kao)性
通過算力(li)調度框架運行MPI作業無需設(she)(she)置免密(mi)登錄,確保系(xi)統安全并省去不必(bi)要的設(she)(she)置和排(pai)錯
算力調度框架還可(ke)以監控(kong)遠(yuan)程(cheng)MPI任務的進程(cheng)和資源使用情況(kuang),并(bing)在需要(yao)時(shi)自動清(qing)理遠(yuan)程(cheng)MPI任務的所(suo)有進程(cheng),提高系統(tong)的安全性(xing)(xing)和可(ke)靠(kao)性(xing)(xing)
5、支(zhi)持多種主流大(da)模型
vllm、DeepSpeed、Openllm、Text generation inference、CTranslate2、Ray Serve、MLC LLM。
內(nei)置各種(zhong) AI 框(kuang)架鏡像,包括 Tensorflow、Caffe、pytorch、PaddlePaddle、MXNet 主(zhu)流框(kuang)架版本,兼容 web 開(kai)源鏡像和用戶自定義鏡像。
6、優秀的數據(ju)處理能力
大數據(ju)(ju)模型的核心(xin)部分即(ji)數據(ju)(ju)處理(li)步驟如(ru)下:
1)數據(ju)(ju)(ju)預(yu)處(chu)理:在進行數據(ju)(ju)(ju)處(chu)理之前,通常(chang)需要(yao)對原始數據(ju)(ju)(ju)進行預(yu)處(chu)理。這包(bao)括(kuo)數據(ju)(ju)(ju)清洗,即去除重(zhong)復、缺失(shi)或錯誤的(de)(de)數據(ju)(ju)(ju);數據(ju)(ju)(ju)轉換(huan),將數據(ju)(ju)(ju)從一(yi)種(zhong)格式或結構轉換(huan)為另一(yi)種(zhong)格式或結構;以及數據(ju)(ju)(ju)集成(cheng),將來自不同(tong)數據(ju)(ju)(ju)源(yuan)的(de)(de)數據(ju)(ju)(ju)合并到一(yi)個統一(yi)的(de)(de)數據(ju)(ju)(ju)集中。
2)分(fen)布(bu)式計(ji)(ji)(ji)(ji)算:大(da)數據(ju)模(mo)型(xing)利用分(fen)布(bu)式計(ji)(ji)(ji)(ji)算框架(如Apache Spark、Hadoop等)來(lai)處(chu)(chu)理(li)(li)大(da)規模(mo)數據(ju)。這些框架使用并(bing)(bing)(bing)行(xing)計(ji)(ji)(ji)(ji)算和(he)分(fen)布(bu)式存(cun)儲來(lai)提(ti)高計(ji)(ji)(ji)(ji)算速度和(he)處(chu)(chu)理(li)(li)能(neng)力。數據(ju)被(bei)分(fen)割成(cheng)多個塊,每個塊在多個計(ji)(ji)(ji)(ji)算節點上(shang)進行(xing)并(bing)(bing)(bing)行(xing)處(chu)(chu)理(li)(li),最后將結果合并(bing)(bing)(bing)。
3)數(shu)(shu)據轉(zhuan)換(huan)和轉(zhuan)換(huan)操(cao)(cao)作:數(shu)(shu)據處理中的轉(zhuan)換(huan)操(cao)(cao)作對數(shu)(shu)據進行結構化和格式化。這(zhe)包(bao)括數(shu)(shu)據過濾、排序、聚合、映射、連接等操(cao)(cao)作,以便在后續分析中更好地理解和利用數(shu)(shu)據。
4)數(shu)(shu)據(ju)分(fen)析(xi)和挖掘(jue):通過應用各種數(shu)(shu)據(ju)分(fen)析(xi)和挖掘(jue)技(ji)術,如(ru)統(tong)計分(fen)析(xi)、機(ji)器學(xue)習、深度學(xue)習等,來發現(xian)數(shu)(shu)據(ju)中的模式、趨勢和關聯(lian)。這些分(fen)析(xi)可以(yi)幫助用戶(hu)理(li)解數(shu)(shu)據(ju),做出準確的決(jue)策,發現(xian)商業機(ji)會或解決(jue)問題。
5)實(shi)(shi)時(shi)(shi)(shi)處(chu)理:隨著大數(shu)據(ju)的迅速增長,實(shi)(shi)時(shi)(shi)(shi)數(shu)據(ju)處(chu)理變得越(yue)來越(yue)重要。實(shi)(shi)時(shi)(shi)(shi)處(chu)理可(ke)以(yi)在數(shu)據(ju)到(dao)達時(shi)(shi)(shi)立(li)即進行處(chu)理和(he)分析(xi),以(yi)便實(shi)(shi)時(shi)(shi)(shi)監控(kong)和(he)響(xiang)應(ying)事(shi)件。這可(ke)以(yi)通過流(liu)處(chu)理框(kuang)架(jia)(如Apache Kafka、Apache Flink等(deng))來實(shi)(shi)現。
6)數(shu)(shu)據存儲:在數(shu)(shu)據處理過程中,處理和分(fen)析的結果需要進行存儲以供(gong)后續使用。大(da)數(shu)(shu)據模(mo)型通常使用分(fen)布式存儲系統(tong)(如Hadoop HDFS、NoSQL數(shu)(shu)據庫等)來存儲海量數(shu)(shu)據,并(bing)提供(gong)高可用性和容錯能(neng)力。
7)訓練(lian)推理(li)優化(hua)
為(wei)了優化訓練推理(li)能力,除(chu)了硬件優化外(wai),比如(ru)選擇適(shi)當的(de)硬件設備(bei),如(ru)GPU、TPU等,以(yi)加速模型的(de)訓練和推理(li)過程,我們還(huan)做(zuo)了以(yi)下工作:
1)分(fen)布(bu)式(shi)訓(xun)練:將(jiang)大模型分(fen)割成多個(ge)子模型,利(li)用分(fen)布(bu)式(shi)計算(suan)框架進(jin)行(xing)并行(xing)訓(xun)練。這(zhe)樣可以充分(fen)利(li)用多臺(tai)計算(suan)機或多個(ge)GPU進(jin)行(xing)訓(xun)練,加快訓(xun)練速度。同時(shi),還可以通過(guo)分(fen)布(bu)式(shi)訓(xun)練降低(di)內存(cun)占(zhan)用量。
2)數(shu)據(ju)并行處理(li):將數(shu)據(ju)劃分成多(duo)個(ge)批次,分配給不同的(de)計算設備(bei)進行處理(li)。這(zhe)樣可(ke)以充分利(li)用(yong)計算設備(bei)的(de)并行處理(li)能(neng)力,加(jia)速模型的(de)訓(xun)練和推理(li)過程。
3)模(mo)型(xing)(xing)剪枝和(he)(he)壓(ya)縮:通過剪枝和(he)(he)壓(ya)縮技術,減(jian)少模(mo)型(xing)(xing)的(de)參(can)數和(he)(he)計算量,降低模(mo)型(xing)(xing)的(de)復雜度(du)。這可以提高(gao)模(mo)型(xing)(xing)的(de)訓(xun)練(lian)和(he)(he)推理效率,同時減(jian)少模(mo)型(xing)(xing)占用(yong)的(de)存儲空間。
4)模(mo)(mo)型量(liang)化:將模(mo)(mo)型的權重和激活(huo)值從(cong)浮(fu)點數轉換為定點數或低精度(du)數。這可以減少模(mo)(mo)型的存(cun)儲需求和計算復雜度(du),提高(gao)模(mo)(mo)型在推(tui)理階(jie)段的速度(du)
5)緩存(cun)和預計(ji)(ji)算(suan)(suan):針對模型(xing)中的重復計(ji)(ji)算(suan)(suan)部分,可以將計(ji)(ji)算(suan)(suan)結果緩存(cun)起來或預先計(ji)(ji)算(suan)(suan),避免重復計(ji)(ji)算(suan)(suan),提高推理速(su)度。
6)模(mo)型(xing)優(you)化技術:使用一(yi)些模(mo)型(xing)優(you)化技術,如批量歸一(yi)化、殘差連接等,可以(yi)提(ti)高模(mo)型(xing)的收斂速度和(he)泛化能(neng)力。
— 推薦(jian)閱讀 —
- 2022-03-22
- 2022-03-22
- 2022-03-22
- 2022-03-22
- 2022-03-18
- 2022-03-18
在線(xian)咨詢(xun) MESSAGE