SkyForm智算云平臺

產品概述

SkyForm智算(suan)云平臺不僅提供(gong)(gong)了(le)企業內(nei)部的資源(yuan)（包括裸金屬服務(wu)器和(he)Kubernetes集群）管理和(he)監控，更(geng)擴展到對(dui)外的算(suan)力運營服務(wu)，將大模型訓練、推理、應(ying)用(yong)工具(ju)于一體，為企業私域AI應(ying)用(yong)助力，給客戶(hu)提供(gong)(gong)了(le)整套智算(suan)云一條龍解(jie)決方案。

產品定位

SkyForm智(zhi)算(suan)(suan)(suan)云平臺包含智(zhi)算(suan)(suan)(suan)控制臺、算(suan)(suan)(suan)力應用(yong)、算(suan)(suan)(suan)力調(diao)度(du)這三大功能模塊，適配了(le)國內主流國產(chan)化(hua)操作系統及國產(chan)化(hua)GPU，集成了(le)業界(jie)主流開源(yuan)大模型(xing)框架，如(ru)(ru)vllm、DeepSpeed、Openllm、Text generation inference、CTranslate2、Ray Serve、MLC LLM等，無論您是(shi)在(zai)(zai)尋(xun)找提(ti)高工作效率的(de)(de)方法，還是(shi)在(zai)(zai)尋(xun)找如(ru)(ru)何更好(hao)的(de)(de)管理資源(yuan)，或是(shi)在(zai)(zai)尋(xun)找一鍵部署的(de)(de)解決(jue)方案，我們的(de)(de)智(zhi)算(suan)(suan)(suan)平臺都能為(wei)您提(ti)供最好(hao)的(de)(de)答(da)案。讓我們一起，用(yong)智(zhi)算(suan)(suan)(suan)平臺，引(yin)領(ling)未來的(de)(de)計算(suan)(suan)(suan)。

產品特性

1、國產化(hua)支持及快(kuai)速部署(shu)

平臺(tai)及模型一(yi)鍵部署解決方案

支持主流國產化操作(zuo)系統及GPU

快速(su)納管(guan)資源和集群

2、高吞吐量和(he)大模型集群支持

調度(du)(du)速度(du)(du)可達(da)每秒(miao)5000個作(zuo)業，吞(tun)吐(tu)量優于(yu)所(suo)有其他資源管理器(qi)，處于(yu)國際最領(ling)先水平；

目前，已經(jing)支(zhi)持(chi)20,000臺主機的(de)大集群，達到(dao)業界領先水(shui)平。

強大的資源管理能(neng)力和優秀的調度策略

支(zhi)持混合異構的(de)資源(yuan)池(chi)管理

支持多種調度策略，如根據實(shi)際資(zi)源使用閾值(zhi)的調度、大作業(ye)資(zi)源預留、小(xiao)作業(ye)回填等(deng)

3、深度集成

與主流并(bing)行(xing)平臺MPI（如Intel MPI）深度(du)集成(cheng)，可以實現MPI作業的高(gao)效調度(du)和管(guan)理；

與基于容器(qi)(qi)的資源(yuan)管理軟(ruan)件相比(bi)，調度器(qi)(qi)在MPI作業的集成和性能(neng)方面具(ju)有優勢

4、安(an)全(quan)性和可(ke)靠(kao)性

通過算力(li)調度框架運行MPI作業無需設(she)(she)置免密(mi)登錄，確保系(xi)統安全并省去不必(bi)要的設(she)(she)置和排(pai)錯

算力調度框架還可(ke)以監控(kong)遠(yuan)程(cheng)MPI任務的進程(cheng)和資源使用情況(kuang)，并(bing)在需要(yao)時(shi)自動清(qing)理遠(yuan)程(cheng)MPI任務的所(suo)有進程(cheng)，提高系統(tong)的安全性(xing)(xing)和可(ke)靠(kao)性(xing)(xing)

5、支(zhi)持多種主流大(da)模型

vllm、DeepSpeed、Openllm、Text generation inference、CTranslate2、Ray Serve、MLC LLM。

內(nei)置各種(zhong) AI 框(kuang)架鏡像，包括 Tensorflow、Caffe、pytorch、PaddlePaddle、MXNet 主(zhu)流框(kuang)架版本，兼容 web 開(kai)源鏡像和用戶自定義鏡像。

6、優秀的數據(ju)處理能力

大數據(ju)(ju)模型的核心(xin)部分即(ji)數據(ju)(ju)處理(li)步驟如(ru)下：

1）數據(ju)(ju)(ju)預(yu)處(chu)理：在進行數據(ju)(ju)(ju)處(chu)理之前，通常(chang)需要(yao)對原始數據(ju)(ju)(ju)進行預(yu)處(chu)理。這包(bao)括(kuo)數據(ju)(ju)(ju)清洗，即去除重(zhong)復、缺失(shi)或錯誤的(de)(de)數據(ju)(ju)(ju)；數據(ju)(ju)(ju)轉換(huan)，將數據(ju)(ju)(ju)從一(yi)種(zhong)格式或結構轉換(huan)為另一(yi)種(zhong)格式或結構；以及數據(ju)(ju)(ju)集成(cheng)，將來自不同(tong)數據(ju)(ju)(ju)源(yuan)的(de)(de)數據(ju)(ju)(ju)合并到一(yi)個統一(yi)的(de)(de)數據(ju)(ju)(ju)集中。

2）分(fen)布(bu)式計(ji)(ji)(ji)(ji)算：大(da)數據(ju)模(mo)型(xing)利用分(fen)布(bu)式計(ji)(ji)(ji)(ji)算框架（如Apache Spark、Hadoop等）來(lai)處(chu)(chu)理(li)(li)大(da)規模(mo)數據(ju)。這些框架使用并(bing)(bing)(bing)行(xing)計(ji)(ji)(ji)(ji)算和(he)分(fen)布(bu)式存(cun)儲來(lai)提(ti)高計(ji)(ji)(ji)(ji)算速度和(he)處(chu)(chu)理(li)(li)能(neng)力。數據(ju)被(bei)分(fen)割成(cheng)多個塊，每個塊在多個計(ji)(ji)(ji)(ji)算節點上(shang)進行(xing)并(bing)(bing)(bing)行(xing)處(chu)(chu)理(li)(li)，最后將結果合并(bing)(bing)(bing)。

3）數(shu)(shu)據轉(zhuan)換(huan)和轉(zhuan)換(huan)操(cao)(cao)作：數(shu)(shu)據處理中的轉(zhuan)換(huan)操(cao)(cao)作對數(shu)(shu)據進行結構化和格式化。這(zhe)包(bao)括數(shu)(shu)據過濾、排序、聚合、映射、連接等操(cao)(cao)作，以便在后續分析中更好地理解和利用數(shu)(shu)據。

4）數(shu)(shu)據(ju)分(fen)析(xi)和挖掘(jue)：通過應用各種數(shu)(shu)據(ju)分(fen)析(xi)和挖掘(jue)技(ji)術，如(ru)統(tong)計分(fen)析(xi)、機(ji)器學(xue)習、深度學(xue)習等，來發現(xian)數(shu)(shu)據(ju)中的模式、趨勢和關聯(lian)。這些分(fen)析(xi)可以(yi)幫助用戶(hu)理(li)解數(shu)(shu)據(ju)，做出準確的決(jue)策，發現(xian)商業機(ji)會或解決(jue)問題。

5）實(shi)(shi)時(shi)(shi)(shi)處(chu)理：隨著大數(shu)據(ju)的迅速增長，實(shi)(shi)時(shi)(shi)(shi)數(shu)據(ju)處(chu)理變得越(yue)來越(yue)重要。實(shi)(shi)時(shi)(shi)(shi)處(chu)理可(ke)以(yi)在數(shu)據(ju)到(dao)達時(shi)(shi)(shi)立(li)即進行處(chu)理和(he)分析(xi)，以(yi)便實(shi)(shi)時(shi)(shi)(shi)監控(kong)和(he)響(xiang)應(ying)事(shi)件。這可(ke)以(yi)通過流(liu)處(chu)理框(kuang)架(jia)（如Apache Kafka、Apache Flink等(deng)）來實(shi)(shi)現。

6）數(shu)(shu)據存儲：在數(shu)(shu)據處理過程中，處理和分(fen)析的結果需要進行存儲以供(gong)后續使用。大(da)數(shu)(shu)據模(mo)型通常使用分(fen)布式存儲系統(tong)（如Hadoop HDFS、NoSQL數(shu)(shu)據庫等）來存儲海量數(shu)(shu)據，并(bing)提供(gong)高可用性和容錯能(neng)力。

7）訓練(lian)推理(li)優化(hua)

為(wei)了優化訓練推理(li)能力，除(chu)了硬件優化外(wai)，比如(ru)選擇適(shi)當的(de)硬件設備(bei)，如(ru)GPU、TPU等，以(yi)加速模型的(de)訓練和推理(li)過程，我們還(huan)做(zuo)了以(yi)下工作：

1）分(fen)布(bu)式(shi)訓(xun)練：將(jiang)大模型分(fen)割成多個(ge)子模型，利(li)用分(fen)布(bu)式(shi)計算(suan)框架進(jin)行(xing)并行(xing)訓(xun)練。這(zhe)樣可以充分(fen)利(li)用多臺(tai)計算(suan)機或多個(ge)GPU進(jin)行(xing)訓(xun)練，加快訓(xun)練速度。同時(shi)，還可以通過(guo)分(fen)布(bu)式(shi)訓(xun)練降低(di)內存(cun)占(zhan)用量。

2）數(shu)據(ju)并行處理(li)：將數(shu)據(ju)劃分成多(duo)個(ge)批次，分配給不同的(de)計算設備(bei)進行處理(li)。這(zhe)樣可(ke)以充分利(li)用(yong)計算設備(bei)的(de)并行處理(li)能(neng)力，加(jia)速模型的(de)訓(xun)練和推理(li)過程。

3）模(mo)型(xing)(xing)剪枝和(he)(he)壓(ya)縮：通過剪枝和(he)(he)壓(ya)縮技術，減(jian)少模(mo)型(xing)(xing)的(de)參(can)數和(he)(he)計算量，降低模(mo)型(xing)(xing)的(de)復雜度(du)。這可以提高(gao)模(mo)型(xing)(xing)的(de)訓(xun)練(lian)和(he)(he)推理效率，同時減(jian)少模(mo)型(xing)(xing)占用(yong)的(de)存儲空間。

4）模(mo)(mo)型量(liang)化：將模(mo)(mo)型的權重和激活(huo)值從(cong)浮(fu)點數轉換為定點數或低精度(du)數。這可以減少模(mo)(mo)型的存(cun)儲需求和計算復雜度(du)，提高(gao)模(mo)(mo)型在推(tui)理階(jie)段的速度(du)

5）緩存(cun)和預計(ji)(ji)算(suan)(suan)：針對模型(xing)中的重復計(ji)(ji)算(suan)(suan)部分，可以將計(ji)(ji)算(suan)(suan)結果緩存(cun)起來或預先計(ji)(ji)算(suan)(suan)，避免重復計(ji)(ji)算(suan)(suan)，提高推理速(su)度。

6）模(mo)型(xing)優(you)化技術：使用一(yi)些模(mo)型(xing)優(you)化技術，如批量歸一(yi)化、殘差連接等，可以(yi)提(ti)高模(mo)型(xing)的收斂速度和(he)泛化能(neng)力。

ꄴ前一個：無

ꄲ后一個：無