容器化人工智能開發(fā)平臺
-

容器化人工智能開發(fā)平臺(1/2)
-

容器化人工智能開發(fā)平臺(2/2)


容器化人工智能開發(fā)平臺解決方案實現(xiàn)了對深度學(xué)習(xí)開發(fā)環(huán)境的快速部署,針對深度學(xué)習(xí)開發(fā)流程,對運算資源按照訓(xùn)練任務(wù)進(jìn)行分割和分發(fā),并額外支持容器鏡像管理、權(quán)限管理、交互界面圖形化等功能,以幫助用戶更快速的介入人工智能領(lǐng)域,聚焦實際算法的優(yōu)化和迭代,促進(jìn)人工智能技術(shù)在各行各業(yè)的快速落地。

方案技術(shù)架構(gòu)

方案物理架構(gòu)
方案構(gòu)成
SothisAI軟件平臺:曙光SothisAI是容器化的企業(yè)級分布式深度學(xué)習(xí)平臺,提供高效快速的人工智能解決方案,一站式深度學(xué)習(xí)解決方案。幫助用戶解決多用戶組資源分配、開發(fā)環(huán)境快速搭建、應(yīng)用程序靈活遷移等技術(shù)需求。SothisAI支持主流深度學(xué)習(xí)框架,提供圖形化、SSH、Jupyer等多種接入方式,并采用Slurm和Kubernetes雙調(diào)度引擎支撐,可滿足不同應(yīng)用場景特點。
基于GPU的異構(gòu)計算集群:針對深度學(xué)習(xí)的應(yīng)用特點,采用4U8卡的高密度自研服務(wù)器X780和X795,搭配主流人工智能異構(gòu)加速卡,為集群提供強(qiáng)勁的運算能力支撐。同時集群采用的高帶寬、低延遲的Infiniband網(wǎng)絡(luò),能滿足深度學(xué)習(xí)多機(jī)多卡網(wǎng)絡(luò)模型訓(xùn)練時,對PCI-E的傳輸帶寬的高要求,并保證整個系統(tǒng)的數(shù)據(jù)傳輸效率,減少網(wǎng)絡(luò)數(shù)據(jù)傳輸帶來的影響。
ParaStor存儲系統(tǒng):ParaStor是曙光自主開發(fā)的分布式并行存儲系統(tǒng),目前最新版本為Parastor300,采用多副本、N+M糾刪碼等數(shù)據(jù)保護(hù)技術(shù)、全冗余設(shè)計,支持單一存儲命名空間、支持容量海量擴(kuò)展,性能線性擴(kuò)展,能夠充分滿足深度學(xué)習(xí)應(yīng)用場景中存在對數(shù)據(jù)集的頻繁讀寫,多用戶同時并發(fā)訪問,訓(xùn)練時頻繁的數(shù)據(jù)交互等應(yīng)用需求。