當(dāng)前位置:首頁(yè) >  科技 >  IT業(yè)界 >  正文

青云科技發(fā)布AI智算平臺(tái)2.0,落地多地多中心運(yùn)營(yíng)運(yùn)維

 2024-07-29 17:38  來(lái)源: 互聯(lián)網(wǎng)   我來(lái)投稿 撤稿糾錯(cuò)

  域名預(yù)訂/競(jìng)價(jià),好“米”不錯(cuò)過(guò)

青云AI 智算平臺(tái)打造算力中心建設(shè)的新模式,像管理本地資源一樣管理 AI 基礎(chǔ)設(shè)施,對(duì) AI 算力進(jìn)行動(dòng)態(tài)監(jiān)控調(diào)整,以滿(mǎn)足不同業(yè)務(wù)的需求,提高 AI 算力的整體使用效率和管理效率。日前,青云科技(qingcloud.com)發(fā)布的AI智算平臺(tái)2.0 新版本,全面擁抱云原生,實(shí)現(xiàn)從 AI 基礎(chǔ)設(shè)施到 AI 開(kāi)發(fā)訓(xùn)練推理的全流程高效管理。

功能升級(jí),重塑算力管理體驗(yàn)

青云AI智算平臺(tái)2.0通過(guò)統(tǒng)一的集群管理,實(shí)現(xiàn)對(duì) NVIDIA、國(guó)產(chǎn) GPU 等多種異構(gòu)算力的高效調(diào)度。無(wú)論是高速 IB、RoCE 網(wǎng)絡(luò)建設(shè),還是并行文件存儲(chǔ)集群管理,平臺(tái)均能提供從物理機(jī)到容器的全方位管理。新版平臺(tái)支持共享 GPU、單卡、多卡、多節(jié)點(diǎn)的算力調(diào)度,用戶(hù)可根據(jù)實(shí)際業(yè)務(wù)需求按需申請(qǐng)使用,極大地提高了算力資源的使用效率。

新增節(jié)點(diǎn)監(jiān)控、任務(wù)監(jiān)控、容器組監(jiān)控、高速網(wǎng)絡(luò)監(jiān)控和 GPU 監(jiān)控等功能,青云AI智算平臺(tái)2.0提供從硬件故障處理到資源使用情況的全方位監(jiān)控,及時(shí)發(fā)現(xiàn)并解決潛在問(wèn)題。同時(shí),可視化的自定義告警配置支持郵件、企微、webhook等多種通知渠道,確保用戶(hù)隨時(shí)掌握 AI 基礎(chǔ)設(shè)施的運(yùn)行狀態(tài)。

在算力調(diào)度的基礎(chǔ)上,青云AI智算平臺(tái)2.0支持自定義鏡像倉(cāng)庫(kù),同時(shí)內(nèi)置 TensorFlow、PyTorch、MPI、DeepSpeed 等常用計(jì)算框架,支持一鍵創(chuàng)建開(kāi)發(fā)機(jī)、分布式任務(wù),自動(dòng)掛載并行文件存儲(chǔ)等常用 AI 業(yè)務(wù)流程。用戶(hù)只需上傳代碼,即可快速啟動(dòng)多機(jī)多節(jié)點(diǎn)的分布式訓(xùn)練,系統(tǒng)將自動(dòng)調(diào)度到可用 GPU 進(jìn)行計(jì)算,任務(wù)完成后自動(dòng)釋放資源。

借助青云公有云和AI算力云的運(yùn)營(yíng)經(jīng)驗(yàn),青云AI智算平臺(tái)2.0平臺(tái)提供規(guī)格定價(jià)、在線(xiàn)充值、購(gòu)買(mǎi)產(chǎn)品的全流程自服務(wù)管理,減少運(yùn)營(yíng)的技術(shù)人員、管理人員投入,同時(shí)減少客戶(hù)試用溝通和準(zhǔn)備環(huán)境的時(shí)間,加快算力中心資源售賣(mài),提升資源運(yùn)營(yíng)效率。

解決多地多中心運(yùn)營(yíng)運(yùn)維難題

青云近期在某國(guó)企構(gòu)建多地多中心的大規(guī)模智算基礎(chǔ)設(shè)施項(xiàng)目里,充分發(fā)揮了AI智算平臺(tái)2.0在資源統(tǒng)一管理、按需調(diào)度及高效運(yùn)維方面的卓越能力。

該大規(guī)模智算基礎(chǔ)設(shè)施項(xiàng)目初步計(jì)劃在跨省的多地建設(shè)智算中心并統(tǒng)一對(duì)外運(yùn)營(yíng)。面對(duì)多點(diǎn)布局的復(fù)雜挑戰(zhàn),青云AI智算平臺(tái)2.0憑借其領(lǐng)先的資源管理技術(shù),實(shí)現(xiàn)了對(duì)CPU、GPU、HPC算力、多元化存儲(chǔ)系統(tǒng)等資源的全面整合,將各種異構(gòu)服務(wù)器、存儲(chǔ)、網(wǎng)絡(luò)設(shè)備統(tǒng)一納入管理范圍,實(shí)現(xiàn)了資源的無(wú)縫對(duì)接與智能調(diào)度,編織出一張高效協(xié)同的算力資源網(wǎng)。

青云AI智算平臺(tái)2.0通過(guò)標(biāo)準(zhǔn)化、流程化的運(yùn)維管理,大幅降低了運(yùn)營(yíng)成本,提升了整體效率。平臺(tái)不僅提供了資源的規(guī)范化、可視化管理,還支持多租戶(hù)模式下的精準(zhǔn)資源分配,以及包括計(jì)量計(jì)費(fèi)、客戶(hù)管理在內(nèi)的全套服務(wù)運(yùn)營(yíng)功能,為該大規(guī)模智算基礎(chǔ)設(shè)施項(xiàng)目搭建起跨地域的統(tǒng)一運(yùn)維體系。

在青云AI智算平臺(tái)2.0的加持下,該大規(guī)模智算基礎(chǔ)設(shè)施項(xiàng)目不僅關(guān)注資源調(diào)度與運(yùn)維,更注重應(yīng)用的落地與技術(shù)的開(kāi)放兼容。平臺(tái)的分布式調(diào)度與管理能力,加之開(kāi)放的應(yīng)用框架和模型服務(wù),為算法開(kāi)發(fā)到模型部署的全流程提供了堅(jiān)實(shí)支撐,加速了從創(chuàng)新想法到產(chǎn)品實(shí)現(xiàn)的轉(zhuǎn)化過(guò)程。

目前該大規(guī)模智算基礎(chǔ)設(shè)施項(xiàng)目的部分智算中心已經(jīng)建設(shè)完成。各地智算中心都將作為Sub Zone(可用區(qū)),通過(guò)Global Zone(全局區(qū)域)對(duì)外提供通用算力、高性能算力及智能算力,將為最終用戶(hù)提供了資源豐富、按需擴(kuò)展、智能調(diào)度的資源環(huán)境,降低算力資源使用成本的同時(shí),極大提升創(chuàng)新效率。

借助青云 AI 智算平臺(tái) 2.0,企業(yè)可以輕松應(yīng)對(duì) AI 算力建設(shè)與運(yùn)營(yíng)的挑戰(zhàn),實(shí)現(xiàn)高效、靈活的 AI 算力管理,降低成本,提高競(jìng)爭(zhēng)力。

申請(qǐng)創(chuàng)業(yè)報(bào)道,分享創(chuàng)業(yè)好點(diǎn)子。點(diǎn)擊此處,共同探討創(chuàng)業(yè)新機(jī)遇!

相關(guān)文章

熱門(mén)排行

信息推薦