當(dāng)前位置:首頁 >  IDC >  云計算 >  正文

濟南超算×青云科技:多元異構(gòu)算力平臺建設(shè)與運營實踐

 2023-10-20 17:59  來源: 互聯(lián)網(wǎng)   我來投稿 撤稿糾錯

  域名預(yù)訂/競價,好“米”不錯過

青云科技(qingcloud.com) AI 算力發(fā)布會上,國家超級計算濟南中心(下文簡稱:濟南超算)總工程師王繼彬博士圍繞算力平臺建設(shè)與運營主題做了精彩分享。

以下為演講全文,經(jīng)整理:

濟南超算

發(fā)展概況&建立歷程

濟南超算由國家科技部批準(zhǔn)成立,創(chuàng)建于 2011 年 10 月,同時落地國內(nèi)第一臺采用完全自主處理器的超級計算機。

其發(fā)展歷程主要包括五個階段:

2011 年:濟南超算成立并落地“神威·藍光”超級計算機。

2018 年:研制“神威 E 級原型機”讓整體算力實現(xiàn) 3 倍提升。

2019 年:在省市支持下成立了首個以超算為主題的科技園區(qū),主要布局超算應(yīng)用生態(tài)做相關(guān)產(chǎn)業(yè)升級。

2021 年:上線山河超級計算機,主要圍繞通用超算的應(yīng)用場景構(gòu)建。

2022 年:發(fā)布新一代“神威·藍光 Ⅱ”超級計算機,實現(xiàn)核心部件完全國產(chǎn)化,整體算力達到 14PFlops。

 

在組織架構(gòu)上,濟南超算有學(xué)術(shù)委員會和主任委員會,同時下設(shè)三個部門:業(yè)務(wù)支撐部門、科研團隊,另落地兩個相關(guān)科研平臺。

圍繞成果轉(zhuǎn)化濟南超算孵化了一系列相關(guān)企業(yè),譬如與青云科技聯(lián)合成立了泉云智慧公司,主打算力服務(wù)及其相關(guān)產(chǎn)品。在科創(chuàng)平臺建設(shè)上基于實驗室、技術(shù)中心、創(chuàng)新平臺擁有豐富的資源支撐,主要圍繞云計算、大數(shù)據(jù)、人工智能、高性能計算四個方向展開。同時濟南超算多次獲得省級科技進步獎,斬獲 Top500、國內(nèi) HPC Top100、國際人工智能算力 AIPerf500 等多項榮譽。

算力資源建設(shè)

融合發(fā)展&科學(xué)運營

濟南超算資源平臺建設(shè)規(guī)劃主要圍繞五個平臺:高性能計算、人工智能計算、云計算、工業(yè)仿真計算、數(shù)據(jù)存儲與災(zāi)備平臺。

以多計算集群融合發(fā)展的思路,濟南超算目前人工智能計算集群達 1000 PFlops,超 2500 個節(jié)點,其中人工智能和云計算集群都按照混合異構(gòu)方式構(gòu)建。具體來看,超級計算集群不僅在 2022 年落地了“神威·藍光Ⅱ”超級計算機,整體算力約 14PFlops,這是采用新一代國產(chǎn)自主處理器構(gòu)建千萬億次的國產(chǎn)超級計算機。還落地了面向通用應(yīng)用場景的山河超級計算集群,整體集群算力達到 60PFlops,存儲容量達到 17PFlops,數(shù)據(jù)傳輸帶寬達到 1TB。

山河超級計算集群

計算資源:山河超級計算集群高性能計算資源超 50 萬物理核心,為適應(yīng)特殊行業(yè)領(lǐng)域計算規(guī)劃建設(shè)了大內(nèi)存節(jié)點,單節(jié)點內(nèi)存可達 1.5TB,云計算集群實現(xiàn)從 IaaS、PaaS 到 SaaS 全方位覆蓋,提供超 60 種云服務(wù)。

云服務(wù):山河超級計算集群與青云聯(lián)合打造,主要圍繞超算使用場景和人工智能場景進行規(guī)劃,整個人工智能集群超過 850PFlops。

網(wǎng)絡(luò)建設(shè)資源:山河超級計算集群與青云合作打造基于 SD-WAN 網(wǎng)絡(luò)接入的方式,對外互聯(lián)網(wǎng)出口網(wǎng)絡(luò)帶寬超 15Gbps,同時在構(gòu)建山東省 16 地市網(wǎng)絡(luò)算力方面做了大量工作。

存儲資源:目前總存儲資源超 245PB,其中 17PB 是用于山河超級計算機配套使用的全閃并行文件存儲,支持傳統(tǒng)文件存儲、對象存儲和云計算里的塊存儲以及大數(shù)據(jù)存儲。

高性能計算節(jié)點:山河超級計算主要圍繞科學(xué)計算集群、工程計算集群和數(shù)據(jù)計算集群三個集群打造,加上“神威·藍光Ⅱ”超級計算機共有四個集群。

通過與青云合作建設(shè) AI 計算節(jié)點,濟南超算針對已有四款集群做了融合和調(diào)度,與青云基于數(shù)據(jù)中心的物聯(lián)網(wǎng)平臺聯(lián)合打造了邊緣推理。目前,山河超級計算的云計算節(jié)點超 2500 個,整體提供的業(yè)務(wù)規(guī)模超 4 萬臺,得益于青云提供的相關(guān)支持還配套了超 5000 臺云桌面。同時山河超級計算平臺連續(xù)兩年參加 IO 500 榜單相關(guān)的測試打榜工作,并取得全球第一的成績,印證了其硬件配置高,配套軟件彈性伸縮、調(diào)度能力優(yōu)秀。

  濟南超算科技園區(qū)

2019 年在省市的支持下,濟南超算建設(shè)了國家超級計算濟南中心科技園區(qū),地處齊魯科創(chuàng)大走廊和山東自由貿(mào)易區(qū)交叉區(qū)域,可以非常便捷地服務(wù)周邊企業(yè)及科研院所,滿足其算力資源需求。濟南超算數(shù)據(jù)中心建筑面積達 4 萬平米,共建設(shè)了 21 個機房(包含 5 個 A 類機房、16 個 B 類機房),規(guī)劃了 2700 個機柜數(shù)。針對 AI 算力對單機柜功率的高要求,濟南超算機柜過半比例為高功率,主要分為 20 千瓦、35 千瓦和 50 千瓦三檔(傳統(tǒng) IDC 一般為 7 千瓦、3.5 千瓦和 5 千瓦),因此濟南超算數(shù)據(jù)中心在承載 AI 算力、高性能算力上具有非常大的優(yōu)勢。

同時濟南超算科技園區(qū)建設(shè)了大量公共空間和相關(guān)辦公環(huán)境,超 12 個培訓(xùn)教室、大中型報告廳、休閑區(qū)域,非常適合做聯(lián)合科研創(chuàng)新、研發(fā)工作的企業(yè)。

算力網(wǎng)絡(luò)建設(shè)

多方攜手&逐步構(gòu)建

  算力網(wǎng)絡(luò)建設(shè)發(fā)展歷程

濟南超算在算力網(wǎng)絡(luò)方面起步較早,整體圍繞六個方向規(guī)劃:算網(wǎng)基礎(chǔ)設(shè)施方面、算網(wǎng)操作系統(tǒng)方面(與青云聯(lián)合研發(fā)工作)、算網(wǎng)應(yīng)用方面(青云參與輔助支撐)、算力安全、算力網(wǎng)絡(luò)安全、算網(wǎng)標(biāo)準(zhǔn)規(guī)范。

整個濟南超算的算力網(wǎng)絡(luò)建設(shè)內(nèi)部命名為“山東超算互聯(lián)網(wǎng)建設(shè)”,發(fā)展歷程大致如下:

2017 年:在全國超算中心 CEO 聯(lián)席會議上提出,想構(gòu)建一個全國性的超算互聯(lián)網(wǎng)絡(luò)。

2018 年:開始實施規(guī)劃并與青島海洋科學(xué)實驗室合作項目。

2019 年:立項重點支持超算互聯(lián)網(wǎng)建設(shè)。

2021 年:項目驗收并圍繞超算互聯(lián)網(wǎng)的關(guān)鍵技術(shù)做相關(guān)研發(fā)工作。

2022 年:第二期超算互聯(lián)網(wǎng)建設(shè)立項,同時山東省基于整個超算互聯(lián)網(wǎng)絡(luò)專門給濟南超算立項,支持山東超算互聯(lián)網(wǎng)的關(guān)鍵技術(shù)專項。

總體來說,濟南超算在整個算力網(wǎng)絡(luò)建設(shè)上積累了豐富經(jīng)驗與成果。

 

  山東超算互聯(lián)網(wǎng)從 2019 年規(guī)劃,分三期建設(shè):第一期:與青島海洋實驗室合作驗證性網(wǎng)絡(luò)建立了"同城兩地三中心"架構(gòu),實現(xiàn)濟南超算濟南市運營的兩個數(shù)據(jù)中心互聯(lián),并與青島海洋實驗室遠距互聯(lián),在此之上構(gòu)筑算力應(yīng)用并做驗證。第二期:構(gòu)建山東 16 地市的“山東算網(wǎng)”2022 — 2023 年底計劃在科研、教育、工業(yè)、民生等領(lǐng)域的算力應(yīng)用開展落地、實施和驗證工作。第三期:構(gòu)筑 5ms 算力圈到 2025 年主要基于濟南超算目前 16 地市的建設(shè)經(jīng)驗打造面向黃河流域算力平臺構(gòu)筑 5ms 算力圈。

  算力網(wǎng)絡(luò)建設(shè)發(fā)展現(xiàn)狀

基于整個山東超算互聯(lián)網(wǎng)建設(shè)歷程,濟南超算針對原有算力網(wǎng)絡(luò)標(biāo)準(zhǔn)體系,根據(jù)自身理解做了定義,認為整個算力節(jié)點分為三種:一、傳統(tǒng)算力節(jié)點:主要提供算力服務(wù)。二、存力節(jié)點:主要提供多元存儲服務(wù)。三、網(wǎng)絡(luò)結(jié)點:主要提供網(wǎng)絡(luò)服務(wù),如網(wǎng)絡(luò)加速、網(wǎng)絡(luò)接入、VPN、高速直連通道、邊緣應(yīng)用加速。

  另外針濟南超算對整個算力節(jié)點做了“算網(wǎng)定義”,即在算力網(wǎng)絡(luò)上存在四張網(wǎng):生產(chǎn)網(wǎng)、傳輸網(wǎng)、配給網(wǎng)、終端網(wǎng),并按照三類節(jié)點構(gòu)建(核心、骨干和邊緣)來承載這四張網(wǎng),其中核心節(jié)點是濟南、青島和棗莊,骨干上覆蓋了剩下的 13 個地市以及涉及地市的邊緣節(jié)點,整體組網(wǎng)拓撲采用了“星型”組網(wǎng)的建設(shè)方式。目前核心節(jié)點濟南和青島已經(jīng)建設(shè)完成,采用 100Gbps 網(wǎng)絡(luò)建設(shè),剩下 14 個地市大多按照骨干節(jié)點、10Gbps 全光互聯(lián)的方式建設(shè),還有一些邊緣節(jié)點有 1Gbps 和幾百兆的帶寬。具體實施上,濟南超算采用全光的 OTN 的方式構(gòu)建,可靈活調(diào)整帶寬,實現(xiàn)極低延遲。

  算力網(wǎng)絡(luò)建設(shè)未來構(gòu)想

由于建設(shè)項目的要求,目前實施仍按照“星型”模式,預(yù)計 2023 年底能調(diào)成環(huán)網(wǎng),因為網(wǎng)狀的結(jié)構(gòu)相對更靈活,延遲更低。同時在建設(shè)時為濟南和棗莊預(yù)留了算力網(wǎng)絡(luò)接入?yún)^(qū),方便未來濟南往北對接京津冀算力圈,棗莊對接長三角的算力集群。

未來濟南超算也將繼續(xù)積極參與各類算網(wǎng)項目,目前已作為成員單位參與科技部牽頭的中國超算互聯(lián)網(wǎng),并在“東數(shù)西算”網(wǎng)絡(luò)方面成立了黃河流域算力聯(lián)盟,未來還將逐步構(gòu)建連接黃河流域的國家級“東數(shù)西算”樞紐。

全算力服務(wù)

支持諸多科研&商業(yè)場景

濟南超算作為公共服務(wù)平臺,圍繞山東省產(chǎn)業(yè)和山東規(guī)劃建設(shè)的大科學(xué)計劃、大科學(xué)工程展開算力服務(wù)。

  傳統(tǒng)超算涉及的新能源、仿真、石油、高端農(nóng)機裝備、新材料、海洋、藥物、化工、天文觀測、衛(wèi)星遙感等領(lǐng)域生態(tài)建設(shè)已較成熟,濟南超算自 2011 年開始圍繞國產(chǎn)超算平臺構(gòu)建自主可控的超算應(yīng)用生態(tài),2022 年上線自主可控的超算軟件生態(tài)平臺,主要為電池、材料、海洋、醫(yī)療、核能、環(huán)保、生態(tài)保護、石油勘探等行業(yè)提供基礎(chǔ)庫與軟件平臺。

生態(tài)環(huán)境方面

濟南超算運營國家生態(tài)環(huán)境大數(shù)據(jù)超算云中心開展很多國家生態(tài)環(huán)保、特別是空氣質(zhì)量預(yù)測預(yù)報工作,支撐了部分國家重大活動,譬如服務(wù)山東本地空氣質(zhì)量業(yè)務(wù)平臺。超算云中心得益于青云科技提供的許多支撐,自 2021 年底上線運行至今都相當(dāng)穩(wěn)定。

工業(yè)互聯(lián)網(wǎng)方面

濟南超算在高鐵氣動仿真平臺上做得相對較早,也是自身比較擅長的領(lǐng)域。目前圍繞超算互聯(lián)網(wǎng)山東算網(wǎng)工程與省內(nèi)工業(yè)企業(yè)合作,今年在鋼鐵行業(yè)做了相關(guān)計算工作。圍繞“黃河戰(zhàn)略”的場景涉及大量數(shù)據(jù)和模型相關(guān)的融合場景,智慧黃河模擬器內(nèi)部還在研發(fā),作為底層基礎(chǔ)設(shè)施平臺青云調(diào)度能力在整個數(shù)據(jù)采集、數(shù)據(jù)流轉(zhuǎn)方面發(fā)揮了作用。

智慧政務(wù)業(yè)務(wù)方面

濟南超算為山東數(shù)字政府提供云計算服務(wù),資源調(diào)度方面與青云科技合作,針對目前政務(wù)云的云計算資源池,與高性能計算、人工智能計算的集群之間實現(xiàn)了算力資源的彈性擴展。在山東省生態(tài)環(huán)保業(yè)務(wù)平臺時,其需要高性能計算算力,但政務(wù)云的傳統(tǒng)云計算平臺里很少規(guī)劃高性能計算,得益于濟南超算有獨立的高性能計算池因此實現(xiàn)了政務(wù)云資源池和山河高性能計算資源池之間的彈性資源擴展,可以支持山東環(huán)保業(yè)務(wù)平臺需要高性能計算業(yè)務(wù)時自動彈到高性能計算池,相反如果沒有需求時可自動收縮。

智慧醫(yī)療方面

濟南超算按照“云、邊、端”形式,與國家醫(yī)療大數(shù)據(jù)北方中心、省千佛山醫(yī)院等單位合作,研發(fā)了在線遠程標(biāo)注、推理等相關(guān)場景。

對地觀測方面

濟南超算與空天院深度合作,建設(shè)濟南到北京的遙感專線,用于匯聚遙感數(shù)據(jù)。同時計算集群支撐針對遙感數(shù)據(jù)的分析處理,與青云合作數(shù)據(jù)流轉(zhuǎn)平臺用于數(shù)據(jù)無縫流轉(zhuǎn),特別是處理后的數(shù)據(jù)。

智慧教育方面

基于青云的底層平臺,濟南超算做了像教學(xué)實訓(xùn)類業(yè)務(wù),并從已經(jīng)服務(wù)的 7、8 所大學(xué)向全國推廣,可以提供虛擬機、容器集中服務(wù),基于青云提供的底座有效支撐了整個業(yè)務(wù)應(yīng)用需求,在疫情期間在線教學(xué)上發(fā)揮了很大作用。

人工智能平臺建設(shè)方面

濟南超算依托青云以及其他合作伙伴共同推進自然語言巨量模型訓(xùn)練的相關(guān)工作,去年在國家高考語文閱讀理解、作文上可以看到平臺訓(xùn)練出來的模型整體效果優(yōu)秀,青云科技平臺就其中涉及的存儲數(shù)據(jù)流轉(zhuǎn)、AI 算力調(diào)度提供了強有力的支撐保障。

申請創(chuàng)業(yè)報道,分享創(chuàng)業(yè)好點子。點擊此處,共同探討創(chuàng)業(yè)新機遇!

相關(guān)文章

熱門排行

信息推薦