當(dāng)前位置:首頁 >  IDC >  云計算 >  正文

想把超算用得好,總共分幾步?

 2018-05-25 10:41  來源: 互聯(lián)網(wǎng)   我來投稿 撤稿糾錯

  域名預(yù)訂/競價,好“米”不錯過

大嘴哥最近看人民日報的新聞,說是“天河”系列超算要升級了,升級之后的系統(tǒng)是原天河系統(tǒng)性能的200倍以上。

200倍,這是一個駭人聽聞的數(shù)字。當(dāng)然隨后我就這個問題向受訪嘉賓求證過,嘉賓表示文章的理解有誤,但是可以肯定的是,最新最快的超級計算機正在研發(fā)中,而其目標(biāo)也是超算行業(yè)的新的高峰——百億億次。

雖然百億億次的目標(biāo)現(xiàn)在看起來還比較遙遠(yuǎn),雖然目前我們還只有面向這個目標(biāo)的“原型機”,但是在未來的某一天,比如2020年或者某個時間點,百億億次終將會到來。而面對如此高速而復(fù)雜的系統(tǒng),我們除了要解決“能耗墻”、“應(yīng)用墻”等難題之外,也面臨著如何將系統(tǒng)利用好的問題。

1.jpg

“有沒有”和“好不好”,這是一個問題的兩個階段?,F(xiàn)在看來,通過天河和神威系列超級計算機,我們已經(jīng)解決了“有沒有”的問題,廣州、中科院、長沙、無錫幾大超算中心的設(shè)備都是行業(yè)內(nèi)首屈一指的平臺。但是在“好不好”這個問題上,無論是各大科研院所還是各地的高校機構(gòu),恐怕都沒有拍著胸脯的保證。

既然叫做“好”,就得有個衡量的標(biāo)準(zhǔn)。就好比我們提到的幾大超算中心,許多人都有應(yīng)用超算的經(jīng)驗,但是機器用得效果如何,則是見仁見智。甚至對于許多人來說,能把應(yīng)用跑起來,就已經(jīng)算是勝利了。

超算應(yīng)用第一步:先把程序理順了

“我們這些人,講起基因測序和蛋白質(zhì)折疊可以頭頭是道,但是搞計算機,特別是搞清楚那些代碼和應(yīng)用指令,真是太難了”,在我采訪過的高校教師中,許多人都有著類似的體會。搞清楚自己的專業(yè)知識是理所應(yīng)當(dāng)?shù)?,但是將這些專業(yè)知識轉(zhuǎn)換成計算機能夠識別的語言,這顯然超出了他們的業(yè)務(wù)范圍。更重要的是,在投身于專業(yè)研究的同時,他們還需要抽出大量的時間去進行計算機語言的學(xué)習(xí)。

這顯然不現(xiàn)實,卻又無可奈何。我認(rèn)識的老師中,許多人都是自學(xué)了計算機編程的相關(guān)知識,也有老師借助于計算機專業(yè)同行的支持,完成手頭的項目。但是不管怎么說,這都是一件勞心勞力的事情,而且坦率來說這部分內(nèi)容對于專業(yè)的科研應(yīng)用并非有多大的幫助。能否將項目優(yōu)化的內(nèi)容交給專業(yè)的人來實現(xiàn),讓程序的優(yōu)化變得又快又好。我相信,這是許多老師關(guān)心的問題。

超算應(yīng)用第二步:再把程序跑起來

在經(jīng)一番努力之后,許多老師都已經(jīng)將原有的專業(yè)技術(shù)問題轉(zhuǎn)換成了計算機語言和模型,進而可以在超算平臺上運行起來。只是在運行的時候他們發(fā)現(xiàn),無論是廣州超算或者無錫超算抑或其他平臺,想要達(dá)到最佳的運行效率還是要對原有的程序進行針對性的優(yōu)化。

這其中,不同的平臺可能采用了不同的加速設(shè)備,有些采用的是英特爾的至強融核處理器,有些用的是英偉達(dá)的GPU,甚至像無錫超算的神威太湖之光還用的是自主研發(fā)的申威平臺。因此,對于不同的加速設(shè)備,進行優(yōu)化不僅是程序的需求,更是擺在老師面前的一道難題。當(dāng)程序真正的實現(xiàn)并行化,讓所有的處理器核心都能夠高負(fù)載運行,這才是超級計算應(yīng)有的模樣。

但是,說起來容易做起來難。那么多行的程序代碼,對于大部分不熟悉計算機的老師來說,應(yīng)該如何優(yōu)化呢?

    超算應(yīng)用第三步:網(wǎng)絡(luò)優(yōu)化很重要

剛剛提到了一位研究蛋白質(zhì)折疊的老師,他面臨的不僅僅是程序應(yīng)用與模型搭建的問題,更有數(shù)據(jù)傳輸?shù)碾y題。其實對于各個學(xué)科來說,需要超級計算機來分析和處理的應(yīng)用模型都不會很小的量級,這也意味著如果通過網(wǎng)絡(luò)上傳到超算中心的話,可能需要漫長的時光。幾天或者幾個星期,這也都是有可能的。

更有甚者,類似大氣物理、地質(zhì)勘探等數(shù)據(jù),都是以TB級的標(biāo)準(zhǔn)來衡量的,因此數(shù)據(jù)傳輸對于老師來說不僅僅需要耗費漫長的時間,而且從超算中心獲取數(shù)據(jù)也需要網(wǎng)絡(luò)的下載支持。這一來一回,可能比計算本身的時間要多得多,因此許多老師希望能夠通過遠(yuǎn)程可視化操作,實時獲得結(jié)果的反饋,這樣也方便對計算模型進行調(diào)整。否則空耗時間不說,這背后都是海量的機時和高昂的費用。

那么,是否可以通過遠(yuǎn)程可視化化的方式減少等待的時間,對于超大容量的數(shù)據(jù),有什么更加高效、便捷的傳輸方式嗎?

超算應(yīng)用第四步:數(shù)據(jù)管理怎么辦

數(shù)據(jù)管理可以說是超算應(yīng)用的終極目標(biāo),也是最關(guān)鍵的步驟。在此之前,經(jīng)過了程序的優(yōu)化,模型的創(chuàng)建,數(shù)據(jù)也上傳到了超算中心進行運算,可以獲得實時反饋的結(jié)果。但是如何管理這些結(jié)果,如果是一個項目還好說;但是大部分老師都有幾個程序同時再跑,如何檢測每個程序的運行情況,當(dāng)程序運行錯誤的時間如何能夠及時得到告警和反饋,這些問題都是老師們特別關(guān)心的內(nèi)容。

其實在IT運維領(lǐng)域,自動化運維的概念已經(jīng)盛行了好長時間,也有許多解決方案可以借鑒。但是對于超算中心來說,由于平臺的特殊性和應(yīng)用的針對性,僅憑用戶個人很難對所有的程序進行有效的監(jiān)管,在出現(xiàn)錯誤的時候也很難第一時間獲得報警。畢竟老師們還有很多工作去做,一動不動的盯在屏幕前檢測系統(tǒng)狀態(tài)并不現(xiàn)實,所以這個時候,智能化的系統(tǒng)就顯得尤為重要。

不僅如此,當(dāng)一段時間之后,某位老師想了解到自身的應(yīng)用情況,或者項目結(jié)束后需要提供對應(yīng)的數(shù)據(jù)報告,這些事情都應(yīng)該是系統(tǒng)自動完成的。如果依靠人力,依然是非常漫長而繁瑣的工作。

如果超算中心也能提供一鍵生成報告的功能就好了,你說是不是?

這就是絕大部分人眼中超算應(yīng)用的難題。當(dāng)然,許多牛人可以解決其中的某一個或者幾個步驟,但是從建模到上傳,從計算到生成報告,能夠完成這些操作實屬不易。有句話說,讓專業(yè)的人做專業(yè)的事兒,有家叫做并行科技的公司推出了一款名為“超算云服務(wù)”的業(yè)務(wù)體系,完美解決了廣大老師的需求痛點。

不熟悉計算機語言,不懂如何建模?——不要緊,并行科技有專業(yè)的技術(shù)人員,可以提供724小時的專業(yè)貼心服務(wù),包括并不限于應(yīng)用程序編譯、安裝與使用指導(dǎo)、計算資源合理分配利用、運行環(huán)境配置等內(nèi)容。當(dāng)然如果購買了高級服務(wù)的話,還會獲得諸如檢測應(yīng)用運行使用資源分配、作業(yè)問題解答、定制化腳本文件等更為詳細(xì)的內(nèi)容。

計算資源優(yōu)化不給力?——不要緊,并行科技與廣州、中科院、長沙、無錫等多家超算機構(gòu)合作,提供了包括英特爾至強胖節(jié)點、GPU加速器、MIC集群等多種計算資源,并且可以實現(xiàn)不同資源之間的共享等一系列應(yīng)用。當(dāng)然如果你成為VIP客戶的話,還可以獲得黑盒測試與黑盒優(yōu)化、計算平臺定制開發(fā)等高端定制服務(wù),從源頭上把脈超算應(yīng)用。

網(wǎng)絡(luò)傳輸速度太慢怎么辦?——不要緊,并行科技已經(jīng)在北京與廣州之間架設(shè)并行專線網(wǎng)絡(luò),優(yōu)化用戶到超算間的網(wǎng)絡(luò)鏈路,并支持電信、聯(lián)通、教育網(wǎng)等網(wǎng)絡(luò)運營商。用戶可以隨時自動匹配或手動選擇鏈路,找到最適合自己的、延遲最低的選擇。而針對數(shù)據(jù)傳輸?shù)膯栴},并行科技通過遠(yuǎn)程可視化技術(shù),讓數(shù)據(jù)在超算處理,圖形在本地顯示,大幅提升工作效率。

如果你的數(shù)據(jù)的確是太大太多,并行科技還有一項名為“40TB大容量移動盤柜”的黑科技,簡單說來就是通過駐場工程師幫助你把數(shù)據(jù)從本地安全運送到超算中心,從而實現(xiàn)8小時送達(dá),24小時投入使用的“閃電”效率。貌似之前AWS就是這樣運送海量數(shù)據(jù)的,而且聽說效果還不錯哦!

多用戶海量數(shù)據(jù)管理,如何實現(xiàn)自動化——說起數(shù)據(jù)管理,這可算是并行科技的老本行了,早在多年前并行科技推出的Paramon平臺就是針對超算管理專業(yè)軟件,這次升級到云端之后,它更可以提供桌面端和手機端的全方位支持,而且實現(xiàn)了一鍵便捷作業(yè)提交、實時查看作業(yè)運行情況、診斷應(yīng)用性能問題和帳單匯總報告等多重功能,讓用戶的每一分錢都花得明明白白。

對了,說起花錢的問題,你肯定會問:既然并行科技提供了超算云這么好的服務(wù),可以實現(xiàn)超算應(yīng)用從建模到報告的一站式服務(wù),那么收費肯定是非常昂貴的吧。其實,大嘴哥最初也和你有同樣的想法。但是我從并行科技了解到的是,目前超算云服務(wù)的收費標(biāo)準(zhǔn)與超算中心和各大云平臺是相同的。換句話說,無論你是單獨購買超算中心的機時還是通過并行超算云服務(wù)來購買機時,花的錢都是一樣的,一樣的,一樣的。

那你可能會問,都是一樣的費用,并行科技靠什么賺錢呢?這個問題回答起來有點難。但是想想各大補貼的APP,這難道不就是流行的互聯(lián)網(wǎng)思維嗎?

曾幾何時,宋丹丹“把大象裝進冰箱總共分幾步”的問題,結(jié)果讓人大跌眼鏡,出乎許多人意料的是答案就是這么簡單直接。如今,看似復(fù)雜的超算問題,在并行科技的超算云面前都已經(jīng)迎刃而解。如果你是用戶,同樣的預(yù)算下,你是選擇勞心勞力、繁瑣不已的老方法,還是愿意輕裝前行、一步上云呢?

超算應(yīng)用總共分幾步,這下你心中應(yīng)該有數(shù)了吧。

申請創(chuàng)業(yè)報道,分享創(chuàng)業(yè)好點子。點擊此處,共同探討創(chuàng)業(yè)新機遇!

相關(guān)標(biāo)簽
大數(shù)據(jù)計算

相關(guān)文章

熱門排行

信息推薦