1. 創(chuàng)業(yè)頭條
  2. 前沿領(lǐng)域
  3. 大數(shù)據(jù)
  4. 正文

從數(shù)據(jù)到洞察,看杉巖對象存儲如何支撐新型數(shù)據(jù)湖

 2020-09-08 17:43  來源:互聯(lián)網(wǎng)  我來投稿 撤稿糾錯

  域名預(yù)訂/競價,好“米”不錯過

傳統(tǒng)數(shù)據(jù)湖面臨性能挑戰(zhàn)

隨著數(shù)據(jù)分析和人工智能應(yīng)用的普及,企業(yè)數(shù)據(jù)量大增,創(chuàng)新業(yè)務(wù)層出不窮,企業(yè)對數(shù)據(jù)分析靈活性、性能和成本的要求越來越高,傳統(tǒng)大數(shù)據(jù)Hadoop系統(tǒng)搭建的數(shù)據(jù)分析平臺已無法滿足企業(yè)的要求。越來越多的企業(yè)以數(shù)據(jù)湖為基礎(chǔ)構(gòu)建大數(shù)據(jù)處理平臺,數(shù)據(jù)湖的典型特征是存儲和計算分離,能夠降低系統(tǒng)成本同時獲得更好的系統(tǒng)擴展性。

數(shù)據(jù)湖架構(gòu)使得企業(yè)可以在一份數(shù)據(jù)上拓展創(chuàng)新業(yè)務(wù),而不必每發(fā)展一個新業(yè)務(wù)就做一次數(shù)據(jù)拷貝,但傳統(tǒng)數(shù)據(jù)湖方案在性能上仍然存在明顯的缺點,傳統(tǒng)數(shù)據(jù)湖依賴云存儲,雖然降低了存儲成本,但在數(shù)據(jù)分析的過程中完全依靠云存儲自身的吞吐能力進行數(shù)據(jù)掃描,這種方式只適用于ETL、批量計算等時延不敏感的應(yīng)用,卻無法支撐秒級數(shù)據(jù)檢索、時序數(shù)據(jù)分析等低時延的分析場景。

數(shù)據(jù)湖支撐大數(shù)據(jù)分析和機器學(xué)習(xí)平臺

除了服務(wù)傳統(tǒng)的Hadoop/Spark大數(shù)據(jù)分析平臺,數(shù)據(jù)湖還需要滿足AI算法的模型訓(xùn)練和推理、數(shù)據(jù)歸檔的需求,這要求存儲系統(tǒng)支持多種協(xié)議以提升處理效率。比如在自動駕駛模型訓(xùn)練及分析場景中,車輛采集的視頻、雷達數(shù)據(jù)需要通過文件或?qū)ο蠼涌趯?dǎo)入存儲,然后通過HDFS接口對數(shù)據(jù)預(yù)處理,預(yù)處理結(jié)果再通過文件接口由計算服務(wù)器進行AI訓(xùn)練和高性能仿真,從而得到新的算法和模型進行下一輪測試。這些需求不是單一的對象存儲或HDFS存儲能夠支撐的,需要更專業(yè)的存儲平臺提供服務(wù)。

杉巖數(shù)據(jù)的MOS海量對象存儲通過異構(gòu)納管的方式,可以整合管理已有的HDFS數(shù)據(jù)源和NAS數(shù)據(jù)源,通過混合云存儲方案,可以將存儲在公有云的數(shù)據(jù)也納入到MOS對象存儲池統(tǒng)一管理。杉巖數(shù)據(jù)近期發(fā)布的MosFS高性能數(shù)據(jù)湖文件網(wǎng)關(guān)在系統(tǒng)架構(gòu)中位于MOS對象存儲池之上,為Hadoop/Spark大數(shù)據(jù)分析平臺和TensorFlow/PyTorch/Caffe等機器學(xué)習(xí)平臺提供原生的HDFS接口、S3/OSS對象接口、POSIX文件接口。

圖1:數(shù)據(jù)湖文件網(wǎng)關(guān)架構(gòu)

MOS對象存儲和MosFS文件網(wǎng)關(guān)組合構(gòu)建的數(shù)據(jù)湖架構(gòu)為企業(yè)統(tǒng)一管理眾多的數(shù)據(jù)源,實現(xiàn)高性能存儲和數(shù)據(jù)治理提供了堅實的基礎(chǔ)。

· 高效率的多數(shù)據(jù)源管理

MOS可以納管第三方的NAS存儲、對象存儲和HDFS數(shù)據(jù)源,并通過映射的方式對上層提供數(shù)據(jù)服務(wù),可以在現(xiàn)有的IT架構(gòu)中實現(xiàn)存儲系統(tǒng)的快速割接,漫長的數(shù)據(jù)遷移可以在后臺異步執(zhí)行。統(tǒng)一管理的數(shù)據(jù)可以為多套平臺和應(yīng)用服務(wù),不需要多重復(fù)制,減少對存儲空間的需求。

· 內(nèi)容感知的多級緩存加速

機器學(xué)習(xí)平臺在模型訓(xùn)練中要求數(shù)據(jù)的超高吞吐量和超低延遲,MosFS可以和上層應(yīng)用聯(lián)動,通過標(biāo)簽感知與應(yīng)用關(guān)聯(lián)度高的數(shù)據(jù),機器學(xué)習(xí)平臺可以通過路徑、數(shù)據(jù)標(biāo)簽、多策略組合等方式得到相關(guān)性高的數(shù)據(jù)集。在實際運行中,MosFS把上述數(shù)據(jù)映射成目錄,并通過內(nèi)存和SSD多級緩存來加速數(shù)據(jù)訪問。比如在自動駕駛的訓(xùn)練中,算法需要所有車輛在白天的四車道上捕獲的視頻和圖片,MosFS就可以通過這些數(shù)據(jù)特征對應(yīng)的標(biāo)簽,將MOS存儲資源池中的相關(guān)數(shù)據(jù)映射為一個目錄,并通過多級緩存提供給訓(xùn)練算法。

· 多策略數(shù)據(jù)映射簡化管理

MosFS的數(shù)據(jù)映射能力實現(xiàn)了數(shù)據(jù)訪問的虛擬化,并通過全局命名空間將數(shù)據(jù)呈現(xiàn)給上層應(yīng)用,基于時間、標(biāo)簽、文件名前綴等多粒度策略可以簡化對數(shù)據(jù)的管理。

性能逼近本地全閃存的分布式數(shù)據(jù)湖文件網(wǎng)關(guān)

MosFS文件網(wǎng)關(guān)與MOS對象存儲可以合設(shè)也可以分離部署,為了滿足機器學(xué)習(xí)平臺超高吞吐量和超低延遲的性能要求,通常將MosFS分布式部署于計算服務(wù)器,在這種情況下,MosFS將計算服務(wù)器的本地預(yù)留內(nèi)存和SSD組成一個分布式的緩存層以加速訓(xùn)練。傳統(tǒng)分布式NAS作為機器學(xué)習(xí)后端存儲的方案具有成本高昂、數(shù)據(jù)與其它類型存儲不能互通等缺點,數(shù)據(jù)管理復(fù)雜造成訓(xùn)練效率低下,相比而言MosFS的方案可以管理MOS、原有NAS和HDFS存儲,統(tǒng)一所有數(shù)據(jù)視圖,且分布式數(shù)據(jù)緩存可以將訓(xùn)練效率提升多倍,性能接近于使用計算服務(wù)器的本地SSD。

圖2:數(shù)據(jù)湖文件網(wǎng)關(guān)分布式部署于計算服務(wù)器

HDFS協(xié)議增強實現(xiàn)大數(shù)據(jù)存算分離

HDFS作為傳統(tǒng)的數(shù)據(jù)倉庫存儲平臺在數(shù)據(jù)湖場景下面臨性能和成本的問題。在實際應(yīng)用中,在10~20PB以上的數(shù)據(jù)規(guī)模下,HDFS的性能下降嚴(yán)重,另外HDFS基本只支持多副本的存儲模式,對糾刪碼的支持效果不佳。MosFS和MOS組合構(gòu)建的數(shù)據(jù)湖存儲兼容HDFS接口和S3協(xié)議,可以實現(xiàn)存儲和Hadoop計算平臺的分離,幫助客戶把HDFS的數(shù)據(jù)統(tǒng)一歸集到MOS存儲中,實現(xiàn)非結(jié)構(gòu)化數(shù)據(jù)、半結(jié)構(gòu)化數(shù)據(jù)和結(jié)構(gòu)化數(shù)據(jù)的統(tǒng)一管理。MosFS提供的原生HDFS接口100%兼容主流平臺,并在內(nèi)部實現(xiàn)了S3/OSS與HDFS接口協(xié)議的互通轉(zhuǎn)換,避免數(shù)據(jù)多次拷貝。

圖3:數(shù)據(jù)湖架構(gòu)實現(xiàn)存算分離

大數(shù)據(jù)分析和AI訓(xùn)練推理融合的需求越來越多,傳統(tǒng)的大數(shù)據(jù)存儲僅提供HDFS接口,大數(shù)據(jù)分析的結(jié)果如果用于AI訓(xùn)練,需要把數(shù)據(jù)拷貝到其它存儲中處理,導(dǎo)致數(shù)據(jù)分析整體效率的低下,也浪費了存儲空間。杉巖新型數(shù)據(jù)湖架構(gòu)既能提供HDFS接口用于大數(shù)據(jù)分析,又能提供文件和對象接口用于AI訓(xùn)練推理,大數(shù)據(jù)分析結(jié)果可直接通過文件接口訪問,無需拷貝和等待,很大程度上提升了融合場景的大數(shù)據(jù)分析效率。

AI訓(xùn)練實踐案例

類腦智能技術(shù)及應(yīng)用國家工程實驗室是由中國科技大學(xué)組建,由中科院、復(fù)旦大學(xué)、微軟、百度等機構(gòu)共同承建的國家工程實驗室,中科類腦成立于2017年,是該實驗室的產(chǎn)業(yè)化平臺,通過搭建“先進人工智能算法+公有計算云+私有部署云”的智能混合云平臺,對外提供計算資源、人工智能技術(shù)、智能化解決方案等服務(wù)。

中科類腦開發(fā)的類腦云OS提供了大規(guī)模算力、數(shù)據(jù)和智能技術(shù),有效降低人工智能創(chuàng)業(yè)門檻,能夠促進人工智能應(yīng)用生態(tài)的發(fā)展,賦能各行業(yè)完成智能升級轉(zhuǎn)型。目前該平臺已經(jīng)匯聚了180項AI前沿算法、100類通用數(shù)據(jù)集,具備豐富的平臺建設(shè)和行業(yè)落地經(jīng)驗。

杉巖新型數(shù)據(jù)湖架構(gòu)已經(jīng)在類腦云OS得到應(yīng)用,根據(jù)中科類腦的訓(xùn)練方案,數(shù)據(jù)集分別放在本地SSD、分布式NAS存儲和杉巖MosFS+MOS上,性能對比測試結(jié)果表明,MosFS訓(xùn)練耗時與本地SSD接近,對比分布式NAS,MosFS在單GPU節(jié)點下讀取性能提升62.5%,雙GPU節(jié)點分布式訓(xùn)練的性能提升75.8%。集群規(guī)模越大,杉巖數(shù)據(jù)湖方案的性能越能得到體現(xiàn),表現(xiàn)出了優(yōu)秀的擴展性。

圖4:本地SSD、MosFS、NAS的模型訓(xùn)練性能對比

小結(jié):智能應(yīng)用和大數(shù)據(jù)分析需要智能的新型數(shù)據(jù)湖

數(shù)據(jù)基礎(chǔ)設(shè)施正在走向智能和融合。數(shù)據(jù)湖如果不能實現(xiàn)有效的數(shù)據(jù)管理,就會變成“數(shù)據(jù)沼澤”,智能管理要求存儲提供多維度的檢索能力、生命周期管理能力以及數(shù)據(jù)可視化能力,實現(xiàn)數(shù)據(jù)的合理分類與管理,加速數(shù)據(jù)清洗、轉(zhuǎn)換、流動的過程。存儲與計算架構(gòu)實現(xiàn)分離,結(jié)構(gòu)化數(shù)據(jù)、半結(jié)構(gòu)化數(shù)據(jù)、非結(jié)構(gòu)化數(shù)據(jù)統(tǒng)一存放在數(shù)據(jù)湖中,海量的數(shù)據(jù)得以在數(shù)據(jù)湖中實現(xiàn)融合,不同類型數(shù)據(jù)存儲的界限逐漸模糊。

人工智能和大數(shù)據(jù)分析應(yīng)用的融合使得一份數(shù)據(jù)能夠同時提供給多個計算及分析流程使用,新一代數(shù)據(jù)湖存儲平臺必須具備多源數(shù)據(jù)管理能力,包括混合云能力與異構(gòu)納管其它存儲的能力,以及可智能感知內(nèi)容的高性能多協(xié)議數(shù)據(jù)服務(wù)能力。新型數(shù)據(jù)湖架構(gòu)必將為數(shù)據(jù)分析和智能應(yīng)用的開發(fā)和運行帶來巨大的便利,加快迭代分析過程,簡化基礎(chǔ)設(shè)施需求,提供綜合的數(shù)據(jù)服務(wù)能力,方便人們高效率地提取數(shù)據(jù)價值。

申請創(chuàng)業(yè)報道,分享創(chuàng)業(yè)好點子。點擊此處,共同探討創(chuàng)業(yè)新機遇!

相關(guān)標(biāo)簽
大數(shù)據(jù)

相關(guān)文章

  • 百望云獲評“中國大數(shù)據(jù)獨角獸” 數(shù)實相融 算啟未來

    隨著數(shù)字中國戰(zhàn)略的步步落實,大數(shù)據(jù)已經(jīng)成為錨定戰(zhàn)略定位、搶得市場先機的重要基礎(chǔ)元素。為彰顯行業(yè)發(fā)展現(xiàn)狀,遴選、推薦優(yōu)秀企業(yè),長城戰(zhàn)略咨詢近日在2023中國國際大數(shù)據(jù)產(chǎn)業(yè)博覽會期間,重磅發(fā)布《中國大數(shù)據(jù)獨角獸企業(yè)榜單》,根據(jù)獨角獸企業(yè)國家推薦性標(biāo)準(zhǔn),篩選出259家2022年中國大數(shù)據(jù)(潛在)獨角獸企業(yè)

    標(biāo)簽:
    大數(shù)據(jù)
  • 學(xué)術(shù)引領(lǐng) 數(shù)智健康:2023北京健康醫(yī)療大數(shù)據(jù)論壇六月北京盛大開啟

    2023年6月15日至18日,2023北京健康醫(yī)療大數(shù)據(jù)論壇、醫(yī)促會華夏健康數(shù)據(jù)與數(shù)字醫(yī)學(xué)高峰論壇、第三屆中華預(yù)防醫(yī)學(xué)會腎臟病預(yù)防與控制專業(yè)委員會學(xué)術(shù)會議將同期于北京舉行。論壇以“學(xué)術(shù)引領(lǐng)數(shù)智健康”為主題,著眼國家戰(zhàn)略需求,聚焦前沿科技在健康醫(yī)療領(lǐng)域的發(fā)展與實踐,薈萃全球頂尖學(xué)術(shù)觀點,促進多方跨界融

    標(biāo)簽:
    大數(shù)據(jù)
  • 擎起科技自強旗幟,引領(lǐng)產(chǎn)業(yè)智造未來——谷器數(shù)據(jù)入庫北京市科技型中小企業(yè)

    近日,北京市科學(xué)技術(shù)委員會、中關(guān)村科技園區(qū)管理委員會公示了北京市2023年第2批科技型中小企業(yè)名單,谷器數(shù)據(jù)借助優(yōu)秀的科技自主創(chuàng)新能力成功入選。此次評價指標(biāo)圍繞科研人員、研發(fā)投入、科技成果等三個維度,成功入選科技型中小企業(yè)是對谷器數(shù)據(jù)專業(yè)化發(fā)展、自主創(chuàng)新能力、產(chǎn)品技術(shù)實力的激勵與肯定。科技型中小企業(yè)

    標(biāo)簽:
    大數(shù)據(jù)
  • 獲中國科學(xué)院褒獎 | 谷器數(shù)據(jù)產(chǎn)品榮膺2022年度最佳!

    評審寄語面向車間現(xiàn)場生產(chǎn)制造過程的數(shù)字化管理,谷器數(shù)據(jù)SupplyX·MES通過推動更有效的工廠運行和現(xiàn)場效率,提供從接收生產(chǎn)計劃到制成最終產(chǎn)品全過程的生產(chǎn)活動實現(xiàn)優(yōu)化的信息,成為新型工業(yè)化的標(biāo)桿力量!近日,由中國科學(xué)院《互聯(lián)網(wǎng)周刊》、中國社會科學(xué)院信息化研究中心等機構(gòu)聯(lián)合主辦的“2023(第八屆)

    標(biāo)簽:
    大數(shù)據(jù)
  • 四方偉業(yè)優(yōu)秀的大數(shù)據(jù)產(chǎn)品和服務(wù)獲得了行業(yè)榮譽

    在如今這個數(shù)字化轉(zhuǎn)型時代,大數(shù)據(jù)在企業(yè)發(fā)展的過程中發(fā)揮了至關(guān)重要的作用,大數(shù)據(jù)技術(shù)以更高效和有效的方式提供最好的服務(wù),同時還可以提高生產(chǎn)力、提高客戶滿意度和更高效的智慧化運營。其中,成都四方偉業(yè)軟件股份有限公司(以下簡稱“四方偉業(yè)”)以優(yōu)秀的大數(shù)據(jù)產(chǎn)品和服務(wù)獲得了多項行業(yè)榮譽。去年,2022數(shù)博會數(shù)