1. 創(chuàng)業(yè)頭條
  2. 前沿領(lǐng)域
  3. 大數(shù)據(jù)
  4. 正文

浪擎DAYS災(zāi)備系統(tǒng)全面破解海量小文件備份難題

 2020-10-30 17:33  來(lái)源:互聯(lián)網(wǎng)  我來(lái)投稿 撤稿糾錯(cuò)

  域名預(yù)訂/競(jìng)價(jià),好“米”不錯(cuò)過(guò)

數(shù)據(jù)時(shí)代

在數(shù)據(jù)時(shí)代,數(shù)據(jù)和業(yè)務(wù)的保護(hù)、數(shù)據(jù)的管理成為企業(yè)發(fā)展所必需的基礎(chǔ)條件。據(jù)有效統(tǒng)計(jì),當(dāng)前,數(shù)據(jù)量增長(zhǎng)、重要性呈指數(shù)級(jí)激增。據(jù)國(guó)外媒體報(bào)道,來(lái)自國(guó)際數(shù)據(jù)公司和數(shù)據(jù)存儲(chǔ)公司希捷的一份新報(bào)告顯示,隨著云計(jì)算、大數(shù)據(jù)、物聯(lián)網(wǎng)等技術(shù)產(chǎn)業(yè)的快速發(fā)展,數(shù)據(jù)流量增長(zhǎng)速率正在不斷加快,到2025年,預(yù)計(jì)新增數(shù)據(jù)總量將從2018年的33ZB增加到175ZB。在過(guò)去幾年,全球的數(shù)據(jù)量以每年40%以上的速度增長(zhǎng),在未來(lái)這個(gè)速度會(huì)更快。龐大的數(shù)據(jù)量中非結(jié)構(gòu)化數(shù)據(jù)占80%左右。通常我們認(rèn)為大小在1MB以內(nèi)的文件稱為小文件,百萬(wàn)級(jí)數(shù)量及以上稱為海量小文件,由此量化定義海量小文件。

海量小文件的應(yīng)用在生活中已越來(lái)越常見(jiàn),社會(huì)化網(wǎng)絡(luò)、移動(dòng)通信、網(wǎng)絡(luò)視頻音頻、電子商務(wù)、傳感器網(wǎng)絡(luò)、科學(xué)實(shí)驗(yàn)等各種應(yīng)用產(chǎn)生的數(shù)據(jù),不僅存儲(chǔ)容量巨大,而且數(shù)據(jù)類型繁多、數(shù)據(jù)大小變化幅度大、流動(dòng)快等顯著特點(diǎn),往往能夠產(chǎn)生千萬(wàn)級(jí)、億級(jí)甚至十億、百億級(jí)的海量小文件。

技術(shù)挑戰(zhàn)

數(shù)據(jù)即資產(chǎn),龐大的數(shù)據(jù)資產(chǎn)對(duì)各企業(yè)的重要性不言而喻,需要對(duì)這些海量小文件提供保護(hù)方案來(lái)保證數(shù)據(jù)資產(chǎn)的安全性。但是傳統(tǒng)的文件備份是通過(guò)基于二叉樹(shù)遍歷的文件系統(tǒng)的遍歷后進(jìn)行單通道的數(shù)據(jù)傳輸實(shí)現(xiàn)的。如果全部是幾K的文件,磁盤(pán)的遍歷時(shí)間遠(yuǎn)遠(yuǎn)大于實(shí)際的數(shù)據(jù)讀取時(shí)間。這給高效的實(shí)現(xiàn)海量小文件備份帶來(lái)了挑戰(zhàn)。

用戶故事

三甲醫(yī)院A每天有上萬(wàn)的病人,每個(gè)病人每天產(chǎn)生的病例文件(包括病例、影像等文件)平均為1M,醫(yī)院平均每天的病人有1萬(wàn)人,那一年的文件的大小是3.4TB、365萬(wàn)數(shù)據(jù)左右。按醫(yī)院門(mén)診病例保存要求15年,那就有51TB、5475萬(wàn)個(gè)數(shù)據(jù)。

該三甲醫(yī)院還要十幾個(gè)分院,而當(dāng)前的數(shù)據(jù)中臺(tái)和大數(shù)據(jù)建設(shè)需要該醫(yī)院的總部將所有分院的數(shù)據(jù)進(jìn)行匯聚和融合,初步評(píng)估數(shù)據(jù)中臺(tái)和大數(shù)據(jù)的底層數(shù)據(jù)是PB級(jí)別(1PB=1024TB)。

法院B有一個(gè)電子文件的項(xiàng)目,該法院有100TB左右的數(shù)據(jù),想要建設(shè)該市所有法院的電子文件的統(tǒng)一管理平臺(tái),粗略評(píng)估后總數(shù)據(jù)有3.6PB,并且有很多幾kb的小文件,如果按平均文件大小100KB來(lái)算,總共有396億左右的數(shù)據(jù)量。

我們?cè)倏匆幌戮W(wǎng)速,千兆網(wǎng)下網(wǎng)絡(luò)的峰值基本只有100+M/S,按照平均速度100M/s來(lái)進(jìn)行數(shù)據(jù)傳輸,100TB的數(shù)據(jù)在千兆網(wǎng)下,需要12天才能傳完數(shù)據(jù)。

但是使用傳統(tǒng)的文件備份方式在文件數(shù)量達(dá)到千萬(wàn)級(jí)時(shí)對(duì)業(yè)務(wù)系統(tǒng)的影響會(huì)很大,如果業(yè)務(wù)系統(tǒng)是運(yùn)行很久的服務(wù)器,資源不充足的情況下甚至?xí)?dǎo)致業(yè)務(wù)系統(tǒng)卡頓;而文件大小低于100KB的海量小文件,在用傳統(tǒng)的文件備份方式進(jìn)行備份時(shí)速度會(huì)迅速降低,之前測(cè)試1kb的千萬(wàn)個(gè)小文件的備份速度只能以kb/s進(jìn)行傳輸。

所以如何能夠面對(duì)海量小文件、海量小文件的時(shí)候能夠快速、低影響的進(jìn)行備份就成了當(dāng)前急需解決的技術(shù)問(wèn)題。

浪擎解決方案

浪擎DAYS災(zāi)備系統(tǒng)全面破解海量小文件備份難題,高效守護(hù)企業(yè)數(shù)據(jù)資產(chǎn)安全。

磁盤(pán)級(jí)備份

磁盤(pán)級(jí)備份是指采用磁盤(pán)塊的方式進(jìn)行數(shù)據(jù)的備份,備份文件所在的磁盤(pán)或者分區(qū),并且恢復(fù)的時(shí)候可以自定義所需的文件進(jìn)行恢復(fù)。通過(guò)磁盤(pán)級(jí)備份能夠解決海量小文件備份過(guò)程中頻繁的IO訪問(wèn)對(duì)業(yè)務(wù)系統(tǒng)帶來(lái)的影響,是海量備份方案中對(duì)業(yè)務(wù)系統(tǒng)影響最小的方案之一。并且由于采用磁盤(pán)級(jí)的備份,無(wú)論文件數(shù)量有千萬(wàn)還是百億,大小是1M還是1KB,對(duì)整體的備份速度都沒(méi)有影響,即千兆網(wǎng)下,磁盤(pán)級(jí)備份速度可以一直保持峰值(平均100M/S)進(jìn)行傳輸。

并行多通道備份

當(dāng)文件數(shù)量達(dá)到千萬(wàn)級(jí)別時(shí),以傳統(tǒng)的單通道式文件備份的形式來(lái)進(jìn)行海量小文件備份,備份速度會(huì)越來(lái)越慢。針對(duì)這種情況,浪擎自主研發(fā)了并行多通道的方式進(jìn)行備份,通過(guò)初始化遍歷所有的文件,然后將文件平均分配給多個(gè)通道進(jìn)行數(shù)據(jù)傳輸,數(shù)據(jù)傳輸完后進(jìn)行數(shù)據(jù)落盤(pán)的操作來(lái)實(shí)現(xiàn)并行多通道備份。并且即使采用最普通的8核CPU服務(wù)器進(jìn)行海量小文件備份也能同時(shí)用16個(gè)通道進(jìn)行海量小文件的數(shù)據(jù)傳輸。10萬(wàn)以上的文件采用并行多通道的方式進(jìn)行備份,備份時(shí)間是單通道的一半,并且文件數(shù)量越多,備份效率越高。

分布式多通道備份

當(dāng)文件數(shù)量達(dá)到千萬(wàn)級(jí)別并且文件的大小差異很大,從幾KB到幾十MB都有,這種大小差異很大的海量小文件備份時(shí)的難度更大,即使采用并行多通道的方式也會(huì)由于文件數(shù)據(jù)大小差異過(guò)大,導(dǎo)致不同通道傳輸?shù)臄?shù)據(jù)總量不同,部分通道會(huì)有閑置的情況,最終導(dǎo)致數(shù)據(jù)傳輸時(shí)間相對(duì)較長(zhǎng)。

針對(duì)這種情況,浪擎在并行多通道備份的基礎(chǔ)上做了深度的優(yōu)化,提出分布式多通道備份方案,實(shí)現(xiàn)多通道備份的負(fù)載均衡,讓每個(gè)通道都能夠滿負(fù)荷進(jìn)行數(shù)據(jù)傳輸,并行合并數(shù)據(jù)再結(jié)合實(shí)時(shí)的數(shù)據(jù)交互減少初始化的時(shí)間,達(dá)到整體的性能提高和最優(yōu)化的海量小文件備份方案。

多節(jié)點(diǎn)、多任務(wù)、多網(wǎng)卡傳輸

除了采用多種備份方式進(jìn)行海量小文件的備份外,為了充分利用現(xiàn)有資源和提供備份的速率,浪擎還采用了多節(jié)點(diǎn)、多任務(wù)、多網(wǎng)卡的方式進(jìn)行數(shù)據(jù)傳輸。多節(jié)點(diǎn)是通過(guò)將多個(gè)服務(wù)節(jié)點(diǎn)進(jìn)行數(shù)據(jù)存儲(chǔ),減少單節(jié)點(diǎn)的性能的局限性對(duì)備份數(shù)據(jù)傳輸?shù)挠绊?多任務(wù)是并行多個(gè)任務(wù)來(lái)實(shí)現(xiàn)數(shù)據(jù)傳輸,充分利用時(shí)間資源;多網(wǎng)卡是充分利用單節(jié)點(diǎn)上的多個(gè)網(wǎng)卡資源采用多個(gè)網(wǎng)卡進(jìn)行數(shù)據(jù)傳輸,讓并行任務(wù)整體的備份效率提高。

關(guān)于浪擎

浪擎科技以“最大化數(shù)據(jù)價(jià)值”為使命,致力于數(shù)據(jù)安全與智能領(lǐng)域的產(chǎn)品研發(fā)和技術(shù)服務(wù),從而推動(dòng)數(shù)字化轉(zhuǎn)型發(fā)展的大變革。2011年投身災(zāi)備產(chǎn)品研發(fā),2015年進(jìn)軍全國(guó)市場(chǎng),浪擎科技現(xiàn)已在上海與成都建立了兩大研發(fā)中心,在北京、浙江、江蘇、江西、四川等20余省市部署了事業(yè)辦事處

數(shù)據(jù)安全產(chǎn)品線為重要業(yè)務(wù)和數(shù)據(jù)提供全生態(tài)、全棧式的備份保護(hù),實(shí)現(xiàn)云上云下云間的數(shù)據(jù)安全與管理;數(shù)據(jù)智能產(chǎn)品線為用戶構(gòu)建數(shù)據(jù)中臺(tái)提供全環(huán)境的、敏捷智能的數(shù)據(jù)匯聚融合與共享管理,助力數(shù)據(jù)驅(qū)動(dòng)業(yè)務(wù)。

申請(qǐng)創(chuàng)業(yè)報(bào)道,分享創(chuàng)業(yè)好點(diǎn)子。點(diǎn)擊此處,共同探討創(chuàng)業(yè)新機(jī)遇!

相關(guān)文章

編輯推薦