1. 創(chuàng)業(yè)頭條
  2. 前沿領域
  3. 大數(shù)據(jù)
  4. 正文

十億級數(shù)據(jù),秒級響應 | 觀遠數(shù)據(jù)重磅發(fā)布「極速分析引擎」黑科技

 2020-04-21 18:31  來源:A5專欄  我來投稿 撤稿糾錯

  域名預訂/競價,好“米”不錯過

從Excel、報表系統(tǒng)到傳統(tǒng)BI,企業(yè)數(shù)據(jù)分析工具進化的同時,背后需要支持的數(shù)據(jù)承載量也在以更快的速度一路攀升。

(各數(shù)據(jù)分析工具適合承載的數(shù)據(jù)量)

以一家連鎖零售企業(yè)為例,如果門店有2000家,在售SKU有5000個,一天單店單品庫存數(shù)據(jù)量就達到了1000萬,一周就可能破億。

為了能讓性能跟上企業(yè)數(shù)據(jù)發(fā)展的速度,確保用戶在億級、十億級數(shù)據(jù)集的基礎上還能做絲滑的拖拽式數(shù)據(jù)分析和動態(tài)查詢,同時又不會給IT人員帶來額外的數(shù)據(jù)管理與運維壓力。觀遠數(shù)據(jù)在2019開始研究基于海量數(shù)據(jù)計算查詢的加速組件,并于2020年3月正式推出“極速分析引擎”黑科技功能,真正做到十億級數(shù)據(jù)秒級響應。

“極速分析引擎”是嵌入在觀遠一站式智能數(shù)據(jù)分析平臺中的一套計算查詢加速組件,在集群模式下最快支持十億級以上數(shù)據(jù)秒級響應速度。適用于零售行業(yè)大數(shù)據(jù)量、大寬表、高并發(fā)的數(shù)據(jù)分析情況,比如海量庫存數(shù)據(jù)聚合分析與查詢、訂單分析、商品分析等場景。可以滿足業(yè)務人員持續(xù)的探索式自助分析、即席查詢、動態(tài)分析的需求,保持連貫的分析思路,打造沉浸式分析體驗,深挖數(shù)據(jù)價值,高效洞悉業(yè)務。

“極速分析引擎”到底有多快?我們在實驗室環(huán)境下做了一個性能測試。測試的機器為16核128G內(nèi)存的單節(jié)點,未做加速組件的獨立部署(實際上加速組件可單獨部署,加速效果更明顯)。

Demo1:極速查詢演示視頻演示-https://v.qq.com/x/page/u09471ficps.html

以上案例中,我們模擬了某零售客戶基于訂單商品明細數(shù)據(jù)的任意時間區(qū)段銷量、銷售額、成本的聚合分析。

可以看到,左右兩張表都是基于同一張1億行的訂單明細表進行聚合分析。區(qū)別在于左邊的表是使用的是Guan-Index數(shù)據(jù)集,是利用Spark計算引擎來進行計算的。而右邊的表則是使用“高性能查詢表”,利用“極速分析引擎”來做加速查詢的。不難發(fā)現(xiàn),在切換日期區(qū)間時,右側(cè)表格基本上能夠在2~3秒內(nèi)返回計算結(jié)果,而左側(cè)表格則需要10秒才能返回,整體的性能提升達到3~5倍,真正做到億級數(shù)據(jù)秒級響應。

Demo2:一億行數(shù)據(jù)自由拖拽式分析-https://v.qq.com/x/page/a094711g02i.html

還是基于以上數(shù)據(jù),我們再做一下自由拖拽式的數(shù)據(jù)分析進行測試。從Demo中可以看到,基于1億行訂單明細數(shù)據(jù)的自由拖拽分析,也可以做到秒級響應,絲滑體驗。

如此強大的功能要怎么使用?

當用戶導入千萬級以上Guan-Index數(shù)據(jù)集,或者通過Smart ETL生成同等體量的數(shù)據(jù)集后,想要使用“極速分析引擎”來進行查詢加速時,我們可以大致分三步進行操作。

1、配置數(shù)據(jù)集

我們可以進入到數(shù)據(jù)集詳情頁“高級選項”欄,將數(shù)據(jù)集配置為“高性能查詢表”。

2、設置分區(qū)字段

用戶需要設置分區(qū)字段——分區(qū)是為了數(shù)據(jù)在存儲時能合理地分片,以減少數(shù)據(jù)查詢時的數(shù)據(jù)掃描。一般建議使用日期字段來做分區(qū),分區(qū)方式建議設置為“月”或者“日”。使用日期字段做分區(qū),可以有效地控制分區(qū)數(shù)量,不至于把分區(qū)做得過粗或者過細。如果沒有日期字段,也可以謹慎選擇其他字段進行分析,這時需要控制好分區(qū)字段的枚舉數(shù)量,一定不要選擇類似訂單ID之類的流水號,或者數(shù)值類字段作為分區(qū)字段。

3、確認執(zhí)行

配置完分區(qū)字段后,點擊“確認”即可以開始模式切換。數(shù)據(jù)集數(shù)據(jù)量大的時候,數(shù)據(jù)導入需要花費一定的時間,請耐心等候。內(nèi)部測試,3億行*26列的數(shù)據(jù)集導入花費12min左右。數(shù)據(jù)集更新也會觸發(fā)數(shù)據(jù)重新導入,因此一般建議高性能查詢表更新頻率不超過一天一次。

以下就是一個配置了“高性能查詢表”的ETL輸出數(shù)據(jù)集,我們看到表面看起來它似乎與一般的ETL輸出數(shù)據(jù)集并無二異。但我們在使用它創(chuàng)建卡片時,卻是利用“極速查詢引擎”來查詢數(shù)據(jù),能夠提供飛一般的體驗。

“極速分析引擎”適用于哪些場景?

目前,“高性能查詢表”適用于數(shù)據(jù)量大于等于1000萬行以上的數(shù)據(jù)集,可大大加速卡片端數(shù)據(jù)查詢的效率。并且特別適合海量數(shù)據(jù)下的OLAP查詢,適合在大寬表上做任意維度的數(shù)據(jù)聚合、切片(篩選),也可以做明細數(shù)據(jù)的查詢。這些查詢相比直接使用Spark作為計算引擎,一般都能提供3~5倍的性能提升,如果硬件資源寬裕,將加速組件獨立部署,將能獲得更為優(yōu)越的極速體驗。

申請創(chuàng)業(yè)報道,分享創(chuàng)業(yè)好點子。點擊此處,共同探討創(chuàng)業(yè)新機遇!

相關文章

編輯推薦