當前位置:首頁 >  IDC >  IDC報告 >  正文

九章云極DataCanvas方磊:數(shù)據(jù)科學賦能組織實現(xiàn)未來智能

 2021-04-20 13:19  來源: 互聯(lián)網(wǎng)   我來投稿 撤稿糾錯

  域名預訂/競價,好“米”不錯過

一年一度的IDC DX Summit 數(shù)字化轉(zhuǎn)型大會聚焦 “數(shù)字競技,轉(zhuǎn)戰(zhàn)新常態(tài)”,邀請各行業(yè)領(lǐng)域頭部企業(yè)創(chuàng)始人和高管發(fā)表新見解,九章云極DataCanvas董事長方磊博士站在行業(yè)前沿視角,在會上發(fā)表精彩演講:數(shù)據(jù)科學賦能組織實現(xiàn)未來智能。

演講實錄:

大家好,我是九章云極DataCanvas董事長方磊,很高興能夠來到IDC DX Summit 跟大家一起分享今天的話題:數(shù)據(jù)科學賦能組織實現(xiàn)未來智能。今天我的話題主要分為四個部分,第一部分是未來智能化組織是什么樣的,第二部分是關(guān)于數(shù)據(jù)科學平臺本身的發(fā)展,第三部分是數(shù)據(jù)科學平臺如何提升工作效能,和最后一部分AI著重解決的三大要素。

一、 未來智能化組織是什么樣的

那么未來的智能化組織會是什么樣的一個情況?我們看到了三大特征趨勢。

第一趨勢是IT+DT+業(yè)務的融合 。在過去的40年里,以IT為代表的整個流程的自動化,其實在很多的組織,特別是大型組織已經(jīng)有很高的滲透率了。以最近10年為代表的DT也就是數(shù)字技術(shù)的進展,在很多的大型企業(yè)也有了很好的開端。最近我們看到對于智能化的組織未來10年、20年的發(fā)展趨勢,是IT、DT和業(yè)務的界限會相對的變得模糊:IT部門同樣要對業(yè)務的指標負責,而業(yè)務部門也要對IT、DT的技術(shù)直接使用和提供支撐。

第二個趨勢是關(guān)于創(chuàng)新方式的變化 。以往的創(chuàng)新方式有很多是由上而下的,有些甚至是以主要領(lǐng)導為驅(qū)動的一種戰(zhàn)役型的方式來推進。但現(xiàn)在我們看到的一個趨勢是很多創(chuàng)新方式是bottom up而不是top down的方式,它們自發(fā)地出現(xiàn)在很多業(yè)務的點上,用小步快跑的方式,通過在一些業(yè)務點上使用新的技術(shù)、新的理念來實現(xiàn)業(yè)務的增長。這樣一種“星星之火,可以燎原”的創(chuàng)新方式,正在成為智能化組織的一個顯著特征,這樣的方式也更加靈活、更加敏捷。

第三個趨勢是基礎(chǔ)設(shè)施的變化,主要來自于兩個方面 。一個方面是技術(shù)本身的進展,從10年前開始,整個云從公有云到混合云,發(fā)展到今天的容器化(cloud native云原生);同時大數(shù)據(jù)基礎(chǔ)架構(gòu)的技術(shù)從早期的Hadoop數(shù)據(jù)湖到今天大量的AI智能化算法的演進……技術(shù)本身帶來了基礎(chǔ)設(shè)施的很多變量。

另一方面,基礎(chǔ)設(shè)施在技術(shù)進展的主線之下,還有一個驅(qū)動力來自于前面提到的兩種趨勢(IT、DT和業(yè)務融合以及創(chuàng)新方式的變化),這兩種趨勢要求基礎(chǔ)設(shè)施更加敏捷、更加accessible,來支撐所有創(chuàng)新的嘗試和融合。為了創(chuàng)新而直接去改變IT數(shù)據(jù)中心的某些服務,這是一個業(yè)務部門在以前很難想象的,但是在今天隨著整個基礎(chǔ)設(shè)施的升級,云原生技術(shù)、微服務技術(shù)以及大量的智能建模的技術(shù),都可以讓業(yè)務和DT部門一起直接在數(shù)據(jù)中心進行業(yè)務的服務升級。

不管是技術(shù)的進展,流程的升級,還是創(chuàng)新方式的變化,“人”都是最重要的核心的生產(chǎn)因素。所以當一個組織變成一個智能化組織的時候,“人”一樣還是最重要的需要升級的生產(chǎn)因素。

那么對于一個智能化組織來說,它對于將來的員工、將來的核心資產(chǎn)有什么樣的期望或者伴隨出現(xiàn)的需求是怎么樣的呢?第一點是所謂的復合型技能 。在今天一個創(chuàng)新的、智能化的組織里面,對人的要求可能是多方面的,剛才提到的IT、DT和業(yè)務的融合,其實也體現(xiàn)了這一點,你不但要懂數(shù)據(jù),同時還要懂業(yè)務,可能還需要懂一些編程,擁有這種復合的技能才能讓你在創(chuàng)新涌動的環(huán)境里去成為智能化組織的一部分。

第二點隨之而來的是工具的運用 。當對一個人的要求如此之高,我們知道單一技能是相對比較容易的,如果需要你去開車你可以學開車,但同時需要你開車、開飛機甚至去作畫,一般人是有一點望而卻步的。那么在這種復合技能的需求下,專業(yè)工具的空間就應運而生了。每一個職業(yè)的技能其實代表著一整套的方法論和具體操作要求,專業(yè)的工具本質(zhì)上是在沉淀方法論的同時,讓你的技能可以更有效率地發(fā)揮出來。所以越需要復合技能人才的智能型組織,它對專業(yè)工具的依賴也是大大加深的。

第三點,“協(xié)作”成為一個普適性的需求 。Collaboration,我們稱之為一個核心需求,是fundamental的。我們知道從Slack為代表的協(xié)同辦公軟件開始到今天,各行各業(yè)都在廣泛地讓協(xié)同協(xié)作成為一個基礎(chǔ)性的需求。這是因為既然我們都有復合型的技能,既然我們要有各種廣泛的創(chuàng)新,而且每個人都使用自己的專業(yè)工具,那么他們怎么形成一個合力,就變成了一個很有挑戰(zhàn)的問題。所以專業(yè)工具的協(xié)同性功能的提供,甚至跨領(lǐng)域不同行業(yè)的協(xié)同功能的提供,其實是一個非常核心的需求。這就是我們看到的對于智能組織里面“人”成為最重要的生產(chǎn)因素以后,有這三個方面的需求。

二、 數(shù)據(jù)科學平臺的發(fā)展

第二部分我想談一下數(shù)據(jù)科學平臺本身的發(fā)展。大概在2012年數(shù)據(jù)科學被稱為最性感的詞匯,到2015年中國有了第一所高校設(shè)立數(shù)據(jù)科學專業(yè),再到2018年超過200所高校設(shè)立數(shù)據(jù)科學專業(yè)以來,數(shù)據(jù)科學其實經(jīng)歷了一個比較完整的從實驗室到生產(chǎn)化的過程,數(shù)據(jù)科學在企業(yè)中的應用也是follow了相同的邏輯。

早期的時候,數(shù)據(jù)科學家可能還是一個高高在上的頭銜,但現(xiàn)在門檻已經(jīng)越來越低。很多小朋友通過參加Python的培訓班,各個年齡段的學生通過在校學習,都掌握了或多或少的數(shù)據(jù)科學的一些技能;包括已經(jīng)在職場的社會人士,他們也會參加一些新的培訓,讓自己掌握數(shù)據(jù)科學相應的技能。有一個看法說除了你的智商,你的情商,將來還有一個“數(shù)商”——你對數(shù)據(jù)的敏感度,對數(shù)據(jù)科學一些技能的掌握情況。

數(shù)據(jù)科學在企業(yè)里面最開始還是從數(shù)據(jù)科學家工作臺的方式滲入的。當企業(yè)面臨一個業(yè)務挑戰(zhàn),比如想挽回流失的客戶,想向已有客群推薦更多的金融產(chǎn)品,就會面臨著我們稱為AI建模 的工作。當進行AI建模工作的時候,需要做大量的AI數(shù)據(jù)準備,這些工作基本都是在數(shù)據(jù)科學家、數(shù)據(jù)工程師或者算法人員的工作范圍內(nèi)進行的,他們會使用專業(yè)的工具來完成這個過程,這個專業(yè)工具的類別就叫做數(shù)據(jù)科學家工作臺。簡而言之,這是一個相對來說在一個比較實驗室的、一個開發(fā)的環(huán)境里完成的。

那么初期的一些創(chuàng)新往往圍繞著工作臺的方式來進行,但是一個智能化的組織不會局限于創(chuàng)新的嘗試或者在實驗室做一些創(chuàng)新,它要全面地完整地使用創(chuàng)新能力,就一定要讓生產(chǎn)系統(tǒng)完成智能化改造 。比如你的營銷名單能夠進入生產(chǎn)系統(tǒng),實時地被APP調(diào)用,那么你的客戶就可以實時接收個性化的推薦;再比如你完成了一個反洗錢的系統(tǒng),在你的交易系統(tǒng)里每一筆交易發(fā)生時,系統(tǒng)能夠?qū)崟r地調(diào)用模型來判斷這筆交易是不是一筆盜刷,是不是一筆黑錢,是不是一個要攔截的行為。我們從今天AI模型的進展看到,數(shù)據(jù)科學家的工作已經(jīng)從實驗室一些比較創(chuàng)新的點變成了一個普遍的生產(chǎn)化的系統(tǒng),這一點是有重大意義的。

我們有一個簡單的小結(jié),在過去40年,軟件核心系統(tǒng)完成的是“流程自動化”,那么在接下來的20年甚至更長的時間里,軟件系統(tǒng)會完成“決策自動化”,決策自動化集中體現(xiàn)的就是數(shù)據(jù)科學在企業(yè)中的應用,也就是從實驗室到生產(chǎn)系統(tǒng)當中去。

那么在全面地把數(shù)據(jù)科學落實到生產(chǎn)系統(tǒng)來改善業(yè)務的同時,一定會碰到一些挑戰(zhàn)。其中一個非常突出的挑戰(zhàn)——不是技術(shù)的挑戰(zhàn),而是業(yè)務的挑戰(zhàn)——我們稱之為知識融合 。

我們都知道在每個行業(yè)、每一個生產(chǎn)環(huán)境、每一個業(yè)務環(huán)境當中,都存有知識。知識的存在其實是業(yè)務經(jīng)驗的總結(jié),以及“人”在過去實踐中的經(jīng)驗總結(jié)。舉一個很簡單的例子,比如說我們“人”都知道,當一個交易發(fā)生在夜間,或者在一個不上班的時間發(fā)生高頻轉(zhuǎn)賬交易,往往是一些異常的信號,這個里面其實就牽涉到一個知識。這個知識是如此的顯而易見,以至于很多人都忽視了。我們可以想象一下,一個只有算法大腦的外星人,看到我們的交易時間,他只能知道這是一個時間,這在宇宙當中是普適的,但他不知道的是地球上是要放假的,我們?nèi)耸且X的。所以這樣一個非常淺顯的常識,對于算法的事件來說它是認識不到的。

世界上有很多這樣的知識、常識,比如地球是有重力的,比如我們是需要休息的,比如在很多金融交易當中跨境結(jié)算是需要時間的,如此等等大量的知識,這就構(gòu)成了當你使用機器學習等人工智能算法去解決業(yè)務問題的時候,你需要融合這些知識,這就是知識融合。

剛才提到了數(shù)據(jù)科學平臺自動化的技術(shù),其實自動化技術(shù)的核心,就是如何大幅度降低人對知識和技術(shù)的依賴。在“人”在智能組織的核心作用的部分我提到過很重要的一點,就是復合型人才需要依賴工具,那么依賴工具其實就降低了他對某些知識和培訓以及反復工作的依賴。我們的DataCanvas數(shù)據(jù)科學平臺產(chǎn)品通過自主研發(fā)的“四庫”——特征倉庫、算子倉庫、場景倉庫和AutoML倉 ,可以在各個維度上降低數(shù)據(jù)科學團隊對于特定知識和技術(shù)的依賴。

比如對于一個數(shù)據(jù)科學團隊的成員,他可能要懂技術(shù)、要懂數(shù)據(jù)、要懂業(yè)務、要懂機器學習,還要懂編碼,所有這些知識都是非常復雜和專業(yè)的,那么對于團隊當中不同的角色,數(shù)據(jù)科學家、平民數(shù)據(jù)科學家、數(shù)據(jù)分析師、數(shù)據(jù)工程人員,以及算法運維(Machine Learning OPS)人員,他們對不同維度的知識都有不同的需求,數(shù)據(jù)科學平臺發(fā)展到現(xiàn)在,不論是它的協(xié)作特性,還是自動化特性,都可以極大地降低團隊對特定知識的依賴,提升他們的效率。

三、 數(shù)據(jù)科學平臺如何提升工作效能

當我們團隊的成員都通過先進的自動化技術(shù),在經(jīng)歷了數(shù)據(jù)科學團隊的四個階段(上圖)以后,達到了大規(guī)模落地,我們能看到它帶來什么樣的效果。

數(shù)據(jù)科學是圍繞數(shù)據(jù)利用AI算法進行場景落地的一門科學,在這個過程中它通過團隊內(nèi)和團隊間的協(xié)作,特別是數(shù)據(jù)團隊和業(yè)務團隊的協(xié)作,建立了人和人的關(guān)系;通過數(shù)據(jù)模型構(gòu)建和算法,建立了數(shù)據(jù)和模型的關(guān)系;最后通過開放性的接口,讓AI能力最終融入到業(yè)務系統(tǒng)當中,建立了模型和軟件的關(guān)系??偨Y(jié)來說就是協(xié)作特性建立了人和人的關(guān)系,訓練能力和算法建立了數(shù)據(jù)和模型的關(guān)系,開放性接口建立了模型和軟件的關(guān)系 。所以數(shù)據(jù)科學平臺在將來整個IT和DT的大地圖當中,處于一個非常核心的位置。它通過開放、協(xié)作等特性,讓數(shù)據(jù)、模型和軟件建立一個有機的組合。

四、 智能化組織著重解決的三大要素

朝未來的方向去看,數(shù)據(jù)科學著重解決的AI問題會有三個重要的要素:數(shù)據(jù),算力和算法。

對于數(shù)據(jù) 來說,我們知道一個組織有大量的數(shù)據(jù)積累,數(shù)據(jù)事實上是企業(yè)的生命線。對于算法,先進的算法可以讓我們在數(shù)據(jù)上完成各種以前不可能的任務,來促進業(yè)務的增長。第三個要素是算力,代表了今天在先進算法之下所需要的大量的計算消耗,它來自于硬件的供應,很多來自于CPU、GPU、FPGA和各種各樣專門的ASIC芯片。我們可以理解為,當我們有了新的計算pattern以后,全世界的硬件生產(chǎn)出來就是要被軟件所消耗,所以硬件是提供算力的,但這些算力要適配這些軟件所做的工作。我們相信,數(shù)據(jù)科學團隊在未來將會消耗這個世界上絕大多數(shù)被產(chǎn)生出來的算力,所以它處于未來企業(yè)作為智能化組織轉(zhuǎn)型的一個核心地位。

在數(shù)據(jù)方面我們看到將來的一個趨勢,我們稱為安全計算或者聯(lián)邦學習 的特性,簡單來說就是數(shù)據(jù)在多方可以產(chǎn)生一些協(xié)作。

在今天,國家對于數(shù)據(jù)的隱私保護是非常嚴格的,你不能非法買賣數(shù)據(jù),但在現(xiàn)實中我們也知道數(shù)據(jù)的價值在于流通、在于鏈接,那么怎么解決這個問題?數(shù)據(jù)是不可以互相看見的,那能不能在不看見對方數(shù)據(jù)的前提下,利用算法和一些先進的技術(shù)聯(lián)合來建立模型,這些聯(lián)合建立的模型對于數(shù)據(jù)方和需求方都能夠產(chǎn)生價值。舉一個非常適合于多方數(shù)據(jù)聯(lián)合建模的場景例子,當銀行對一些小微企業(yè)進行放貸的時候,如果能知道小微企業(yè)在業(yè)務上、進出口上,甚至在一些法律風險上,有沒有一些數(shù)據(jù)的輸入會直接決定風險模型的精準度,以及整個放貸過程中對風險的控制。但是我們出于隱私的考慮,也不能簡單地將數(shù)據(jù)拷貝和匯總,就出現(xiàn)了多方數(shù)據(jù)聯(lián)合建模的需求。

那么通過聯(lián)邦學習以及多方安全計算的特性,不管是使用同態(tài)加密的算法,還是MPC的算法,我們都可以保證能夠安全地、不泄密地讓多方數(shù)據(jù)聯(lián)合建立模型,完成以前單方數(shù)據(jù)所不能完成的任務。

那么在算法上的演進,我們判斷大的趨勢是基于自動機器學習的持續(xù)推進。上圖展示了DataCanvas自動機器學習的進展狀態(tài),非常像自動駕駛,我們把它分為5檔。第0檔就是沒有自動化,在2015年左右自動機器學習剛剛起步;到2016年,DataCanvas開始大量采用我們稱為level one的自動機學習技術(shù);在2019年我們使用的自動結(jié)構(gòu)化深度學習工具DeepTables,在結(jié)構(gòu)化數(shù)據(jù)上廣泛使用了深度學習的技術(shù),也取得了非常好的效果。到今年,DataCanvas的產(chǎn)品已經(jīng)全面轉(zhuǎn)向了基于深度神經(jīng)網(wǎng)絡自搜索的自動學習技術(shù),這樣的技術(shù)可以在結(jié)構(gòu)化和非結(jié)構(gòu)化的數(shù)據(jù)上都產(chǎn)生非常好的性能表現(xiàn)。

那么Auto Machine Learning和Auto Deep Learning這樣的一個像自動駕駛一樣的分檔圖,可以讓我們很清晰地看到在數(shù)據(jù)科學團隊,自動化是如何一步一步的深入,最終會完成一個非常低門檻,但是精準度很高的模型的構(gòu)建。

那么最后一塊我們來看算力,算力實現(xiàn)的其實是如何高效調(diào)度所有的計算硬件 。我們知道計算硬件已經(jīng)出現(xiàn)了CPU、GPU、FPGA以及各種各樣的加速硬件,這些硬件是異構(gòu)的,對于硬件異構(gòu)的管理,這是一個非常大的課題。新的數(shù)據(jù)中心里不單是CPU和GPU,還有很多新的硬件的出現(xiàn),如何高效地管理這些硬件,對于一個智能組織也是非常核心的課題。

另外我們還看到了關(guān)于算力硬件的虛擬 。因為在云的時代,一個硬件不再是獨占式的,而是有可能被各種各樣的工作載荷來復用,包括我們多機多卡的加速訓練以及推理的硬件加速,所以提高算力的利用率也是數(shù)據(jù)科學平臺提供給數(shù)據(jù)科學團隊的一項很大的benefit。這樣對于數(shù)據(jù)科學家來說,可以把更多的注意力集中在模型的構(gòu)建上,而無需關(guān)心算力的利用率的提高。

總結(jié)來說,我們認為將來每個公司都會是軟件公司 ,我們也認為每個部門都會是數(shù)據(jù)科學的部門,這意味著IT、DT和業(yè)務的融合,也意味著一些復合型人才的需求。這樣一個巨大的機會,是AI在所有業(yè)務上滲透所帶來的必然結(jié)果,我們也相信DataCanvas makes it happen

申請創(chuàng)業(yè)報道,分享創(chuàng)業(yè)好點子。點擊此處,共同探討創(chuàng)業(yè)新機遇!

相關(guān)標簽
idc產(chǎn)業(yè)

相關(guān)文章

熱門排行

信息推薦