1. 創(chuàng)業(yè)頭條
  2. 前沿領域
  3. 人工智能
  4. 正文

向產業(yè)鏈精細化進軍:AI該如何深挖訓練數據價值?

 2021-09-29 09:11  來源:A5專欄  我來投稿 撤稿糾錯

  域名預訂/競價,好“米”不錯過

文|智能相對論

作者|葉遠風

AI算法工程師像普通用戶在搜索引擎上搜索信息一樣,將數據標注結果的標簽(例如,車輛、樹木)輸入到互動窗口,所有與之有關的AI數據“元信息”就被篩選出來,隨后,工程師用新的方式將這些數據重新“打包”構建起一個新的場景庫,導入到AI模型的訓練過程當中,一次針對特定場景的迭代訓練就這樣開始了。

如果工程師需要,還可以根據最初采集數據的傳感器,或諸多其他區(qū)分數據的屬性來精確定位數據。

這是某自動駕駛AI開發(fā)企業(yè)里的一次專注于特定場景AI模型訓練的工作日常,看起來再正常不過,而在這之前,這家企業(yè)長期面臨在龐大冗雜的訓練數據庫里難以篩選有價值數據進行特定場景模型訓練的尷尬問題,“守著金山挖不動”。

問題的解決,是從采用了專門針對“AI數據集”的管理系統(tǒng)開始的——這個AI企業(yè)工作切面的背后,反映的是AI“產業(yè)鏈條”上值得關注的變化。

AI場景化落地正隨著數字經濟的全面滲透而進入提速階段,算法、算力和數據共同構成技術發(fā)展的三大核心要素,打通這三大環(huán)節(jié)才能讓一個個AI應用真正落地到具體場景里產生價值。由此,在走向最終的產業(yè)應用之前,“生產”AI應用的“產業(yè)鏈條”上也蘊含了無數的商業(yè)機會。

但是,在數據層面,過去多數人最關心的只有喂養(yǎng)AI模型的“量”夠不夠用、數據的“質”夠不夠精準,而現在,數據這個AI“產業(yè)鏈條”的重要環(huán)節(jié)還在進一步細化,專業(yè)的AI數據集管理——Al數據集的上傳、管理、存儲、分享,正展示出推動高質量AI應用落地的價值,例如不久前的2021服貿會上,原本以高質量AI訓練數據服務見長于業(yè)內的云測數據,就在其云測數據標注平臺基礎上發(fā)布了AI數據集管理系統(tǒng),要為企業(yè)提供專業(yè)的AI數據集管理服務。

而這個賽道上不只有云測數據,多種主體參與的產業(yè)現象正在這里形成,也帶來當下人工智能領域重要的創(chuàng)新機遇。

按下葫蘆浮起瓢,AI數據集管理挑戰(zhàn)顯現

誠然,隨著算法模型、技術理論和應用場景的不斷突破,加之“新基建”浪潮下算力基礎設施的快速建設,AI產業(yè)對數據“量”的需求在不斷增長,數據量“短缺”一度成為AI產業(yè)鏈條上的瓶頸問題。

但是,這可能并不會持續(xù)很長時間,嗅到機會的科技巨頭、創(chuàng)新企業(yè)前些年在數據采集與標注上廣泛布局,推動合格數據的“量”快速增長,這也使得數據標注行業(yè)作為AI上游基礎產業(yè)在短短數年間實現了爆發(fā)式發(fā)展。

有數據顯示,2019年、2020年,數據標注行業(yè)市場規(guī)模為30.9億元、36億元左右,年均復合增長率20%左右,預計到2025年,國內數據標注市場規(guī)模將突破100億元大關。

這背后,根據AI數據標注猿統(tǒng)計數據,2020年4月,國內數據標注業(yè)務相關公司數量為565家,2020年12月,數量增長至705家,2020年4月份到12月份的相關數據標注需求公司增量為24.78%,約20萬全職從業(yè)者與約100萬兼職從業(yè)者,正在讓AI產業(yè)走出數據荒。

當然,AI數據也不僅僅來源于數據標注,互聯網科技的快速發(fā)展也在助推中國數據“供給量”的總體提升,在IDC的報告中,中國的數據量增速比全球快3%,預計到2025年將增至48.6ZB,占全球總量的27.8%,年復合增長率達30.35%。

但是,量的問題一定程度上解決后,新的問題又冒了出來——如何更高效地利用數據,發(fā)揮數據的價值。其重要背景,是AI應用的開發(fā)方式發(fā)生了從項目制到敏捷開發(fā)的重要轉變:

過去AI模型訓練以一個個項目為主,做完項目、得出一個預期質量的AI模型后,使用過的數據便被“丟棄”;而現在,企業(yè)傾向于持續(xù)把過去已有的數據利用起來,逐步形成屬于企業(yè)的數據池子,將數據在多個相關模型開發(fā)中進行重復利用。

這就導致單個企業(yè)所積累的數據量越來越多,而眾所周知數據量的增長又以非結構化數據為主,企業(yè)所面臨的AI數據集管理的挑戰(zhàn)越來越明顯,例如,數據量太大,針對特殊的場景缺乏精準的方式去找到有價值的數據;原本數據管理凌亂,本地服務器存一點、云端有一點,版本更新不同步,甚至出現一個Excel表格管理數據的現象;數據隨意拷貝、傳輸,存在重大的資產損失風險等等。

顯而易見,這時候,能夠幫助企業(yè)管理好AI數據,就成了重要的創(chuàng)新機遇。

到目前為止,有三類不同背景的玩家在加入賽道:

一是原本就向企業(yè)提供數據采集與標注服務的廠商,例如開篇提到的云測數據,這類企業(yè)入局,是AI“產業(yè)鏈條”自然延伸的結果。

從行業(yè)地位看,在《互聯網周刊》&eNet研究院、德本咨詢聯合發(fā)布的《2021數據標注公司排行》中,云測數據憑借最高99.99%精準度數據標注能力和場景化訓練數據方案等,再次排在“數據標注公司排行”榜首位置,其云測數據標注平臺4.0能夠實現AI數據訓練綜合效率提升200%。

但是,越是如此,云測數據這樣的平臺就越繞不過企業(yè)AI數據管理的問題——如果只是提供數據、幫助訓練效率提升,而不推動企業(yè)“搞定”數據管理,隨著企業(yè)面臨數據管理的挑戰(zhàn),其商業(yè)模式越往下走就越會越到障礙,這時候,就只能在已有的技術和服務經驗積累的基礎之上拓展AI產業(yè)鏈條細化環(huán)節(jié),推出專門的針對AI數據集管理的技術系統(tǒng)——也順勢成為國內首個該領域的系統(tǒng)。

可以說,云測數據推出AI數據集管理系統(tǒng),既是基于人工智能行業(yè)前瞻性發(fā)展的具象化技術產品體現,為企業(yè)尋找新的發(fā)展空間,也是AI產業(yè)鏈條閉環(huán)的一種倒逼。

其優(yōu)勢在于,作為原來的AI訓練數據服務商,借助AI數據集管理系統(tǒng),可以以“全生命周期關注”的姿態(tài)走進需求企業(yè),推動企業(yè)從最開始的數據獲取到最終的產業(yè)落地全周期效率提升,幫助客戶企業(yè)整體化思考,也契合AI發(fā)展告別項目制走向敏捷開發(fā)的趨勢。而作為原本AI訓練數據服務領域的領導者,云測數據的智能駕駛、智慧城市、智能家居、智慧金融、新零售等眾多垂直領域的數據服務技術與經驗可以很好地橫移到AI數據集管理當中,在數據檢索、數據呈現、數據安全保障等方面有垂直化的經驗壁壘。

二是互聯網、科技領域的大廠,它們都具備云計算方面的數據管理基礎稟賦,其入局,是從數據管理大賽道延展到AI數據集管理小賽道的客觀結果。

較為典型的是IBM,面向中國市場提供混合數據管理系統(tǒng),“利用數據管理驅動AI”是官方宣稱的重要價值之一,例如其IBM Cloud Pak for Data,產品功能是幫助企業(yè)收集、組織和分析數據,“以實現有影響力的AI”,而其實現主要包括在容器化的環(huán)境中運行IBM Db2 Warehouse等——不需要知道這是什么,只要知道這些原本就用于云計算數據管理即可。

其他如從事數據標注的百度、阿里等,其云計算中都或多或少包含AI數據集管理的能力,只不過并非專門的系統(tǒng),這類企業(yè)的優(yōu)勢在于,原本的數據管理往往會積累一定的基礎客戶量,在品牌上也有大廠背書。

三是“白手起家”,直接切入賽道的創(chuàng)新企業(yè),這類企業(yè)以尋找商業(yè)機會為直接目標。

例如來自上海的格物鈦,主要提供面向機器學習的數據管理SaaS產品,支持企業(yè)進行海量數據托管,宣稱要提供“人工智能基礎設施”,該企業(yè)目前得到了紅杉、云啟、真格以及風和資本的千萬美金Pre-A輪融資,這從側面反映了AI數據集管理的價值潛力。

這類企業(yè)的優(yōu)勢在于輕裝上陣,在資本的青睞和支撐下似乎可以把產品做得更精細化,當然,它們的出現,也意味著后續(xù)將有更多過去與AI數據集沒有“淵源”的創(chuàng)新企業(yè)加入,這個賽道會越來越熱鬧。

標準化的四個維度,AI數據集管理挖掘AI產業(yè)鏈細化環(huán)節(jié)的創(chuàng)新價值

從具體做法來看,不管什么來路,做AI數據集管理,無非都包括標準化的四個維度,只不過實現方式各不相同。

首先,是便捷的數據檢索和利用。

量大且非標準化,池子還在不斷擴大,于是方便的檢索和利用就成為AI數據集管理的核心任務。

這方面,IBM使用了開放式平臺上的自動容器化功能,通過架構優(yōu)勢來讓數據收集和管理變得更加簡單智能,易于訪問;而云測數據等企業(yè)都采用的是清晰化的標簽與屬性體系讓工程師可以快速找到想要的數據。

值得一提的是,云測數據的AI數據集管理系統(tǒng)還適配了多數的公開、開源數據集格式,這使得企業(yè)無論是從外部獲得數據(這種情況十分普遍)還是自己花錢采集與標注得到的數據,都能得到統(tǒng)一的管理。

此外,數據的“可讀性”也是衡量AI數據集管理系統(tǒng)能力的關鍵指標,在數據篩選出來后還能將數據還原,能有效幫助AI開發(fā)過程實現精細化(圖:云測數據-AI數據集管理系統(tǒng)數據可視化界面):

2.webp.jpg

一方面,這類可視化功能可以幫助AI開發(fā)工程師直接查看數據最開始的狀況,更容易理解數據;另一方面,如果工程師有新的數據需求,也可以通過可視化的方式進行精確化的數據調校。

然后,是日常管理和使用的便捷性、安全性。

本質上,AI數據集管理是企業(yè)AI開發(fā)工作流程在信息化方面的一種體現,作為重要的工作對象和企業(yè)資產,企業(yè)層面的流程規(guī)范必須在AI數據集管理系統(tǒng)中得到遵守。

所以,可以看到,格物鈦在系統(tǒng)中做到了數據的查看、編輯、使用和管理權限分離,來保障數據的訪問安全;而云測數據則強調多團隊協(xié)作與數據資產化管理同步進行,提供多團隊數據使用權限分配、存儲空間限定、使用日志記錄等功能,企業(yè)可以根據實際需要靈活配置權限,這種做法能保證數據版本、工作協(xié)同的效率,且“數據失竊”、“刪庫跑路”等資產損失事件將最大程度規(guī)避。

再有,是對企業(yè)自主擴展的支持。

一般而言,AI數據集管理都是與企業(yè)AI開發(fā)全流程緊密融合的,企業(yè)往往要將這套系統(tǒng)進行擴展以更好地滿足上下游業(yè)務需求,而由于不同行業(yè)、企業(yè)的情況各不相同,服務廠商不太可能提供一個能夠支持所有企業(yè)都將AI數據集管理系統(tǒng)與企業(yè)上下游業(yè)務實際相融合的標品方案。

這時候,將系統(tǒng)做得很有擴展性,盡可能基礎化、通用化,并支持企業(yè)自主開發(fā)擴展就變得很重要,可以看到,云測數據提供了有Python SDK、CLI和API等開發(fā)工具,讓企業(yè)可以根據業(yè)務需要,持續(xù)集成數據輸入、輸出訓練、數據迭代等業(yè)務場景。

最后,是部署成本的節(jié)約。

這是很多企業(yè)選擇AI數據集管理系統(tǒng)的重要決策依據。

由于公有云、私有云的發(fā)展,這方面的邏輯已經變得比較簡單,越是彈性化、包容性強的方案,越可能實現恰當的成本支出,典型如云測數據就十分強調其“靈活易擴展的混合存儲支持”的特性,支持根據數據安全級別、使用頻率、使用方式等對數據集分級管理,讓企業(yè)可以“在安全和經濟上靈活選擇”。

總體而言,AI數據集管理系統(tǒng)需要照顧的企業(yè)需求已經固定,剩下的是入局的玩家如何根據自身優(yōu)勢各顯神通、挖掘更深度的商業(yè)價值了。

結語

服貿會上,云測數據在推出其AI數據集管理系統(tǒng)時,特地強調了“采、標、管、存一站式服務”,回過頭來看,這固然是個體廠商在強調自身的獨特優(yōu)勢,但從行業(yè)角度而言,也某種程度上說明了AI數據集管理的最根本意義是讓AI在最終落地前形成標準化的產業(yè)鏈條,所謂AI應用的“工業(yè)化大生產”能夠從最初的“原料”到最后的“成品”實現全鏈條打通,而這,通常是一個行業(yè)走向成熟的重要標志。

一旦“產業(yè)鏈條”走向完善,AI訓練數據將不只有在采集標注時精確度提升,其價值也將得到充分挖掘??傮w來看,AI應用開發(fā)的質量、效率都將得到提升,而最終成本將會下降,所謂的“提質、增效、降本”三位一體的企業(yè)理想或也將最終得以實現。

*本文圖片均來源于網絡

深挖智能這口井,同好添加vx:zenghy2017

此內容為【智能相對論】原創(chuàng),

僅代表個人觀點,未經授權,任何人不得以任何方式使用,包括轉載、摘編、復制或建立鏡像。

部分圖片來自網絡,且未核實版權歸屬,不作為商業(yè)用途,如有侵犯,請作者與我們聯系。

智能相對論(微信ID:aixdlun):

•AI產業(yè)新媒體;

•今日頭條青云計劃獲獎者TOP10;

•澎湃新聞科技榜單月度top5;

•文章長期“霸占”鈦媒體熱門文章排行榜TOP10;

•著有《人工智能 十萬個為什么》

•【重點關注領域】智能家電(含白電、黑電、智能手機、無人機等AIoT設備)、智能駕駛、AI+醫(yī)療、機器人、物聯網、AI+金融、AI+教育、AR/VR、云計算、開發(fā)者以及背后的芯片、算法等。

申請創(chuàng)業(yè)報道,分享創(chuàng)業(yè)好點子。點擊此處,共同探討創(chuàng)業(yè)新機遇!

相關標簽
ai技術

相關文章

  • 匯聚中國AI頂尖力量 云天勵飛參與華為AI大模型聯合創(chuàng)新

    2023年7月6日,第六屆世界人工智能大會(WAIC2023)在上海開幕,“人工智能大模型”是本屆大會的備受矚目的話題,據悉,在昇騰AI大模型的創(chuàng)新研發(fā)中,華為聯手26家行業(yè)領軍企業(yè),組建了一支協(xié)同創(chuàng)新的“AI明星隊”,云天勵飛作為中國人工智能企業(yè)的杰出代表,和互聯網大廠、運營商、科研院所等優(yōu)秀團隊

    標簽:
    ai技術
  • 用友大易:邁入AI招聘2.0時代,讓人力資源回歸本質

    這幾個月來,以ChatGPT為代表的生成式AI展現出的能力令世界驚嘆。自從2016年AlphaGo戰(zhàn)勝李世石掀起了一波AI浪潮后,AI仿佛已經沉寂了很久,ChatGPT的橫空出世就如同一束耀眼的光芒,讓AI這個名詞重回C位。過去在AI1.0時代,主要通過訓練模型來實現圖像識別、聲音識別、語言處理等特

    標簽:
    ai技術
  • 新發(fā)布的PaaS2.0,能否助力涂鴉智能再起飛?

    文:互聯網江湖作者:志剛2023年的IoT需要一個新故事。6月29日,涂鴉智能在開發(fā)者大會上,發(fā)布了企業(yè)級戰(zhàn)略PaaS2.0,希望通過一個平臺+四大開發(fā)服務,建立起IoT生態(tài)。對于這場發(fā)布會,市場的態(tài)度是積極的。美東時間6月29日收盤,涂鴉智能美股股價上漲5.6%,來到1.87美元/股。近日股價穩(wěn)定

    標簽:
    ai技術
  • 大模型難掩AI制藥的悲傷:越過山丘,無人等候

    美團曾經的二號人物王慧文對標OpenAI的創(chuàng)業(yè)項目光年之外,以20億賣給美團,再度引發(fā)市場對大模型的熱議。

    標簽:
    ai技術
  • 拾起王慧文的AI夢,美團沖向“光年之外”?

    2020年底,王慧文在朋友圈寫下這句話時,外界本以為這位伴隨中國互聯網發(fā)展而持續(xù)創(chuàng)業(yè)20年的人物即將告別創(chuàng)業(yè)舞臺。但是,一個曾經多次創(chuàng)業(yè),正值壯年的互聯網老將心中的創(chuàng)業(yè)熱情是難以熄滅的。

    標簽:
    ai技術
  • “創(chuàng)造市場”與“算法進化”,中美AI競速的岔路口

    “人工智能的商業(yè)模式,是要創(chuàng)造一個市場,而非一個算法”。這是世界AI泰斗MichaelI.Jordan的觀點。而當前的全球AI市場,占據主導地位的中美雙方,卻也走出了兩條截然不同的技術路徑,前者執(zhí)著于前沿技術的探索,后者則發(fā)力應用優(yōu)化和商業(yè)化落地。南轅北轍的兩個方向,或許已經無法直接進行排位先后、優(yōu)

    標簽:
    ai智能
  • 智能體進化發(fā)展了一年,現在的RPA Agent迭代到什么程度了?

    智能體進化發(fā)展了一年,現在的RPAAgent迭代到什么程度了?從實在智能最新發(fā)布的實在Agent7.0,看RPAAgent的迭代升級抓取豆瓣信息、自己制作PPT,這款AIAgent真的實現了流程全自動化AIAgent構建到執(zhí)行全自動化,持續(xù)進化RPAAgent再次降低智能體應用門檻實在智能重磅發(fā)布實

  • 崔大寶:大模型降溫背后的難點、卡點、節(jié)點

    崔大寶|節(jié)點財經創(chuàng)始人進入2024年,大模型似乎有熄火之勢:資本市場,與之關聯的概念炒不動了,英偉達股價動輒暴跌重挫,引發(fā)“泡沫戳破”的擔憂;消費市場,BATH們的推新活動少了,產品更新迭代的速度慢了,民眾的關注度降了……熱鬧的大概只剩下兩場酣仗:自5月15日字節(jié)跳動宣布“以厘計費”,打響國內大模型

    標簽:
    大模型
  • 這一屆“出道”的數字人,已經拿捧上了“鐵飯碗”

    文|智能相對論作者|陳泊丞好消息!你心心念念的事業(yè)單位發(fā)錄取公告了!壞消息!他們沒錄你,錄了個數字人。圖片來源網絡隨著數字人技術的突破,越來越多的傳統(tǒng)企業(yè)和機構開始用上了“數字員工”。甚至很多中國人心心念念的“鐵飯碗”,也被這些數字人給捧上了。數字人捧上了“鐵飯碗”簡單翻看一下全國各地事業(yè)單位的“錄

    標簽:
    數字人
  • 來到IPO關口,地平線離“三分天下”還有多遠?

    黑芝麻智能敲鐘后,港交所門口又有一些智駕芯片企業(yè)引發(fā)關注。據悉,近日地平線已通過中國證監(jiān)會IPO備案,擬發(fā)行不超過11.5億股境外上市普通股并在香港聯合交易所上市,預計籌集約5億美元資金。從天眼查可以了解到,該公司成立于2015年,是一家乘用車高級輔助駕駛(ADAS)和高階自動駕駛(AD)解決方案供

  • 機器人大會引領產業(yè)動向,卓翼飛思繪制無人系統(tǒng)教科研新藍圖

    8月21日,萬眾矚目的2024世界機器人大會暨博覽會在北京亦創(chuàng)國際會展中心盛大開幕。這場為期5天,集“展覽”“論壇”“賽事”于一體的機器人盛會,反映了當下機器人領域的繁榮生態(tài)。據官方統(tǒng)計數據,今年現場逛展觀眾高達25萬人次,比去年增加25%。機器人行業(yè)有多火?看看2024世界機器人大會火爆程度便可知

  • 卓翼智能:超大載重高烈度環(huán)境特種智能系留無人平臺的應用與未來

    瞄準場景需求,打造國內領先的自主可控、高質量超大載重高烈度環(huán)境特種智能系留無人平臺。卓翼智能亮相HICOOL峰會以科技實力榮摘創(chuàng)業(yè)大賽一等獎這個比賽5年培育出16家“獨角獸”HICOOL2024全球創(chuàng)業(yè)者峰會暨創(chuàng)業(yè)大賽已于8月25日在北京圓滿落下帷幕,大賽共吸引了124個國家和地區(qū)的7406個創(chuàng)業(yè)項

  • 60萬獎金召喚AI創(chuàng)新者,2024無錫國際人工智能創(chuàng)新應用大賽火熱進行中!

    人工智能是新一輪科技革命和產業(yè)變革的重要驅動力量。無錫市作為中國的科技創(chuàng)新中心之一,正通過構建人工智能"算力+算法+數據"三要素齊備的產業(yè)生態(tài),為產業(yè)技術創(chuàng)新應用提供強大支撐,通過“AI+”行動推動人工智能與多個產業(yè)交叉融合,實現技術落地和產業(yè)化,加速形成新質生產力,打造具有國際競爭力的產業(yè)創(chuàng)新智造

  • “云+AI”驅動操作系統(tǒng)創(chuàng)新升級,龍蜥堅持可持續(xù)發(fā)展路線

    近日,2024龍蜥操作系統(tǒng)大會(OpenAnolisConference)在北京圓滿召開,此次大會由中國計算機學會開源發(fā)展委員會、中關村科學城委員會、海淀區(qū)委網信辦、中國開源軟件推進聯盟指導,龍蜥社區(qū)主辦,阿里云、浪潮信息、Intel、中興通訊、Arm、中科方德等24家理事單位共同承辦,主題為“進化

編輯推薦