域名預(yù)訂/競(jìng)價(jià),好“米”不錯(cuò)過(guò)
中美貿(mào)易戰(zhàn)愈演愈烈,歸根結(jié)底是美國(guó)對(duì)我們遏制和我們謀求持續(xù)發(fā)展之戰(zhàn)。美國(guó)幾次三番針對(duì)我國(guó)的科技公司,為我們敲響了警鐘,科技自強(qiáng)是硬道理。
我國(guó)雖然鮮有頂尖級(jí)的系統(tǒng)軟件商業(yè)公司,但我們?cè)诳萍碱I(lǐng)域并不缺少世界頂尖人才和成果。以清華大學(xué)朱曉偉博士為例,他在讀期間專注于圖計(jì)算領(lǐng)域,研發(fā)的Gemini分布式圖計(jì)算系統(tǒng),處理速度超出學(xué)術(shù)界最快系統(tǒng)10倍(通常性能超出40%~50%已經(jīng)是很好的優(yōu)化,超出2倍就很夸張了,超出10倍,可想而知學(xué)術(shù)界的震驚情況),朱曉偉博士在2016年投稿USENIX ATC會(huì)議時(shí),因其中一位評(píng)審專家不相信能達(dá)到這樣的性能而被拒絕入選,用該專家話說(shuō),“too good to be true”。無(wú)奈,朱曉偉博士只得補(bǔ)充了一些其他系統(tǒng)性能不足的原因分析,并附上源碼接受挑戰(zhàn),因禍得福,論文最終入選USENIX主辦的OSDI(Operating Systems Design and Implementation,OS領(lǐng)域最好的會(huì)議之一),這也是我國(guó)第一次有高校主導(dǎo)的學(xué)術(shù)研究入選OSDI,如今該論文已經(jīng)作為圖數(shù)據(jù)領(lǐng)域的標(biāo)桿被引用多達(dá)上百次。
系統(tǒng)軟件的成熟需要長(zhǎng)期的投入和積累,很難像互聯(lián)網(wǎng)產(chǎn)業(yè)那樣從一個(gè)商業(yè)模式快速迭代成一個(gè)TOP級(jí)的商業(yè)公司。一款成熟的系統(tǒng)軟件需要兩個(gè)必要的條件:優(yōu)秀的人才和持續(xù)的積累。這些人才和積累,就是商業(yè)公司的壁壘。人才方面,頂尖的系統(tǒng)軟件人才,在實(shí)習(xí)期,甚至在優(yōu)秀論文發(fā)表進(jìn)入學(xué)術(shù)界視野的時(shí)候,往往就已經(jīng)被國(guó)外的技術(shù)公司“盯上了”;即便是留在國(guó)內(nèi)公司,也會(huì)很分散的進(jìn)入BAT(百度阿里騰訊)、TMD(頭條美團(tuán)滴滴)等企業(yè)作為項(xiàng)目負(fù)責(zé)人率隊(duì)解決實(shí)用的難題或者去復(fù)刻國(guó)外系統(tǒng),很難集中一批優(yōu)秀的人才專注在某一領(lǐng)域持續(xù)創(chuàng)新研究。畢竟把幾個(gè)頂尖人才放在一個(gè)項(xiàng)目里是極其奢侈的,從人力成本的角度考慮,即便大廠也不愿意做。人才的分散,使得技術(shù)積累變得更加困難,而高校積累的、曾經(jīng)閃閃發(fā)光的那些研究成果,隨著學(xué)生畢業(yè)進(jìn)入工作環(huán)境,也會(huì)因?yàn)槿鄙倬S護(hù)而擱淺,被埋沒(méi)或遺忘。
朱曉偉博士在畢業(yè)前同樣面臨著同樣的困惑:Gemini系統(tǒng)即將被束之高閣么?這么多年的學(xué)習(xí)和研究,很可能就要作為基石,被其他國(guó)家的科學(xué)家進(jìn)一步研發(fā)、商用、構(gòu)建新的壁壘。“不甘心”這幾個(gè)字在他心里生根發(fā)芽。
清華頂尖博士團(tuán)隊(duì) 變革系統(tǒng)軟件的科技格局
圖數(shù)據(jù)很多人不太了解,這里簡(jiǎn)單的普及一下。圖是將信息中的實(shí)體,以及實(shí)體之間的關(guān)系,分別抽象表達(dá)成為頂點(diǎn)以及頂點(diǎn)間的邊這樣的結(jié)構(gòu)數(shù)據(jù)。圖計(jì)算系統(tǒng)就是針對(duì)圖數(shù)據(jù)處理的系統(tǒng),它在圖結(jié)構(gòu)的數(shù)據(jù)上進(jìn)行針對(duì)性優(yōu)化的高效計(jì)算,尤其適合大規(guī)模的關(guān)聯(lián)關(guān)系分析。相比傳統(tǒng)的關(guān)系型數(shù)據(jù)(以O(shè)racle為代表),圖的邏輯可以很好的解決目前遇到的關(guān)聯(lián)數(shù)據(jù)分析問(wèn)題,如繪制用戶社交關(guān)系圖譜做社交影響力排名、好友推薦;通過(guò)繪制資金交易圖譜做大數(shù)據(jù)征信、反欺詐等應(yīng)用;構(gòu)建設(shè)備關(guān)系網(wǎng)絡(luò)圖譜實(shí)現(xiàn)物聯(lián)網(wǎng)建模分析、供電網(wǎng)絡(luò)建模分析等等。
該領(lǐng)域,國(guó)內(nèi)最先進(jìn)的團(tuán)隊(duì)是由陳文光教授帶領(lǐng)的清華團(tuán)隊(duì),他們十年前就關(guān)注到了圖數(shù)據(jù)技術(shù),歷任學(xué)子均參與過(guò)圖數(shù)據(jù)的研究,并在OSDI、EuroSys、ATC等頂級(jí)會(huì)議中發(fā)表了多篇相關(guān)論文,他們編寫(xiě)的圖計(jì)算系統(tǒng)比學(xué)術(shù)界最快水平快了10多倍,比常見(jiàn)工具快了100多倍。
作為我國(guó)計(jì)算機(jī)領(lǐng)域“產(chǎn)”、“學(xué)”、“研”、“用”的第一人,陳老師自然是敏銳的捕捉到了圖數(shù)據(jù)的大有可為:隨著AI如火如荼的發(fā)展,圖數(shù)據(jù)作為底層數(shù)據(jù)存儲(chǔ)分析技術(shù),可以幫助機(jī)器學(xué)習(xí)領(lǐng)域獲取更多維度的信息,在打破性能的約束后,可以說(shuō)圖計(jì)算是下一代AI發(fā)展的推速器。既然已經(jīng)有了超前的學(xué)術(shù)成果,為什么我們不將其落地,進(jìn)入尋常企業(yè)中?陳老師的提議很快得到了一眾博士學(xué)霸們的響應(yīng),做商用系統(tǒng)軟件很苦,但是很值得,為的是讓性能瓶頸不在成為分析的障礙,也為了中國(guó)系統(tǒng)軟件揚(yáng)眉吐氣的機(jī)會(huì) 。
組件團(tuán)隊(duì)時(shí),陳教授第一個(gè)想到的門(mén)生,是已經(jīng)博士畢業(yè)多年,編寫(xiě)了世界上第一個(gè)開(kāi)源分布式C++圖計(jì)算系統(tǒng),在微軟亞洲研究院負(fù)責(zé)微軟下一代大數(shù)據(jù)系統(tǒng)平臺(tái)和分布式機(jī)器學(xué)習(xí)平臺(tái)的洪春濤博士,MXNET早期原型設(shè)計(jì)正是在洪春濤博士的幫助下完成的。在微軟研究院率隊(duì)研發(fā)的經(jīng)歷,使得洪春濤博士既有成熟商業(yè)軟件開(kāi)發(fā)的經(jīng)驗(yàn),同時(shí)具備協(xié)作管理的閱歷和協(xié)同開(kāi)發(fā)的節(jié)奏把控力。加之對(duì)圖計(jì)算的敏銳度,是擔(dān)綱團(tuán)隊(duì)領(lǐng)袖的最佳人選。而洪春濤博士也早有做一番事業(yè)的想法,可以說(shuō)是一拍即合。
朱曉偉博士自不必說(shuō),一路頂著保送清華、碩博連讀、國(guó)家級(jí)獎(jiǎng)學(xué)金、西貝爾學(xué)者、被國(guó)際一流期刊重點(diǎn)關(guān)注、斬獲AMC一等獎(jiǎng)等眾多科技獎(jiǎng)項(xiàng)的學(xué)者,比起去大廠帶團(tuán)隊(duì)拿高薪,能讓研究成果學(xué)以致用比什么都重要。
除了曉偉博士這樣的“性能怪獸”,另一位“重量級(jí)”選手——應(yīng)該是重“量級(jí)”選手——林恒博士的加入,更讓陳老師覺(jué)得“穩(wěn)了”。林恒博士是“神威·太湖之光”Graph500作者。“太湖之光”是我國(guó)連續(xù)兩年四屆取得Top500排名世界第一的高性能計(jì)算機(jī),也是唯一一臺(tái)采用自主研發(fā)的國(guó)產(chǎn)處理器的TOP ONE系統(tǒng)。林恒博士主導(dǎo)了該系統(tǒng)Graph500評(píng)選并獲得世界排名第二,填補(bǔ)了國(guó)產(chǎn)高性能系統(tǒng)在數(shù)據(jù)分析領(lǐng)域獎(jiǎng)項(xiàng)的空白。同時(shí)基于“太湖之光”研發(fā)的“神圖”系統(tǒng)是世界上規(guī)模最大的圖計(jì)算系統(tǒng),入選了2018年“戈登·貝爾”獎(jiǎng)決賽,也是中國(guó)唯一入圍該獎(jiǎng)項(xiàng)的項(xiàng)目。
速度、體量兼有之,陳老師覺(jué)得還不夠,因此又挖來(lái)了GPU加速、機(jī)器學(xué)習(xí)領(lǐng)域?qū)<依類鹜┦?,也是團(tuán)隊(duì)的另一位西貝爾學(xué)者、奧賽金牌獲得者,曾率隊(duì)連獲世界三大超級(jí)計(jì)算機(jī)比賽(ASC、SC、ISC)的總冠軍,在清華計(jì)算機(jī)系素有“小神童”之稱。
至此,由冠軍們組成的團(tuán)隊(duì)就成型了,幾位創(chuàng)始人每個(gè)都是以一敵百,技術(shù)公司搶破頭的精英,放棄了高薪、大廠、帶團(tuán)隊(duì)的機(jī)會(huì),被陳老師“一鍋端”了,這樣的頂尖陣容,放眼世界也找不到第二個(gè)。 “下一代的 AI 可能就踩在我們的肩上了 ”懷揣著改變科技格局的夢(mèng)想,著手圖數(shù)據(jù)落地的項(xiàng)目啟動(dòng)了。
快如電光的“費(fèi)馬”
說(shuō)是項(xiàng)目啟動(dòng),其實(shí)幾位創(chuàng)始成員延續(xù)著此前在組里的默契和協(xié)作,跟博士在讀期間的工作沒(méi)有太大的區(qū)別。唯一的不同,就是商業(yè)應(yīng)用不同于實(shí)驗(yàn)室中固定的環(huán)境和場(chǎng)景測(cè)試,需要顧及系統(tǒng)的方方面面,為了系統(tǒng)的高可用性、易用性、可移植性等應(yīng)用場(chǎng)景中必不可少的部分,團(tuán)隊(duì)重構(gòu)了圖數(shù)據(jù)系統(tǒng),優(yōu)化了系統(tǒng)可用性,內(nèi)置了大量的算法,封裝接口等等,支持豐富的接口和調(diào)用語(yǔ)言,并提供數(shù)據(jù)快速導(dǎo)入導(dǎo)出、可視化等外圍工具,便于管理和使用,使其更適應(yīng)商業(yè)應(yīng)用場(chǎng)景。
把世界上TOP級(jí)的聰明人聚在一起,自然效率奇高。系統(tǒng)重構(gòu)僅用了三個(gè)月的時(shí)間,還是在洪春濤博士的嚴(yán)格要求下所用的時(shí)間。學(xué)霸之所以是學(xué)霸,不僅是靠天分,同時(shí)也靠好習(xí)慣。一直以來(lái),洪春濤博士的每段代碼,都會(huì)寫(xiě)兩遍,第一遍目的是實(shí)現(xiàn)功能、跑通程序,第二遍是更合理更簡(jiǎn)潔更完美的實(shí)現(xiàn),“對(duì)于程序員來(lái)說(shuō),2.0版本總是最好的,所以我會(huì)一次就做2.0”。作為團(tuán)隊(duì)核心,洪春濤博士即是CEO也是大家的學(xué)長(zhǎng),這一習(xí)慣被他帶到了團(tuán)隊(duì)里,后面無(wú)論項(xiàng)目多緊張,這一習(xí)慣也不會(huì)打破。因此,在微軟6年率隊(duì)開(kāi)發(fā)大規(guī)模復(fù)雜系統(tǒng)經(jīng)驗(yàn)的加持下,洪春濤博士帶領(lǐng)團(tuán)隊(duì)高質(zhì)量的完成了系統(tǒng)重構(gòu)。
產(chǎn)品成熟了,隨之而來(lái)終于迎來(lái)了一個(gè)大家有分歧的問(wèn)題:起名字。
起名這件事,可能比代碼重構(gòu)更燒腦,為此團(tuán)隊(duì)展開(kāi)了激烈的討論,最終學(xué)霸們?yōu)轫?xiàng)目起了個(gè)速度為王的名字:F=ma(費(fèi)馬)。F=ma是牛頓第二定律,意為“加速”;同時(shí)FMA也是計(jì)算機(jī)的乘加指令(比快更快),中文名字致敬了數(shù)學(xué)家皮埃爾.德.費(fèi)馬。從此快如電光的LightGraph和PandaGraph有了更快的名字“費(fèi)馬”。
性能快百倍,內(nèi)存消耗少十倍的 “閃電計(jì)算”
圖數(shù)據(jù)的數(shù)據(jù)邏輯維度要遠(yuǎn)高于關(guān)系型數(shù)據(jù),以社交場(chǎng)景為例,以往我們分析微博大V的權(quán)重,通常會(huì)按其粉絲數(shù)量來(lái)排名;而圖數(shù)據(jù)不僅關(guān)注粉絲數(shù)量,同時(shí)關(guān)注粉絲質(zhì)量,大V的粉絲是僵尸粉還是活躍粉,是小白還是同為大V,互動(dòng)是否頻繁等等維度數(shù)據(jù)在圖數(shù)據(jù)中年清晰可尋。因此,圖數(shù)據(jù)分析遠(yuǎn)超出二維的分析維度,每增加一層,分析的難度就高了百倍,分析的難度差距是巨大的。數(shù)據(jù)分析維度和數(shù)據(jù)量的增長(zhǎng)對(duì)系統(tǒng)性能提出了更高的要求,如果性能不足,想要的分析也是難以實(shí)現(xiàn)的。
不同于以往科技公司“復(fù)刻”國(guó)外成熟產(chǎn)品和模式的套路,費(fèi)馬冠軍團(tuán)隊(duì)只做性能最佳。那么對(duì)比國(guó)外成熟的圖數(shù)據(jù)平臺(tái),費(fèi)馬憑什么能性能快百倍,內(nèi)存消耗少十倍?
費(fèi)馬CEO洪春濤博士直言是“同類產(chǎn)品太差了”,在客戶的實(shí)際業(yè)務(wù)環(huán)境中,經(jīng)常會(huì)有上千倍的差距。
除了出自最嚴(yán)謹(jǐn)代碼作者這一重要因素以外,從架構(gòu)層到功能層,費(fèi)馬圖數(shù)據(jù)平臺(tái)進(jìn)行了層層優(yōu)化。在架構(gòu)層,費(fèi)馬團(tuán)隊(duì)選擇了更適合底層數(shù)據(jù)交互的C++語(yǔ)言,而不是主流的Java語(yǔ)言,雖然編寫(xiě)的復(fù)雜度高一些,但在應(yīng)用時(shí)能夠更靈活。舉個(gè)例子,當(dāng)圖數(shù)據(jù)庫(kù)從外存中讀取數(shù)據(jù)時(shí),有時(shí)需要利用操作系統(tǒng)的MMAP功能,而操作系統(tǒng)默認(rèn)會(huì)進(jìn)行預(yù)讀取。操作系統(tǒng)假設(shè)我們是連續(xù)讀取數(shù)據(jù)的,所以當(dāng)我們讀取一塊數(shù)據(jù)時(shí),它會(huì)幫我們把后面的數(shù)據(jù)也預(yù)先讀取進(jìn)來(lái)。但是在數(shù)據(jù)庫(kù)中,我們經(jīng)常是隨機(jī)訪問(wèn)的,因此這個(gè)預(yù)讀取功能會(huì)浪費(fèi)時(shí)間讀取沒(méi)有用的數(shù)據(jù)。對(duì)于C++來(lái)說(shuō),我們可以通過(guò)系統(tǒng)調(diào)用來(lái)關(guān)閉這一功能,而Java則沒(méi)有對(duì)應(yīng)的功能。類似的操作還有很多,C++語(yǔ)言對(duì)底層數(shù)據(jù)處理更友好。在費(fèi)馬團(tuán)隊(duì)看來(lái),選擇什么語(yǔ)言來(lái)編寫(xiě)取決于實(shí)用性而非編寫(xiě)者的偏好。
功能上,在存儲(chǔ)方面,費(fèi)馬支持多版本并發(fā),將讀寫(xiě)操作分開(kāi),寫(xiě)操作不影響讀操作的性能,不會(huì)因?yàn)轭l繁的讀寫(xiě)而降低性能;支持事務(wù)內(nèi)并行,多個(gè)線程可以在同一快照上執(zhí)行操作,從而加速長(zhǎng)事務(wù)分布式處理;采用無(wú)鎖數(shù)據(jù)結(jié)構(gòu),數(shù)據(jù)讀取操作不需要任何鎖操作,帶來(lái)極高的吞吐率;前綴壓縮,將相關(guān)數(shù)據(jù)存儲(chǔ)在連續(xù)的空間中,從而提高遍歷操作的效率,減少重復(fù)檢索操作等等。
在分析方面,費(fèi)馬支持分布式擴(kuò)展,能夠線性擴(kuò)展到分布式環(huán)境,正如閃電一樣延伸再延伸;雙模式驅(qū)動(dòng),圖數(shù)據(jù)訪問(wèn)支持推送和拉取兩種模式,并在運(yùn)行中自動(dòng)選擇更優(yōu)的模式,提高數(shù)據(jù)訪問(wèn)效率;采用連續(xù)數(shù)據(jù)塊劃分,在數(shù)據(jù)劃分時(shí),利用真實(shí)數(shù)據(jù)內(nèi)在的關(guān)聯(lián)性,將有關(guān)聯(lián)的數(shù)據(jù)劃分在一起,高質(zhì)量的劃分方法在分析時(shí)大有裨益;細(xì)粒度調(diào)度,將圖數(shù)據(jù)任務(wù)動(dòng)態(tài)映射到設(shè)備的CPU、核、線程等多個(gè)層級(jí),滿負(fù)荷利用計(jì)算資源。
種種優(yōu)化帶來(lái)了費(fèi)馬100倍性能增長(zhǎng)的“閃電計(jì)算”,計(jì)算力可以無(wú)限延伸,處理萬(wàn)億級(jí)的數(shù)據(jù)毫不費(fèi)力,用戶只需要基于費(fèi)馬平臺(tái),構(gòu)建應(yīng)用場(chǎng)景即可,處理速度電光即達(dá)。
目前,費(fèi)馬科技已為工商銀行、京東金融、民生銀行、搜狗搜索等大型金融、互聯(lián)網(wǎng)企業(yè)及政府、軍工類項(xiàng)目提供高性能可擴(kuò)展的圖數(shù)據(jù)平臺(tái),為企業(yè)存儲(chǔ)和分析大規(guī)模圖數(shù)據(jù)提供強(qiáng)有力的支持,同時(shí)費(fèi)馬團(tuán)隊(duì)在客戶實(shí)踐中經(jīng)常會(huì)幫助客戶額外優(yōu)化場(chǎng)景和算法,致力于最佳實(shí)踐。相信我國(guó)的頂尖級(jí)系統(tǒng)軟件商業(yè)公司正奔跑在路上,“科技是沒(méi)有疆界的,但是科學(xué)家有”,而費(fèi)馬科技目前要做的事情,就是*,盡快成長(zhǎng)為Oracle級(jí)別的系統(tǒng)軟件公司。我們也期待著更多頂尖成果落地商用,構(gòu)筑起我們科技的長(zhǎng)城。
申請(qǐng)創(chuàng)業(yè)報(bào)道,分享創(chuàng)業(yè)好點(diǎn)子。點(diǎn)擊此處,共同探討創(chuàng)業(yè)新機(jī)遇!