作者 | 丁園園
當(dāng)前,在全球企業(yè)“上云”浪潮熱度不減的背景下,企業(yè)紛紛將目光聚焦智能升級,衍生數(shù)據(jù)量因此面臨爆發(fā)式增長,對數(shù)據(jù)處理、人工智能等業(yè)務(wù)需求也日趨迫切。6月25日,記者與Mobvista匯量科技副總裁朱亞東基于匯量科技新一代“一站式云原生大數(shù)據(jù)AI平臺”EnginePlus進(jìn)行了一次深度交流。
EnginePlus作為一站式的云原生大數(shù)據(jù)人工智能平臺,可為客戶提供面向多種業(yè)務(wù)場景的實(shí)時數(shù)據(jù)湖框架StarLake、機(jī)器學(xué)習(xí)框架MindAlpha等自主研發(fā)的開源工具,能夠與Spark計(jì)算框架深度集成,從而賦能客戶實(shí)現(xiàn)更加高效便捷的數(shù)據(jù)智能升級。
朱亞東博士介紹到:“相比于其他的開源大數(shù)據(jù)計(jì)算框架和公司,EnginePlus平臺具有獨(dú)特的優(yōu)勢,主要在于一站式、云原生、以及超大規(guī)模等特點(diǎn)。”
EnginePlus:聚焦大數(shù)據(jù) + AI + 云原生的“三板斧”
云原生的數(shù)據(jù)分析架構(gòu),經(jīng)歷了從傳統(tǒng)數(shù)倉,到數(shù)據(jù)湖,再到湖倉一體的演進(jìn),對于湖倉一體的未來,朱亞東有著自己的看法:“湖倉一體的未來方向主要有兩個方面,一是統(tǒng)一數(shù)據(jù)存儲,二是計(jì)算引擎對湖倉一體的適配”。
匯量科技一直在進(jìn)行有關(guān)數(shù)據(jù)湖和湖倉一體的技術(shù)實(shí)踐。EnginePlus團(tuán)隊(duì)自研并開源的數(shù)據(jù)湖框架StarLake,便能夠?qū)崿F(xiàn)大規(guī)模數(shù)據(jù)的實(shí)時攝入和更新,高效構(gòu)建湖倉一體化分析平臺。
除了數(shù)據(jù)湖外,對數(shù)據(jù)進(jìn)行人工智能建模,更是挖掘數(shù)據(jù)背后價值、賦能業(yè)務(wù)的一條重要途徑。EnginePlus團(tuán)隊(duì)自研、開源的機(jī)器學(xué)習(xí)框架MindAlpha,能夠輕松處理超大規(guī)模離散特征,并與EnginePlus平臺之上的Spark on k8s、StarLake無縫結(jié)合,提供數(shù)據(jù)智能升級的一體化服務(wù)。
另外,企業(yè)數(shù)字化轉(zhuǎn)型過程中,“云原生”概念被經(jīng)常提及,而EnginePlus便是采用了云原生的架構(gòu),朱亞東認(rèn)為:“得益于云原生的架構(gòu)和優(yōu)化,對于用戶來說,能夠做到很快捷的部署,在大幅提升計(jì)算效率的同時,也具備很高的性價比。”
記者了解到,Mobvista匯量科技的新一代大數(shù)據(jù)智能平臺EnginePlus近日已與華為云進(jìn)行合作,賦能企業(yè)數(shù)字化轉(zhuǎn)型。
在朱亞東看來,此次EnginePlus聯(lián)手華為云,一方面能夠推進(jìn)匯量科技的“SaaS工具生態(tài)”戰(zhàn)略的執(zhí)行和落地;另一方面,在全球企業(yè)上云浪潮的背景下,EnginePlus與華為云實(shí)現(xiàn)產(chǎn)品技術(shù)層面的深度集成,從而賦能更多云端用戶、助力其業(yè)務(wù)增長,同樣有益于華為云的服務(wù)生態(tài)。
談及未來EnginePlus的發(fā)展方向,朱亞東希望在未來可以構(gòu)建新一代的基建體系,幫助客戶用最低的技術(shù)門檻、最低的成本、更小的風(fēng)險實(shí)現(xiàn)數(shù)字化轉(zhuǎn)型、智能化升級:
“我們希望能幫助客戶快速建立起從數(shù)據(jù)攝入、分析到AI模型離線訓(xùn)練、在線預(yù)測的一體化能力,從而快速高效地實(shí)現(xiàn)企業(yè)的數(shù)字化轉(zhuǎn)型和升級。”
以下為對話精選摘錄:
問:EnginePlus是一個怎樣的產(chǎn)品?在企業(yè)業(yè)務(wù)、數(shù)字化轉(zhuǎn)型過程中,可以幫助用戶解決哪些問題?
朱亞東:EnginePlus是一個一站式的云原生大數(shù)據(jù)和人工智能平臺,提供從數(shù)據(jù)攝入、大數(shù)據(jù)計(jì)算分析、到AI模型訓(xùn)練、模型線上推理的一站式SaaS服務(wù);目前已應(yīng)用于互聯(lián)網(wǎng)金融、出海電商、移動廣告等多種業(yè)務(wù)場景。
問:相比同類產(chǎn)品,EnginePlus有何特點(diǎn)?
朱亞東:當(dāng)前,越來越多的企業(yè)都加入了研發(fā)開源機(jī)器學(xué)習(xí)平臺框架和大數(shù)據(jù)計(jì)算框架的大潮,比如Google的TensorFlow,F(xiàn)acebook的PyTorch,以及Hadoop,此外,我們看到Databricks也研發(fā)了Spark。
然而,市面上主流產(chǎn)品仍存在一些不足之處,例如一些企業(yè)提供的AI框架與大數(shù)據(jù)計(jì)算框架之間是割裂的,同時對云原生和數(shù)據(jù)湖的支持較弱,且回到AI框架本身,在互聯(lián)網(wǎng)語境下,這些平臺對模型的超大規(guī)模離散特征支持較差,并缺乏一體化的在線推理能力;而一些提供開源大數(shù)據(jù)計(jì)算框架的公司,其機(jī)器學(xué)習(xí)框架層面的能力又較弱。
所以,總的來講,EnginePlus平臺具有自己獨(dú)特的核心優(yōu)勢,包括一站式、云原生、超大規(guī)模等特點(diǎn)。
問:此次EnginePlus選擇攜手華為云,合作契機(jī)是什么?對于EnginePlus自身發(fā)展來講,這次合作具有怎樣的戰(zhàn)略意義?
朱亞東:首先,Mobvista匯量科技和華為云已經(jīng)有比較久的業(yè)務(wù)合作,相互之間有較好地業(yè)務(wù)契合度和流暢的業(yè)務(wù)溝通經(jīng)驗(yàn),這個是基本的背景和前提;另一方面,華為云在ICT領(lǐng)域有30多年的技術(shù)和業(yè)務(wù)積累,企業(yè)具備很強(qiáng)的針對to B領(lǐng)域的交付方案解決能力,這個恰好是匯量科技“SaaS工具生態(tài)”戰(zhàn)略亟需的基礎(chǔ)能力;所以這次EnginePlus和華為云的合作,對于匯量科技“SaaS工具生態(tài)”戰(zhàn)略的執(zhí)行和落地都有很好的推進(jìn)作用;
另外,在全球企業(yè)上云浪潮的背景下,EnginePlus也能幫助云上企業(yè)在充分利用云商已有服務(wù)的同時,實(shí)現(xiàn)高效的大數(shù)據(jù)分析、計(jì)算、及數(shù)據(jù)智能的挖掘和利用,這個對華為云的服務(wù)生態(tài)也是非常有益的。
問:從技術(shù)層面,EnginePlus與華為云合作模式是怎樣的?
朱亞東:EnginePlus與華為云進(jìn)行了深度的產(chǎn)品技術(shù)集成,包括在華為云CCE容器引擎之上構(gòu)建的統(tǒng)一彈性計(jì)算引擎,在華為云OBS對象存儲之上構(gòu)建的湖倉一體數(shù)據(jù)框架StarLake,以及離線在線統(tǒng)一的MindAlpha AI框架。
整體上來講,EnginePlus在華為云上實(shí)現(xiàn)了高彈性、高性能、計(jì)算存儲分離的架構(gòu),并能夠?qū)崿F(xiàn)便捷、快速的部署。牽手華為云后,EnginePlus將以其云原生、一站式數(shù)據(jù)智能的服務(wù),賦能華為云全球客戶,為其提供從數(shù)據(jù)分析到智能模型決策的一站式服務(wù)。
問:您能簡單聊一聊EnginePlus誕生于怎樣的背景? 這些年經(jīng)歷了什么樣的演化?
朱亞東:2017年匯量科技 自主研發(fā)了以AI+Big Data為核心的技術(shù)中臺架構(gòu),之后多個技術(shù)中臺組件研發(fā)產(chǎn)出,并成功賦能匯量科技的多個前臺業(yè)務(wù),包括數(shù)據(jù)中臺Datatory、統(tǒng)一的計(jì)算引擎中臺、以及機(jī)器學(xué)習(xí)中臺MindAlpha等,后來,這些中臺組件都成為了EnginePlus SaaS平臺的重要基礎(chǔ);
在深度融合自身業(yè)務(wù)需求場景的同時,匯量科技 技術(shù)中臺從中沉淀出平臺化的能力,使之產(chǎn)品化、商業(yè)化,對外創(chuàng)造價值,從而最終建立可對外商業(yè)化輸出的EnginePlus平臺;以匯量科技旗下程序化互動式廣告平臺Mintegral為例,其日均數(shù)據(jù)量已達(dá)PB級,調(diào)度數(shù)萬CPU核心?;贓nginePlus平臺,Mintegral能實(shí)時處理用戶行為特征,進(jìn)行毫秒級反饋響應(yīng)。在每天千億次DNN模型預(yù)測請求下,滿足萬億級排序量的排序業(yè)務(wù)服務(wù),有效奠定了Mintegral在全球的領(lǐng)先地位。
問:前面提到,EnginePlus最初源于匯量科技自身廣告業(yè)務(wù)的數(shù)據(jù)處理需求,目前,EnginePlus處于匯量科技業(yè)務(wù)鏈條的哪一環(huán)?
朱亞東:2019年,匯量科技提出“SaaS工具生態(tài)”戰(zhàn)略:通過構(gòu)建更完善的產(chǎn)品矩陣,覆蓋開發(fā)者由小到大發(fā)展過程中,從統(tǒng)計(jì)分析、用戶增長和商業(yè)化到云成本優(yōu)化等不同階段的核心場景。脫胎于匯量科技自身業(yè)務(wù)實(shí)踐的EnginePlus,作為“SaaS工具生態(tài)”的重要組成部分,也將與華為云共享“技術(shù)外溢”成果,賦能更多用戶,助力企業(yè)的數(shù)字化轉(zhuǎn)型之路。
問:EnginePlus的技術(shù)架構(gòu)如何?StarLake數(shù)據(jù)湖框架的應(yīng)用場景如何?
朱亞東:EnginePlus包含了幾大塊,具體來講有StarLake(自研數(shù)據(jù)湖框架),Spark on K8s(云原生計(jì)算平臺),MindAlpha(自研開源機(jī)器學(xué)習(xí)框架),MindAlpha Serving(異構(gòu)彈性預(yù)測服務(wù))等多個組件功能,用戶可以根據(jù)需求單個/多個組合使用;
數(shù)據(jù)湖作為一種新一代的中心數(shù)據(jù)存儲的容器,具有海量、高效、便捷的特性,但伴隨著的是相當(dāng)高的數(shù)據(jù)處理復(fù)雜度和高昂的計(jì)算成本。為了讓客戶更好地用上這種數(shù)據(jù)儲存分析方式,匯量科技 自研并開源了數(shù)據(jù)湖框架StarLake,實(shí)現(xiàn)了大規(guī)模數(shù)據(jù)的實(shí)時攝入和更新;通過優(yōu)化的行列upsert功能、高并發(fā)入湖、元數(shù)據(jù)管理、對象儲存IO性能深度優(yōu)化等特性,StarLake數(shù)據(jù)湖框架能夠高效構(gòu)建湖倉一體化的分析平臺,相比開源同類數(shù)據(jù)湖框架具有顯著優(yōu)勢。所以StarLake適用于大數(shù)據(jù)量的用戶行為信息聚合、對大批量行列更新有較高性能要求的場景。
問:MindAlpha機(jī)器學(xué)習(xí)框架是怎樣解決海量數(shù)據(jù)的分析和模型訓(xùn)練挑戰(zhàn)的?
朱亞東:MindAlpha機(jī)器學(xué)習(xí)框架能輕松處理大規(guī)模的離散特征,與EnginePlus之上的Spark on K8s、StarLake無縫結(jié)合,它能提供從數(shù)據(jù)的輸入到智能的一體化、一站式的高效體驗(yàn)。
MindAlpha的開源Parameter Server SDK支持千億級大規(guī)模稀疏離散特征,與PyTorch、Spark MLLib無縫銜接,特征處理與模型推理邏輯和參數(shù)能全自動導(dǎo)出至線上Serving服務(wù)。同時,其高性能在線Serving能進(jìn)行模型橫向切分,支持萬億參數(shù),具有低延遲、自動彈性伸縮的特性,能進(jìn)行CPU、GPU異構(gòu)混布調(diào)度和負(fù)載均衡。
問:前面提到,EnginePlus自研的數(shù)據(jù)湖框架StarLake,是你們進(jìn)行的有關(guān)數(shù)據(jù)湖和湖倉一體的技術(shù)實(shí)踐。你怎么看湖倉一體的未來?
朱亞東:湖倉一體的未來方向主要有兩個方面,第一個是統(tǒng)一數(shù)據(jù)存儲,以湖為底座,通過流批一體,并發(fā)更新等創(chuàng)新技術(shù),簡化數(shù)據(jù)導(dǎo)入的流程和成本;
第二個方向是計(jì)算引擎對湖倉一體的適配,實(shí)時、批量計(jì)算、統(tǒng)計(jì)分析和機(jī)器學(xué)習(xí),都能夠直接使用在湖上構(gòu)建的存儲體系,消除數(shù)據(jù)冗余,最大化數(shù)據(jù)資產(chǎn)的價值。
問:目前,企業(yè)數(shù)字化轉(zhuǎn)型過程中,越來越多地提到“云原生”概念。之前公網(wǎng)資料里,EnginePlus也是云原生數(shù)據(jù)湖的深度用戶,EnginePlus在云原生領(lǐng)域都進(jìn)行了哪些技術(shù)探索?對用戶來說,云原生架構(gòu)有哪些實(shí)際意義?
朱亞東:EnginePlus從一開始采用了完全云原生的架構(gòu)設(shè)計(jì),在計(jì)算引擎層面,針對Spark on K8s做了大量優(yōu)化,解決了很多社區(qū)開源版本的問題;在數(shù)據(jù)讀寫層面,針對云上對象存儲系統(tǒng),重新開發(fā)了異步并行IO的實(shí)現(xiàn),相比開源提升了3倍的性能;整個平臺的所有組件都針對云環(huán)境做了適配。
對于用戶來說,得益于云原生的架構(gòu)和優(yōu)化,能夠做到很快捷的部署,同時計(jì)算資源和存儲資源都具有高度彈性的能力,在大幅提升計(jì)算效率的同時,也具備很高的性價比。
問:未來,EnginePlus將瞄準(zhǔn)哪些發(fā)展方向?
朱亞東:簡單來講,我們希望成為中國版AI加持的Databricks,跨越數(shù)據(jù)爆發(fā)式增長到智能處理之間的鴻溝,構(gòu)建新一代的基建體系。幫助客戶用最低的技術(shù)門檻、最低的成本、更小的風(fēng)險實(shí)現(xiàn)數(shù)字化轉(zhuǎn)型、智能化升級。
問:在您看來, EnginePlus這樣的產(chǎn)品對行業(yè)的發(fā)展和其他企業(yè)的發(fā)展有什么借鑒意義?
朱亞東:EnginePlus融合了豐富行業(yè)套件、開源代碼、數(shù)據(jù)算法模型,能在數(shù)據(jù)分析、技術(shù)開發(fā)、業(yè)務(wù)發(fā)展等多個維度賦能客戶;EnginePlus可以幫助客戶站在眾人肩膀上,快速建立起從數(shù)據(jù)攝入、分析到AI模型離線訓(xùn)練、在線預(yù)測的一體化能力,快速高效地實(shí)現(xiàn)企業(yè)的數(shù)字化轉(zhuǎn)型和升級。
(免責(zé)聲明:本網(wǎng)站內(nèi)容主要來自原創(chuàng)、合作伙伴供稿和第三方自媒體作者投稿,凡在本網(wǎng)站出現(xiàn)的信息,均僅供參考。本網(wǎng)站將盡力確保所提供信息的準(zhǔn)確性及可靠性,但不保證有關(guān)資料的準(zhǔn)確性及可靠性,讀者在使用前請進(jìn)一步核實(shí),并對任何自主決定的行為負(fù)責(zé)。本網(wǎng)站對有關(guān)資料所引致的錯誤、不確或遺漏,概不負(fù)任何法律責(zé)任。
任何單位或個人認(rèn)為本網(wǎng)站中的網(wǎng)頁或鏈接內(nèi)容可能涉嫌侵犯其知識產(chǎn)權(quán)或存在不實(shí)內(nèi)容時,應(yīng)及時向本網(wǎng)站提出書面權(quán)利通知或不實(shí)情況說明,并提供身份證明、權(quán)屬證明及詳細(xì)侵權(quán)或不實(shí)情況證明。本網(wǎng)站在收到上述法律文件后,將會依法盡快聯(lián)系相關(guān)文章源頭核實(shí),溝通刪除相關(guān)內(nèi)容或斷開相關(guān)鏈接。 )