成立DataCanvas之前,創(chuàng)始人兼CEO方磊在美國博士畢業(yè)后,先后在微軟Azure、Bing任職。在Bing期間,方磊曾先后擔任數(shù)據(jù)科學(xué)家與數(shù)據(jù)工程師數(shù)年,在大數(shù)據(jù)分析、機器學(xué)習(xí)和數(shù)據(jù)建模領(lǐng)域擁有豐富的行業(yè)實踐經(jīng)驗。
方磊在Bing任職期間,他發(fā)現(xiàn)微軟內(nèi)部有個系統(tǒng)叫Aether,可以幫助800多個數(shù)據(jù)工程師在同一個平臺同時進行各種數(shù)據(jù)分析、提交任務(wù)等工作,具有可管理性、可高速運行、以及資源調(diào)配、提高工作效率等諸多功能,不會因為人員變動使得研發(fā)成果流失。
DataCanvas創(chuàng)始人兼CEO 方磊博士
那么,為什么數(shù)據(jù)科學(xué)家需要這樣的工具?數(shù)據(jù)科學(xué)平臺能夠幫助他們解決哪些問題?
B2B圈了解到,隨著大數(shù)據(jù)深入發(fā)展,正與行業(yè)應(yīng)用融合,大數(shù)據(jù)開始滲透到各行各業(yè),企業(yè)對大數(shù)據(jù)人才的需求變得異常旺盛,這也就誕生了數(shù)據(jù)科學(xué)家這樣的工種。所以,在2012年以后,數(shù)據(jù)科學(xué)家這種“人設(shè)”開始在行業(yè)里興起。
但據(jù)麥肯錫預(yù)測,到2018年美國整體對于數(shù)據(jù)科學(xué)家的需求會超過49萬,而目前能夠滿足崗位需求的數(shù)據(jù)科學(xué)家不足20萬。所以,一個新的工種或者新的領(lǐng)域的誕生,深入發(fā)展,伴隨著的不足也開始逐漸顯現(xiàn)。
方磊表示,數(shù)據(jù)科學(xué)家和產(chǎn)品經(jīng)理一樣,什么工具都不給他們,他們照樣工作,但這里面會涉及多種維度的問題,比如效率的問題,工具最重要的任務(wù)就是幫助相關(guān)的人做相關(guān)的事情,并且能夠提高效率。
“數(shù)據(jù)科學(xué)平臺可以幫助數(shù)據(jù)科學(xué)家自動建立機器學(xué)習(xí)模型,同時可以調(diào)試優(yōu)化模型,這就節(jié)省相關(guān)人員的60%的時間,所以,數(shù)據(jù)科學(xué)平臺可以極大的提高工作效率。”
其次,企業(yè)不只有一個數(shù)據(jù)科學(xué)家,會有很多,這是一個團隊,如果再大點,更是一個社區(qū)。這時候,需要為這個團隊提供數(shù)據(jù)科學(xué)平臺,打造一個協(xié)助的開發(fā)環(huán)境,方便團隊在整個生命周期里協(xié)同辦公。
“尤其是數(shù)據(jù)科學(xué)家團隊超過10人時,痛點就很明顯了:例如,當有數(shù)據(jù)科學(xué)家離職時,之前完成的工作很難發(fā)揮價值,新人無法在原有模型的基礎(chǔ)上繼續(xù)開發(fā);同時,管理者對于數(shù)據(jù)科學(xué)家工作的進展情況很難把握,在量化評定上存在困難。
相比國外有Aether這樣的工具,協(xié)助數(shù)據(jù)科學(xué)家在系統(tǒng)上協(xié)作,整個團隊運轉(zhuǎn)井然有序,不會因為人員變動使得研發(fā)成果流失。而在國內(nèi),數(shù)據(jù)科學(xué)家團隊還是剛起步階段,更別說數(shù)據(jù)科學(xué)平臺這個國內(nèi)空白的市場了。”
第三,一個完整的數(shù)據(jù)科學(xué)平臺,包含訓(xùn)練、運行、監(jiān)控、管理四個環(huán)節(jié),覆蓋一個數(shù)據(jù)科學(xué)家整個工作的生命周期流程。
“數(shù)據(jù)科學(xué)家利用工具平臺,不僅是提高建模效率,或者全員協(xié)作,還要把建立好的模型放到企業(yè)生產(chǎn)業(yè)務(wù)系統(tǒng)里,觀察模型運行狀態(tài),監(jiān)控模型可能發(fā)生的問題,還得有效管理模型算法,做到及時更正修改。”
因此,在行業(yè)內(nèi)出現(xiàn)足夠數(shù)量的數(shù)據(jù)科學(xué)家之前,現(xiàn)有的這批人急需一種工具來提高工作效率。而“數(shù)據(jù)科學(xué)平臺”的出現(xiàn)正是要解決這樣的問題。
方磊認為,程序員有GitHub,設(shè)計師有AutoCAD,普通員工有Slack,數(shù)據(jù)科學(xué)家和數(shù)據(jù)工程師也應(yīng)該有自己的協(xié)作辦公平臺,而DataCanvas就是從這個點切入,為數(shù)據(jù)科學(xué)家提供數(shù)據(jù)科學(xué)平臺,幫助他們更好地建模分析,同時讓管理層更好地認知到每個人的進展。于是,方磊決定回國創(chuàng)業(yè),2013年成立了DataCanvas。
DataCanvas的定位是一家數(shù)據(jù)科學(xué)平臺提供商,專注于大數(shù)據(jù)核心技術(shù)的研發(fā),為企業(yè)用戶提供端到端的大數(shù)據(jù)解決方案,幫助企業(yè)快速具備大數(shù)據(jù)分析能力。
對標Alteryx,轉(zhuǎn)型提供私有云產(chǎn)品
其實,數(shù)據(jù)科學(xué)平臺并非是新的概念,微軟內(nèi)部系統(tǒng)有Aether,谷歌、FaceBook也有相應(yīng)的產(chǎn)品,而創(chuàng)業(yè)公司Alteryx也是這個領(lǐng)域的獨角獸公司。
B2B圈了解到,Alteryx前身為SRC公司,成立于1997年,由Dean Stoecker、Olivia Duane Adams和Ned Harding共同建立。一年后,SRC發(fā)布第一款在線數(shù)據(jù)引擎Allocate,定位于地理信息BI(Business Intelligence),幫助客戶進行空間分析。
為滿足客戶更加多樣化的需求,2006年,SRC公司發(fā)布了通用數(shù)據(jù)分析軟件Alteryx,幫助用戶建立分析過程以及應(yīng)用。隨著Alteryx品牌認知度不斷提升,2010年SRC正式將公司名稱改為Alteryx,并推出數(shù)據(jù)分析平臺,隨后與R語言深度集成,添加預(yù)測性分析模塊。
與同賽道的其他數(shù)據(jù)科學(xué)平臺產(chǎn)品不同的是,在Alteryx平臺中依舊提供第三方地圖數(shù)據(jù)以及地理信息數(shù)據(jù)(人口普查數(shù)據(jù)、公司信息數(shù)據(jù))的拓展選項,這與其前身SRC公司所經(jīng)營的業(yè)務(wù)有很大關(guān)聯(lián),這樣不僅滿足用戶對數(shù)據(jù)科學(xué)平臺的需求,也能滿足其對空間分析的需求。
值得一提的是,Alteryx于2017年在紐約證券交易所IPO,上市后市值接近8億美元,也成為這個領(lǐng)域的標志性事件。
同時,在2017年,Gartner也第一次公布了數(shù)據(jù)科學(xué)平臺的魔力象限,意味著數(shù)據(jù)科學(xué)平臺這個領(lǐng)域正式登上舞臺。
此外,根據(jù)Forrester預(yù)計,今后兩年內(nèi),數(shù)據(jù)科學(xué)平臺的采用率將增至現(xiàn)在的3倍多,從目前的29%增至2018年末的69%。
該機構(gòu)推測,增長的原因是越來越多的企業(yè)很快就會認識到采用數(shù)據(jù)科學(xué)平臺的益處。這些益處包括更好的客戶體驗、信息更充足的業(yè)務(wù)決策、更優(yōu)秀的商業(yè)計劃、更高的運營成本效率和客戶黏度。
方磊認為,與國外相對成熟的市場不同,國內(nèi)還處于早期發(fā)展階段。“當時國內(nèi)大數(shù)據(jù)行業(yè)剛剛起步,大部分客戶還處于理解大數(shù)據(jù)概念階段,更別說建立數(shù)據(jù)分析團隊,對這樣的平臺價值一無所知。
而且在2013年-2014年這段期間,公有云市場也是剛起步,我們的最初版本是在AWS基礎(chǔ)上,提供的服務(wù)。但是很多用戶根本不放心把數(shù)據(jù)放到公有云上,擔心數(shù)據(jù)安全。所以,一開始客戶的接受程度并不高,我們也沒有什么營收。直到2015年,我們轉(zhuǎn)型做私有云,為金融、交通等企業(yè)客戶提供產(chǎn)品和服務(wù)。”
產(chǎn)品+服務(wù),提供全棧解決方案
DataCanvas具體打法是,運用機器學(xué)習(xí)+AI算法,為企業(yè)提供通用的數(shù)據(jù)科學(xué)平臺,打造一個標準化的產(chǎn)品,幫助各行各業(yè)的數(shù)據(jù)科學(xué)家在一個平臺上開發(fā)模型,并將模型應(yīng)用到真實的業(yè)務(wù)中來。同時,DataCanvas還會輸出一些數(shù)據(jù)科學(xué)家指導(dǎo)企業(yè)客戶使用產(chǎn)品,幫助他們做模型,甚至?xí)?lián)合打造模型。
在具體產(chǎn)品方面,DataCanvas數(shù)據(jù)科學(xué)平臺,集成Hadoop生態(tài)圈開源產(chǎn)品,通過“流處理引擎+內(nèi)存數(shù)據(jù)庫+模型加載管理”的方式,為模型的正常運行提供了理想環(huán)境,使分析結(jié)果能在實際業(yè)務(wù)中得到運用。
據(jù)悉,DataCanvas平臺包含做數(shù)據(jù)預(yù)處理(DEP),數(shù)據(jù)的分析和模型構(gòu)建(APS),模型的實時運行及監(jiān)測(RT),智能運維平臺(MML)等功能模塊,可以幫助數(shù)據(jù)分析師和數(shù)據(jù)科學(xué)家快速協(xié)同開發(fā),實現(xiàn)模型管理和應(yīng)用支持;還可以幫助模型實現(xiàn)生產(chǎn)化,最終落到應(yīng)用場景中去。
簡單來說,DataCanvas平臺旨在囊括數(shù)據(jù)科學(xué)家的所有工作內(nèi)容,為企業(yè)提供全棧解決方案。首先,平臺可以提供各種工具,幫助用戶對海量多源的數(shù)據(jù)進行整合和研究,以及模型的構(gòu)建與部署,讓這些模型的輸出結(jié)果更加可行。
其次,平臺封裝一些共性的模型工作模塊,科學(xué)家在平臺上可以自己取用,提高效率。
第三,當數(shù)據(jù)科學(xué)家做出模型后,平臺可以讓模型進入“投產(chǎn)階段”,即模型生產(chǎn)化,每發(fā)生一筆交易就會調(diào)取模型去進行驗證這筆交易是否安全,這個模型一開始并不準確,但是隨著交易發(fā)生的越多,數(shù)據(jù)科學(xué)家就會據(jù)此來不斷校正模型使之更加準確。這樣一來,即使當企業(yè)中無數(shù)個模型在同時運行時,平臺也能保證運算安全穩(wěn)定的進行。
值得一提的是,DataCanvas不僅僅是給已經(jīng)有了數(shù)據(jù)科學(xué)家團隊但是存在痛點的公司服務(wù),對于那些有挖掘數(shù)據(jù)需求但是沒有數(shù)據(jù)科學(xué)家團隊的企業(yè)同樣適用。
談起數(shù)據(jù)科學(xué)平臺這件事的門檻,方磊表示,主要體現(xiàn)在團隊起始時間點,長期實踐積累的過程,還有要完整覆蓋整個生命周期的流程。
“數(shù)據(jù)科學(xué)平臺像一個整車,并非單個零部件。要做好一個數(shù)據(jù)科學(xué)平臺,需要長期的積累,更注重專注、聚焦。就像一個完整的APP模板,不能一蹴而就,靠一頁頁面解決很多問題,需要靠長期積累,多個頁面組合而成,這樣才能做到極致。”
重點布局金融行業(yè),覆蓋90%的銀行客戶
目前,DataCanvas的客戶主要集中在金融、交通、IOT、政務(wù)等行業(yè)。其中,金融領(lǐng)域是DataCanvas重點布局領(lǐng)域,覆蓋率達到90%,主要集中在大企業(yè)客戶,例如大型商業(yè)銀行、股份制銀行、城商行、大型保險證券公司等,客單價在300-500萬之間。
而DataCanvas數(shù)據(jù)科學(xué)平臺在銀行業(yè)的適用場景主要為營銷、運營、風(fēng)控等三大方向。營銷上,適用場景主要是理財推薦等。運營則更多在網(wǎng)點運營上,如現(xiàn)金儲備優(yōu)化(ATM加鈔等)。
風(fēng)控上,銀行通常自有一套風(fēng)控模型,DataCanvas能幫助客戶將這套模型落實到實時計算的環(huán)境中去,達到實時監(jiān)控等效果。具體的應(yīng)用場景有銀行卡防盜刷、ATM取現(xiàn)監(jiān)控、小貸風(fēng)險控制等。
以山東某銀行為例,據(jù)悉金融行業(yè)是生產(chǎn)、消費數(shù)據(jù)最多的行業(yè)之一,面對如此龐大的數(shù)據(jù)量及多樣化數(shù)據(jù),傳統(tǒng)關(guān)系型數(shù)據(jù)庫已經(jīng)無法滿足需求,金融行業(yè)面臨巨大轉(zhuǎn)型。
而某銀行力圖想建設(shè)一個低成本高效率的數(shù)據(jù)中心,能夠存放歷史數(shù)據(jù)并完成所有業(yè)務(wù)數(shù)據(jù)的快速查詢;同時,能夠接入和整合外部數(shù)據(jù)資源,對業(yè)務(wù)數(shù)據(jù)進行挖掘分析。
針對這些痛點,DataCanvas通過大數(shù)據(jù)平臺解決方案,實現(xiàn)了銀行PB級數(shù)據(jù)的快速存儲和橫向擴容,同時滿足了傳統(tǒng)關(guān)系型數(shù)據(jù)無法處理的復(fù)雜數(shù)據(jù)分析需求。
其次,平臺支持流數(shù)據(jù)和批量數(shù)據(jù)導(dǎo)入至歷史庫。銀行歷史數(shù)據(jù)采用SQL查詢,SQL查詢性能單機數(shù)據(jù)掃描350MB/秒。
第三,統(tǒng)一客戶視圖,基于機器學(xué)習(xí)的算法模塊(平臺提供140+算法模塊)和可視化圖表,對存量客戶數(shù)據(jù)進行分析,自動構(gòu)建用戶畫像并進行精準營銷和消費預(yù)測分析。
這樣一來,某銀行可以結(jié)合實時、歷史數(shù)據(jù)進行全局分析,風(fēng)險管控部門可以每天評估客戶行為,并對其信用卡額度等進行調(diào)整,使業(yè)務(wù)能力顯著提升。
據(jù)悉,截至2018年6月底,DataCanvas在國內(nèi)建立了近百個大數(shù)據(jù)應(yīng)用案例,是國內(nèi)市場落地案例較多、應(yīng)用范圍廣泛的大數(shù)據(jù)科學(xué)平臺提供商。例如,工商銀行、交通銀行信用卡中心、山東城商行聯(lián)盟、中車等大中型企業(yè)都在使用DataCanvas數(shù)據(jù)科學(xué)平臺。
同時,DataCanvas2017年營收實現(xiàn)5600萬,預(yù)計2018年收入突破1億,較2017年增長80%-100%。在采訪的最后,B2B圈問了方磊一個問題,如果按照10分為標準,能給自己的產(chǎn)品打多少分?
“估計是8分吧,那兩分主要差在兩方面,第一,因為我們是打造的全棧的解決方案,很多細節(jié)的模塊功能還需要繼續(xù)打磨,產(chǎn)品要持續(xù)演進。
第二,目前的產(chǎn)品更多是以企業(yè)管理者角度出發(fā),接下來我們的戰(zhàn)略要朝著To Person角度出發(fā),把產(chǎn)品做得更輕量化,真正的為企業(yè)的數(shù)據(jù)科學(xué)家提供便捷、易用、提高效率的產(chǎn)品。”
- 為什么年輕人不愛換手機了
- 柔宇科技未履行金額近億元被曝已6個月發(fā)不出工資
- 柔宇科技被曝已6個月發(fā)不出工資 公司回應(yīng)欠薪有補償方案
- 第六座“綠動未來”環(huán)保公益圖書館落地貴州山區(qū)小學(xué)
- 窺見“新紀元”,2021元宇宙產(chǎn)業(yè)發(fā)展高峰論壇“廣州啟幕”
- 以人為本,景悅科技解讀智慧城市發(fā)展新理念
- 紐迪瑞科技/NDT賦能黑鯊4 Pro游戲手機打造全新一代屏幕壓感
- 清潔家電新老玩家市場定位清晰,攜手共進,核心技術(shù)決定未來
- 新思科技與芯耀輝在IP產(chǎn)品領(lǐng)域達成戰(zhàn)略合作伙伴關(guān)系
- 芯耀輝加速全球化部署,任命原Intel高管出任全球總裁
免責聲明:本網(wǎng)站內(nèi)容主要來自原創(chuàng)、合作伙伴供稿和第三方自媒體作者投稿,凡在本網(wǎng)站出現(xiàn)的信息,均僅供參考。本網(wǎng)站將盡力確保所提供信息的準確性及可靠性,但不保證有關(guān)資料的準確性及可靠性,讀者在使用前請進一步核實,并對任何自主決定的行為負責。本網(wǎng)站對有關(guān)資料所引致的錯誤、不確或遺漏,概不負任何法律責任。任何單位或個人認為本網(wǎng)站中的網(wǎng)頁或鏈接內(nèi)容可能涉嫌侵犯其知識產(chǎn)權(quán)或存在不實內(nèi)容時,應(yīng)及時向本網(wǎng)站提出書面權(quán)利通知或不實情況說明,并提供身份證明、權(quán)屬證明及詳細侵權(quán)或不實情況證明。本網(wǎng)站在收到上述法律文件后,將會依法盡快聯(lián)系相關(guān)文章源頭核實,溝通刪除相關(guān)內(nèi)容或斷開相關(guān)鏈接。