2018年初,「甲子光年」曾發(fā)布《“數(shù)據(jù)折疊”:今天,那些人工智能背后“標(biāo)數(shù)據(jù)的人”正在回家》。勞動(dòng)密集型是人們對數(shù)據(jù)標(biāo)注行業(yè)的固有印象,基層數(shù)據(jù)標(biāo)注員被視為數(shù)據(jù)時(shí)代的“隱形人”,他們的工作日常就是坐在擁擠的小房間里,不停地按動(dòng)鼠標(biāo),框取對象,依靠微薄的月薪在繁華的大城市里找到自己立足的一席之地。
而不久前的一個(gè)周三,「甲子光年」在位于房山的云測數(shù)據(jù)標(biāo)注基地看到了另一種行業(yè)作業(yè)形式。
云測數(shù)據(jù)的其中一個(gè)標(biāo)注基地是坐落于房山區(qū)北京金融安全創(chuàng)意產(chǎn)業(yè)園的一幢四層半高的小樓,一半是開放式辦公區(qū)域,另一半是按項(xiàng)目組設(shè)置的封閉房間,除了房間四角安裝的監(jiān)視器之外,跟普通的創(chuàng)業(yè)孵化園區(qū)并沒有太大區(qū)別。
第三層主要處理對安全性較高的數(shù)據(jù)標(biāo)注業(yè)務(wù),設(shè)了門禁,需要通過指紋識別才能進(jìn)入。
標(biāo)注員李楠(化名)告訴「甲子光年」,兩個(gè)月前,她剛從數(shù)據(jù)標(biāo)注員升級為質(zhì)檢員。
她在大董村跟同學(xué)合租了一個(gè)20平的開間,起初是四人合租,漲薪之后變成兩人。她每天上午步行十分鐘到基地上班,偶爾也需要加班。閑暇時(shí)間,她會練練手卷鋼琴緩解工作壓力。
云測數(shù)據(jù)房山數(shù)據(jù)標(biāo)注基地的磚紅色大樓,每日吞吐著數(shù)百名數(shù)據(jù)標(biāo)注人員。這里不僅是他們的工作地點(diǎn),也是他們周末的燒烤聚會地。
從業(yè)者生活和工作方式改變的背后是數(shù)據(jù)標(biāo)注行業(yè)拐點(diǎn)的到來:蠻荒時(shí)代正在過去。
智研發(fā)布的數(shù)據(jù)標(biāo)注行業(yè)報(bào)告指出,2018年我國數(shù)據(jù)標(biāo)注與審核行業(yè)規(guī)模達(dá)到52.55億元,其中34%左右的業(yè)務(wù)量流向?qū)I(yè)做數(shù)據(jù)采標(biāo)的第三方公司。
「甲子光年」觀察到,供給側(cè)的馬太效應(yīng)開始顯現(xiàn),體量較大的公司呈現(xiàn)出兩種業(yè)態(tài):一是眾包平臺、二是定制化服務(wù)。
在眾包賽道上,已誕生了Scale AI、Appen為代表的明星獨(dú)角獸。而定制化服務(wù)模式對企業(yè)管理和標(biāo)注員的要求較高,代表玩家包括云測數(shù)據(jù)、百度。
本篇,「甲子光年」以提供定制化標(biāo)注服務(wù)的云測數(shù)據(jù)為例,看數(shù)據(jù)標(biāo)注自營模式的發(fā)展與挑戰(zhàn),以及數(shù)據(jù)標(biāo)注的未來圖景。
成立于2011年的Testin云測公司,以應(yīng)用測試服務(wù)起家;2017年正式啟動(dòng)了數(shù)據(jù)標(biāo)注業(yè)務(wù)。截至目前,云測數(shù)據(jù)已擁有近千名全職數(shù)據(jù)服務(wù)人員,服務(wù)領(lǐng)域包括自動(dòng)駕駛、智能家居、智慧城市、智能金融和新零售等領(lǐng)域,客戶數(shù)量已達(dá)數(shù)百級,標(biāo)注業(yè)務(wù)客單價(jià)已達(dá)百萬級。
「甲子光年」采訪了云測數(shù)據(jù)總經(jīng)理賈宇航、云測數(shù)據(jù)交付負(fù)責(zé)人朱文輝、Testin云測CMO張鵬飛、IDG資本牛奎光、品覽創(chuàng)始人兼CEO李一帆、某Robo-taxi公司深度學(xué)習(xí)技術(shù)負(fù)責(zé)人Ted(化名)及多位數(shù)據(jù)標(biāo)注從業(yè)者,并實(shí)地走訪了云測數(shù)據(jù)標(biāo)注基地,發(fā)現(xiàn)數(shù)據(jù)標(biāo)注行業(yè)的以下趨勢正逐漸顯現(xiàn):
第三方數(shù)據(jù)服務(wù)的外包公司正在數(shù)據(jù)標(biāo)注行業(yè)中獲得更多市場;效率、安全等因素綜合而成的性價(jià)比成為當(dāng)下競爭核心;在定制化服務(wù)的模式中,工具提效和管理優(yōu)化成為構(gòu)筑效率壁壘的關(guān)鍵。
1.拐點(diǎn)將至
Garbage in, garbage out.
數(shù)據(jù)、算力、算法是推動(dòng)人工智能技術(shù)進(jìn)步的“三駕馬車”,其中數(shù)據(jù)是人工智能行業(yè)的發(fā)展基石,數(shù)據(jù)對人工智能很重要,“沒有好的數(shù)據(jù),人工智能沒有未來”早已是行業(yè)共識。
新變化在于,隨著人工智能技術(shù)落地場景,不同場景提出了更高質(zhì)量、更多元的數(shù)據(jù)需求。
對視覺數(shù)據(jù)標(biāo)注需求非常大的自動(dòng)駕駛領(lǐng)域,很好地展現(xiàn)了數(shù)據(jù)標(biāo)注服務(wù)的業(yè)態(tài)變化。
在2016年,人工智能隨AlaphGo強(qiáng)勢崛起并引發(fā)一系列創(chuàng)業(yè)、創(chuàng)新活動(dòng)后,數(shù)據(jù)標(biāo)注迎來第一次真正意義上的爆發(fā),但由于當(dāng)時(shí)各公司的人工智能業(yè)務(wù)多處于“跑Demo"、“做研發(fā)”的落地前環(huán)節(jié)——在質(zhì)上,用標(biāo)準(zhǔn)數(shù)據(jù)集就可滿足;在量上,規(guī)模也不可與現(xiàn)在相比。
所以當(dāng)時(shí)的數(shù)據(jù)標(biāo)注行業(yè)門檻較低,小作坊遍地開花,被視為“人工智能背后的富士康工廠”,標(biāo)注人員也魚龍混雜?!讣鬃庸饽辍笷A副總裁李世民介紹,在粗放期,數(shù)據(jù)標(biāo)注的工作頁面和網(wǎng)頁版PS十分相似,重復(fù)性的簡單拉框就能實(shí)現(xiàn)項(xiàng)目需求,一張圖的價(jià)格不過幾分錢,外包商全靠數(shù)量獲取微薄利潤。
而以Waymo、小馬智行、文遠(yuǎn)知行等為代表的做L4級自動(dòng)駕駛系統(tǒng)的公司或其他對數(shù)據(jù)有較高要求的公司,則多在內(nèi)部建立標(biāo)注團(tuán)隊(duì),解決前期的標(biāo)注問題。
然而,從近兩年的市場數(shù)據(jù)來看,第三方數(shù)據(jù)標(biāo)注與審核公司開始變多;原本十分分散的數(shù)據(jù)標(biāo)注行業(yè)走向?qū)I(yè)化的拐點(diǎn)正在發(fā)生。
智研統(tǒng)計(jì)數(shù)據(jù)顯示,2018年我國數(shù)據(jù)標(biāo)注與審核行業(yè)規(guī)模達(dá)到52.55億元,約34%的業(yè)務(wù)量流向?qū)I(yè)做數(shù)據(jù)采標(biāo)的第三方公司。
其中,專業(yè)第三方數(shù)據(jù)標(biāo)注與審核公司的業(yè)務(wù)增速始終維持在全行業(yè)的最高水準(zhǔn),超越行業(yè)平均值、人工智能企業(yè)內(nèi)部標(biāo)注和人工智能外包公司相應(yīng)業(yè)務(wù)增速;即便在增長相對放緩的2017-2018年也高達(dá)88.11%。
這背后有三大驅(qū)動(dòng)力。
一是成本問題——這是專業(yè)第三方公司相比于自營的優(yōu)勢:隨著數(shù)據(jù)量越來越大,如果雇傭大量人力進(jìn)行數(shù)據(jù)標(biāo)注,大多數(shù)人工智能公司都無法攻克人員管理的挑戰(zhàn)和承擔(dān)隨著數(shù)據(jù)量增長的巨額薪資。
二是質(zhì)量問題——這是更成規(guī)模的專業(yè)第三方公司相比于外包小作坊的優(yōu)勢,自營數(shù)據(jù)團(tuán)隊(duì)的第三方模式在這一點(diǎn)上尤為明顯;因?yàn)樯⒈斡潞托⌒凸ぷ魇?較難在崗前培訓(xùn)、質(zhì)量控制和數(shù)據(jù)安全上做足夠的投入。
三是客戶結(jié)構(gòu)改變帶來的新機(jī)會——即除了人工智能公司或有相關(guān)業(yè)務(wù)的科技公司外,各行各業(yè)的企業(yè)都開始更多投入數(shù)字化和人工智能,其中部分企業(yè),一方面有對外采購技術(shù)服務(wù)的習(xí)慣和流程,一方面又缺乏非常先進(jìn)、成熟的內(nèi)部人工智能技術(shù),比如無法像很多人工智能公司那樣,快速開發(fā)自己的標(biāo)注提效工具,這類公司會更加倚重專業(yè)的第三方服務(wù),這擴(kuò)大了整體市場規(guī)模。
對數(shù)據(jù)標(biāo)注需求大且復(fù)雜的自動(dòng)駕駛公司也逐漸從最初的主要依靠自有團(tuán)隊(duì)標(biāo)注轉(zhuǎn)向部分采購第三方服務(wù)。
某Robo-Taxi公司深度學(xué)習(xí)技術(shù)負(fù)責(zé)人Ted(化名)告訴「甲子光年」,現(xiàn)在,公司內(nèi)部的數(shù)據(jù)團(tuán)隊(duì)除了數(shù)據(jù)檢查,還會負(fù)責(zé)比較特殊的數(shù)據(jù)類型標(biāo)注,但需要大量數(shù)據(jù)的方向,會找外包公司。
“對于Robo-taxi這種比較specific(專業(yè))的產(chǎn)業(yè)來說,最終目標(biāo)是實(shí)現(xiàn)100%的無人駕駛,這意味著我們的模型不能出錯(cuò)。”Ted解釋:“但再高精度的機(jī)器算法,再全面的傳感器設(shè)置,也只能保證95%的準(zhǔn)確率,要想更上一層樓,必須依賴更精準(zhǔn)的標(biāo)注數(shù)據(jù)用于算法提升。”
需求側(cè)的變化,傳導(dǎo)到供給側(cè),引起了一輪洗牌。
一方面,馬太效應(yīng)日顯。
誕生于硅谷的Scale AI,在短短三年內(nèi),成長為市值破十億美元的明星獨(dú)角獸,而今年的銷售額已增長至近億美元,4個(gè)月前,還宣布完成了1億美元的C輪融資。國內(nèi)巨頭的增速同樣亮眼,例如Testin云測旗下數(shù)據(jù)標(biāo)注品牌“云測數(shù)據(jù)”,業(yè)務(wù)規(guī)模量每年都在以倍數(shù)的規(guī)模增長。而據(jù)艾瑞咨詢最新報(bào)告顯示,2018年中國人工智能基礎(chǔ)數(shù)據(jù)服務(wù)年復(fù)合增長率為23.5%,數(shù)據(jù)標(biāo)注賽道主要玩家的增速遠(yuǎn)高于行業(yè)平均水平。
另一方面,更多類型的玩家都想來分一杯羹:
國際巨頭亞馬遜、Appen早早入場,已在數(shù)據(jù)標(biāo)注市場占據(jù)一席之地。國內(nèi)BAT等老牌互聯(lián)網(wǎng)巨頭也將數(shù)據(jù)標(biāo)注納入自己公司的業(yè)務(wù)范圍,成立項(xiàng)目組(部),對內(nèi)降本,對外創(chuàng)收,如阿里數(shù)據(jù)和京東眾智。
近來,行業(yè)頭部企業(yè)進(jìn)一步涌現(xiàn),如2015年成立的Scale AI,3年躋身獨(dú)角獸;以測試起家的Testin云測在2017年積極布局?jǐn)?shù)據(jù)標(biāo)注領(lǐng)域。
仔細(xì)分析這些主要玩家,其實(shí)模式主要有兩種:一是眾包平臺,二是自營團(tuán)隊(duì)。
前者以“需求公司——標(biāo)注公司作為數(shù)據(jù)標(biāo)注平臺——第三方標(biāo)注團(tuán)隊(duì)協(xié)作”為主要結(jié)構(gòu),起到串聯(lián)有數(shù)據(jù)標(biāo)注需求的客戶以及零散的大眾志愿者的作用。
后者則省卻了中間眾包商環(huán)節(jié),形成“需求公司——數(shù)據(jù)標(biāo)注公司”的垂直結(jié)構(gòu)。
“目前,大多數(shù)公司采用眾包模式,國際上大名鼎鼎的如Scale AI、Amazon Mechanical Turk以及澳洲Appen走的都是這條道路。”李世民說。
而云測數(shù)據(jù),則選擇了玩家更少、專業(yè)性更高的一條路——定制化數(shù)據(jù)服務(wù)。
云測數(shù)據(jù)的選擇來自對市場和自身的思考、判斷。
“兩種模式其實(shí)是共存的,客戶可以根據(jù)自身需求進(jìn)行取舍。”云測數(shù)據(jù)交付部門負(fù)責(zé)人朱文輝評價(jià)道,但就當(dāng)前標(biāo)注規(guī)則愈加復(fù)雜、交付周期縮短且對安全性要求提高的市場趨勢來說,定制化模式更有前景。
云測數(shù)據(jù)總經(jīng)理賈宇航告訴「甲子光年」,隨著人工智能對數(shù)據(jù)采標(biāo)的復(fù)雜度和精細(xì)度要求變高,眾包在現(xiàn)有技術(shù)條件下,很難實(shí)現(xiàn)品控。
“以人臉識別為例,以前的需求是拉框、標(biāo)注五官,現(xiàn)在需要標(biāo)注幾百個(gè)點(diǎn),精確到3-5像素以內(nèi)。”賈宇航補(bǔ)充說:“我們希望通過精準(zhǔn)高質(zhì)、獨(dú)立安全的數(shù)據(jù)幫助客戶快速構(gòu)建核心壁壘。”
此外,云測數(shù)據(jù)從測試業(yè)務(wù)中繼承了to B的企業(yè)基因,一方面積累了品牌口碑和客戶資源,另一方面也貫徹了嚴(yán)格把控質(zhì)量的管理風(fēng)格,這也是云測數(shù)據(jù)入局?jǐn)?shù)據(jù)標(biāo)注的優(yōu)勢所在。
Testin云測投資方,IDG資本??饪偨Y(jié)道,效率和貼合度是當(dāng)前數(shù)據(jù)標(biāo)注供應(yīng)商競爭的核心:“定制化可以用最高效的方式提供人工智能落地前最后一公里的數(shù)據(jù)服務(wù)。”
他認(rèn)為,隨著人工智能產(chǎn)品進(jìn)入落地多元行業(yè)和場景,作為人工智能算法的“養(yǎng)料”,數(shù)據(jù)也向著場景化發(fā)展。可以說在算法、算力沒有重大突破的前提下,場景化的數(shù)據(jù)就是核心優(yōu)勢。因此貼合度較高的定制化服務(wù)能力就顯得尤為重要。
2.雙面“做重”
從實(shí)踐效果看,云測數(shù)據(jù)的選擇在市場和客戶之中獲得了很多良性反饋。
“我們的業(yè)務(wù)規(guī)模量每年都在以倍數(shù)的規(guī)模增長。”賈宇航告訴「甲子光年」,云測數(shù)據(jù)標(biāo)注服務(wù)了安防、駕駛、金融、家居等領(lǐng)域的上百家企業(yè)。
“自動(dòng)駕駛產(chǎn)業(yè)是比較適合定制化服務(wù)的。”Ted表示將跟云測數(shù)據(jù)建立長期的合作關(guān)系。
Ted接觸過很多數(shù)據(jù)標(biāo)注供應(yīng)商,包括硅谷的Scale AI,國內(nèi)的云測數(shù)據(jù)、BasicFinder和百度數(shù)據(jù)等,他采取“試標(biāo)注”這種遍地撒網(wǎng)的方法——將相同的標(biāo)注樣本給到不同的標(biāo)注公司,根據(jù)標(biāo)注結(jié)果擇優(yōu)合作——挑選最具“性價(jià)比”合作伙伴。
作為客戶,Ted認(rèn)為,首先,打價(jià)格戰(zhàn)的時(shí)代已經(jīng)過去了,同一價(jià)格區(qū)間內(nèi),質(zhì)優(yōu)者勝。
“質(zhì)量代表著速度。”李世民解釋說,人工智能工程師的時(shí)薪很高,企業(yè)雇傭他們處理數(shù)據(jù)的成本也很高,一旦數(shù)據(jù)失準(zhǔn),在上游的數(shù)據(jù)標(biāo)注和下游的人工智能工程師兩端,會產(chǎn)生雙重的成本浪費(fèi)。
例如,在一個(gè)機(jī)器學(xué)習(xí)的完整工作鏈條中,數(shù)據(jù)清洗和標(biāo)注在總?cè)蝿?wù)中所占的時(shí)間比例超過50%。如果無法保證數(shù)據(jù)的準(zhǔn)確性,便會出現(xiàn)無效訓(xùn)練和無限返工的惡性循環(huán),對寸時(shí)寸金的人工智能公司行業(yè)而言,這無疑會造成巨大的負(fù)面影響。
“畢竟是勞動(dòng)密集型工種,定制化的人員培訓(xùn)很重要。在全景標(biāo)注和3D點(diǎn)云這類難點(diǎn)項(xiàng)目上體現(xiàn)得尤為明顯。”Ted補(bǔ)充說,全景圖中標(biāo)的物多且雜亂,稍不注意就會有錯(cuò)漏,整張圖都要打回重標(biāo);3D點(diǎn)云中,距離較遠(yuǎn)的物體點(diǎn)數(shù)較少,很難識別,更別提辨別朝向了。
一張全景分割或3D點(diǎn)云的標(biāo)注單價(jià)高達(dá)20-30元(價(jià)格以項(xiàng)目需求為準(zhǔn),不作為行業(yè)參考價(jià)),但Ted看來,“即便價(jià)格高一點(diǎn),我也愿意跟云測數(shù)據(jù)這樣互動(dòng)性強(qiáng)、準(zhǔn)確度高、保密性好的數(shù)據(jù)標(biāo)注公司合作。”
其實(shí),對于整個(gè)人工智能行業(yè)來說,高質(zhì)數(shù)據(jù)的價(jià)值都在日益凸顯。
曾負(fù)責(zé)過企業(yè)軟件采購的朱文輝,對成本和質(zhì)量的取舍之道很有心得:“手頭也有過幾百上千萬的預(yù)算,特別明白客戶的心態(tài)——寧愿多付錢也要質(zhì)量過關(guān)的產(chǎn)品。”
其次,在選擇供應(yīng)商時(shí),互聯(lián)網(wǎng)巨頭不如獨(dú)立第三方數(shù)據(jù)標(biāo)注公司吃香。
“大廠的業(yè)務(wù)水準(zhǔn)雖然非常advanced(先進(jìn)),但考慮到母公司可能也有自動(dòng)駕駛的團(tuán)隊(duì)或業(yè)務(wù),難免會擔(dān)心自家數(shù)據(jù)被拿去訓(xùn)練別人的模型;再加上要價(jià)不菲,所以合作并不多。”
Ted繼續(xù)補(bǔ)充,如果跟第三方數(shù)據(jù)標(biāo)注公司合作,就不用擔(dān)憂這種問題。他們要價(jià)合理,而且既不會把數(shù)據(jù)外泄,也不會自用。
最后,固定數(shù)據(jù)標(biāo)注團(tuán)隊(duì)的優(yōu)勢還在于,長期服務(wù)某類項(xiàng)目能實(shí)現(xiàn)自我迭代。
專注于人工智能視覺領(lǐng)域的物品識別的品覽數(shù)據(jù)科技也是云測數(shù)據(jù)的客戶之一,其創(chuàng)始人兼CEO李一帆認(rèn)為,對于一些需要搭建測試環(huán)境、要求專業(yè)知識儲備或涉及復(fù)雜場景的數(shù)據(jù)標(biāo)注任務(wù)來說,標(biāo)注人員培訓(xùn)成本較高,如果長期有這樣高價(jià)值的標(biāo)注需求,定制化的性價(jià)比反而更高。
把數(shù)據(jù)效率放在第一位的自營團(tuán)隊(duì),很擅長應(yīng)對這類需要專人快速響應(yīng)的標(biāo)注需求。
朱文輝告訴「甲子光年」,近年來,客戶面臨的競爭壓力變大,花錢更為謹(jǐn)慎。雖然整個(gè)市場對數(shù)據(jù)標(biāo)注的需求在上升,但場景差異變大,相應(yīng)地人力成本也在上升。“量小、批次多、難度大是整個(gè)數(shù)據(jù)標(biāo)注市場的大趨勢。”朱文輝補(bǔ)充道。
另外,自營團(tuán)隊(duì)一般會根據(jù)項(xiàng)目組織人員,在兩三批數(shù)據(jù)的交付之后,標(biāo)注員會變得更加熟練,效率也會自然跟著提高。
但任何一種模式都是雙刃劍,定制化也有挑戰(zhàn)和短板,即人工成本和管理成本高,且應(yīng)對需求的彈性不足。
對標(biāo)Scale AI的Graviti創(chuàng)始人崔運(yùn)凱評價(jià)說:“定制化模式對抗業(yè)務(wù)潮汐的能力較差。”
需求的彈性會導(dǎo)致自營團(tuán)隊(duì)模式出現(xiàn)人員冗余或人員短缺的問題,任務(wù)分發(fā)上不如眾包公司靈活;人力成本也高,尤其隨著數(shù)據(jù)標(biāo)注團(tuán)隊(duì)的線性擴(kuò)張,管理團(tuán)隊(duì)層級會增多,人數(shù)會指數(shù)級增長。
3. 效率壁壘
經(jīng)緯的創(chuàng)始合伙人張穎曾對創(chuàng)業(yè)公司提出短中期內(nèi)最有意義的七條建議,第一條便是:所有輕公司以后都會做重,也必須做重,只有做重才能有效抗拒巨頭殺入,也唯有如此才能做大。
其實(shí)不管是重的定制化服務(wù),還是輕的眾包平臺,表面的輕重之外,真正核心的是滿足市場當(dāng)下需求與公司自身效率之間的平衡。
從需求的角度來說,目前市場的兩個(gè)特點(diǎn),能一定程度上自然規(guī)避定制化的弊端。
首先,整個(gè)市場仍在放量增長,尤其是傳統(tǒng)行業(yè),會成為數(shù)據(jù)標(biāo)注的新增長引擎。
2017年賈宇航從Testin云測北美事業(yè)部回到北京總部,并與很多美國的人工智能從業(yè)者都保持著密切聯(lián)系,他認(rèn)為中國市場具有獨(dú)特性,傳統(tǒng)行業(yè)智能化升級對數(shù)據(jù)標(biāo)注市場的拓展?jié)摿Σ豢尚∮U。
在五年的旅美生涯中,賈宇航觀察到,中國人的模式創(chuàng)新意識更強(qiáng),更容易出現(xiàn)分散式的產(chǎn)業(yè)革新,“美國全靠Google和Amazon這樣的巨頭帶動(dòng),相比之下,中國人工智能落地的動(dòng)力多了一級,這將是一個(gè)高新科技產(chǎn)業(yè)和傳統(tǒng)產(chǎn)業(yè)相向而行的過程,其中的市場空間是無窮的。”
隨著人工智能在金融、醫(yī)療、安防等多個(gè)領(lǐng)域?qū)崿F(xiàn)技術(shù)落地,人工智能公司對數(shù)據(jù)的使用逐漸有“大”的趨勢,整個(gè)行業(yè)正在逐漸向多模態(tài)、多場景、高精度的方向發(fā)展。
基于這一洞察,企業(yè)服務(wù)型公司Testin云測擴(kuò)展了數(shù)據(jù)標(biāo)注業(yè)務(wù)品牌云測數(shù)據(jù),通過自建數(shù)據(jù)場景實(shí)驗(yàn)室和數(shù)據(jù)標(biāo)注基地,為智能駕駛、智能家居、智慧城市、智慧金融、新零售等領(lǐng)域提供定制化的數(shù)據(jù)采集、數(shù)據(jù)標(biāo)注服務(wù)。今年早些時(shí)候,Testin云測CTO陳冠誠曾在采訪中表示,云測數(shù)據(jù)在AI數(shù)據(jù)采集標(biāo)注行業(yè)將繼續(xù)扮演“同行者”的角色,除了滿足客戶的需求之外,還希望提供更高效率的服務(wù):“我們一直在用工程化迭代的技術(shù)不斷改進(jìn)采集標(biāo)注的流程效率、加快人工標(biāo)注速度。”
其次,當(dāng)前市場還處于藍(lán)海,所以潮汐現(xiàn)象和浪費(fèi)不明顯。
提及業(yè)務(wù)潮汐的風(fēng)險(xiǎn),賈宇航答道:“我認(rèn)為這個(gè)問題目前不對我們造成任何困擾,市場供需極不平衡,打個(gè)比方,我們和客戶之間比較類似高精尖企業(yè)和人才之間的供給關(guān)系,需求遠(yuǎn)大于供應(yīng)量。”
很多數(shù)據(jù)標(biāo)注從業(yè)者也有類似的評價(jià),有人將數(shù)據(jù)標(biāo)注市場形容成“一片商業(yè)藍(lán)海”,也有人說“同行之間甚至都算不上競爭對手”。
說法大同小異,結(jié)論卻很一致:目前人工智能行業(yè)對精確優(yōu)質(zhì)、安全獨(dú)立的數(shù)據(jù)標(biāo)注服務(wù)需求極大。
Testin云測CMO張鵬飛也強(qiáng)調(diào),“從整體看來,AI數(shù)據(jù)行業(yè)關(guān)于安全、隱私等方面并沒有統(tǒng)一的標(biāo)準(zhǔn)和強(qiáng)調(diào)重視。但從我們長遠(yuǎn)角度出發(fā),一直在隱私和安全防護(hù)角度下大力氣服務(wù)行業(yè)、樹立數(shù)據(jù)質(zhì)量標(biāo)桿,只有以這種負(fù)責(zé)的態(tài)度來服務(wù)客戶,我們的行業(yè)才能‘良幣驅(qū)除劣幣’,真正讓人工智能成為新一輪技術(shù)革命,改變整個(gè)社會和人類進(jìn)程”。
整個(gè)行業(yè)在可預(yù)見的很長時(shí)間內(nèi)都會處于供不應(yīng)求的賣方市場。
此外,對于Testin云測這一類企業(yè)服務(wù)賽道上的明星玩家來說,此時(shí)入場擴(kuò)張數(shù)據(jù)標(biāo)注業(yè)務(wù)更是近水樓臺先得月——他們以往的測試等業(yè)務(wù)已積累了一批現(xiàn)成的渠道商。
連續(xù)創(chuàng)業(yè)者李一帆起初是Testin云測測試業(yè)務(wù)的客戶,2018年成立品覽后有了數(shù)據(jù)標(biāo)注的新需求,他選擇了跟“老伙計(jì)”Testin云測繼續(xù)合作。
“其實(shí)我也向其他數(shù)據(jù)標(biāo)注公司詢過價(jià),最終選擇云測數(shù)據(jù)是出于兩方面的考慮。”李一帆解釋道:“一是因?yàn)楦鼡Q合作機(jī)構(gòu)的切換成本和溝通成本太高;二是相對于其他數(shù)據(jù)標(biāo)注機(jī)構(gòu),對云測數(shù)據(jù)的專業(yè)度和服務(wù)質(zhì)量比較了解,更看好云測數(shù)據(jù)的質(zhì)量和安全性把控,和對人工智能行業(yè)的前瞻思考,也更有信心。”
云測數(shù)據(jù)的人工智能數(shù)據(jù)團(tuán)隊(duì)運(yùn)營至今已制定了一套包含任務(wù)分配、需求分析、需求確認(rèn)、數(shù)據(jù)清洗、試標(biāo)確認(rèn)、進(jìn)度控制、質(zhì)量保障等流程的完整作業(yè)體系。
牛奎光評價(jià)道,Testin云測一開始更多的是提供基于質(zhì)量工程化的服務(wù),隨著人工智能時(shí)代的到來,對人工智能企業(yè)提供數(shù)據(jù)服務(wù),實(shí)際上也是在加速移動(dòng)互聯(lián)網(wǎng)、產(chǎn)業(yè)互聯(lián)網(wǎng)、人工智能產(chǎn)業(yè)的生命周期。
朱文輝告訴「甲子光年」,就整個(gè)數(shù)據(jù)標(biāo)注市場而言,合作與競爭都是下一個(gè)階段的議題,同行還在自覺共建行業(yè)生態(tài)和品牌聲譽(yù),“把蛋糕做大”才是當(dāng)前的發(fā)展重心。
此外,自營團(tuán)隊(duì)做定制化數(shù)據(jù)服務(wù),是不是一定效率低下?
可以用制造業(yè)來類比,半手工的作坊和機(jī)器大工業(yè)生產(chǎn),雖然同屬“制造”,但效率天差地別。差距由兩個(gè)關(guān)鍵因素導(dǎo)致,一是自動(dòng)化水平,也就是工具提效;二是生流程管理——云測數(shù)據(jù)在這兩方面都已有較多探索。
在工具提效方面,云測數(shù)據(jù)自研了一套可以支持圖片、語音、文本等多品類的標(biāo)注工具,并開發(fā)了三維標(biāo)注工具,尤其是在3D點(diǎn)云的標(biāo)注系統(tǒng)中優(yōu)化了渲染引擎,保證整個(gè)過程的流暢和快捷,當(dāng)屬業(yè)內(nèi)領(lǐng)先。
“我們注意到在3D點(diǎn)云連續(xù)幀標(biāo)注時(shí),前后幀的切換非常耗時(shí),云測數(shù)據(jù)的web GL工程師通過自研渲染工具把緩沖時(shí)長縮減至十分流暢。”賈宇航在北京總部向「甲子光年」展示了優(yōu)化之后的標(biāo)注工具。
據(jù)朱文輝介紹,云測組建了一支專門的研發(fā)團(tuán)隊(duì),“研發(fā)團(tuán)隊(duì)里有產(chǎn)品經(jīng)理、前后端工程師”等,他們會針對不同領(lǐng)域循環(huán)式地改進(jìn)標(biāo)注工具,并根據(jù)客戶需求,實(shí)時(shí)反饋、實(shí)時(shí)更新、實(shí)時(shí)研發(fā)。“平均每季度或更快有一次較大的迭代。”朱文輝回憶道:“迭代之后有些領(lǐng)域的效率提高了三倍不止。”云測數(shù)據(jù)從啟動(dòng)伊始,就十分重視技術(shù)提效,陳冠誠曾在采訪中提及:“(云測)數(shù)據(jù)采集標(biāo)注的客戶遍布各行各業(yè),對于文本數(shù)據(jù)、語音數(shù)據(jù)、視頻數(shù)據(jù)甚至是激光雷達(dá)的3D點(diǎn)云數(shù)據(jù),我們都可以用工程化迭代來做高效的標(biāo)注和流程管理,提高效率,幫助客戶成功。”在流程管理方面,云測數(shù)據(jù)也建立起一套包含崗前培訓(xùn)、早部署晚復(fù)盤、分項(xiàng)目人工質(zhì)檢的管理系統(tǒng)。朱文輝告訴「甲子光年」,目前云測數(shù)據(jù)在華東、華北、華南共設(shè)有三個(gè)標(biāo)注基地,還有幾個(gè)基地在部署中,現(xiàn)在共有千人規(guī)模左右的數(shù)據(jù)服務(wù)人員。“新人都會經(jīng)過兩個(gè)月的崗前培訓(xùn)”,朱文輝說,隨著行業(yè)要求的提高,人員也在更新?lián)Q代,我們的激勵(lì)機(jī)制和晉升機(jī)制比較完善,還提供園區(qū)食堂的餐補(bǔ),年輕人的離職率并不高。”
除了積極招兵買馬,云測數(shù)據(jù)還有相當(dāng)一部分的項(xiàng)目經(jīng)理是從傳統(tǒng)制造業(yè)轉(zhuǎn)型而來,“這些人很懂環(huán)環(huán)相扣的流程管理,對包括風(fēng)險(xiǎn)、成本等流程節(jié)點(diǎn)的控制很在行。”朱文輝補(bǔ)充道。
牛奎光稱:“云測數(shù)據(jù)的數(shù)據(jù)服務(wù)優(yōu)勢,除了數(shù)據(jù)質(zhì)量、規(guī)模化以外,其效率優(yōu)勢也很突出,因?yàn)槠髽I(yè)產(chǎn)品都有對應(yīng)的發(fā)布周期,對效率的要求也會越來越高。”
朱文輝認(rèn)為,誰能優(yōu)先突破認(rèn)知效率、管理效率和標(biāo)準(zhǔn)化,誰就很有可能在一眾數(shù)據(jù)標(biāo)注公司中拔得頭籌。
4.進(jìn)化:新物種的可能性
從整個(gè)數(shù)據(jù)標(biāo)注賽道來看,這個(gè)此前”隱于聚光燈之外”的行業(yè),正在走向大眾的視野,展現(xiàn)更多可能性。
一是可預(yù)測的,數(shù)據(jù)量的爆發(fā)增長。
當(dāng)前,人工智能正全面加速產(chǎn)業(yè)落地。德勤預(yù)測,2025年世界人工智能市場將超過6萬億美元,2017-2025年人工智能復(fù)合增長率將達(dá)30%。
賈宇航認(rèn)為5G到來之后,整個(gè)人工智能行業(yè)數(shù)據(jù)量將會向橫、縱拓展。
橫向拓展,是人工智能從科技公司走入各行各業(yè)公司。
比如賈宇航告訴「甲子光年」,云測數(shù)據(jù)大部分的客戶來自智慧城市和駕駛等與人工智能結(jié)合緊密的領(lǐng)域,但一個(gè)明顯的新發(fā)展是,來自金融、家居等傳統(tǒng)行業(yè)的客戶正逐漸增加,而在兩年前,這類客戶的占比幾乎為0。各行各業(yè)的數(shù)字化、智能化,很可能成長為新的增長點(diǎn)。
縱向的拓展則是,隨通信、芯片等基礎(chǔ)設(shè)施的發(fā)展,物聯(lián)網(wǎng)潮流下,硬件、傳感器數(shù)量持續(xù)增長,相應(yīng)的數(shù)據(jù)量持續(xù)增長,各行業(yè)、各場景都將經(jīng)歷更深程度的數(shù)字化。
“從深度學(xué)習(xí)、機(jī)器學(xué)習(xí)的發(fā)展趨勢和應(yīng)用方向可以明顯看到,不管是鉆得更深或是在應(yīng)用層面鋪得更廣,我們都會需要更多數(shù)據(jù)。我覺得這個(gè)趨勢至少還能保持十幾年。”Ted相信,未來數(shù)據(jù)標(biāo)注的重要性也許還會跨上一個(gè)新臺階。在現(xiàn)有以監(jiān)督學(xué)習(xí)為主的技術(shù)環(huán)境下,數(shù)據(jù)量爆發(fā)意味著標(biāo)注需求的爆發(fā)。
二是,標(biāo)注業(yè)務(wù)本身的智能化、人工智能化。
賈宇航告訴「甲子光年」,隨著算法的突破,圖像生成技術(shù)會極大地提升數(shù)據(jù)采集和數(shù)據(jù)標(biāo)注行業(yè)門檻。針對企業(yè)的數(shù)據(jù)需求,將更加定制化,同時(shí)也凸顯數(shù)據(jù)需求定制中的策略性。現(xiàn)在的技術(shù)可以通過數(shù)據(jù)增強(qiáng)技術(shù)額外合成的數(shù)據(jù)來模擬移位(Translation)、視角(Viewpoint)、大小(Size)、照明(Illumination)等等條件,生成更多可用于訓(xùn)練數(shù)據(jù)。具體到AI數(shù)據(jù)服務(wù)中,在數(shù)據(jù)采集和標(biāo)注環(huán)節(jié),AI企業(yè)對數(shù)據(jù)服務(wù)商有更加嚴(yán)格的要求,如環(huán)境,光線,被采樣本等采集環(huán)境的搭建。AI企業(yè)擁有這些純凈數(shù)據(jù),可以更加有效的拓展更多數(shù)據(jù),達(dá)到數(shù)據(jù)增強(qiáng)的目的。
例如,“通過定制化的數(shù)據(jù)采集方法,客戶可以規(guī)定特定的光線角度和綠墻背景,得到一組可塑性較強(qiáng)的原始數(shù)據(jù),再通過變換背景、合成光線、調(diào)轉(zhuǎn)光源角度等等方法,得到成百上千倍的衍生數(shù)據(jù)。”賈宇航也強(qiáng)調(diào),這樣的元數(shù)據(jù)對相關(guān)條件的控制往往異常嚴(yán)格,因此對第三方數(shù)據(jù)標(biāo)注承包商的要求也更高。
“屆時(shí)勞動(dòng)密集型的產(chǎn)業(yè)特征將被改變,方法論和策略性將更優(yōu),采集和標(biāo)注的時(shí)間成本也將大大縮小,數(shù)據(jù)標(biāo)注公司有可能都將進(jìn)化為高精尖的定制化團(tuán)隊(duì)。”賈宇航補(bǔ)充道。
也有不少從業(yè)者認(rèn)為預(yù)標(biāo)注技術(shù)和半自動(dòng)化校驗(yàn)可能將推動(dòng)數(shù)據(jù)標(biāo)注行業(yè)進(jìn)一步進(jìn)化。
“在特定場景中,預(yù)標(biāo)注工具把小數(shù)據(jù)變成模型再去預(yù)標(biāo),縮小人工調(diào)節(jié)的空間。”李一帆判斷,預(yù)標(biāo)注技術(shù)的逐漸成熟或許會在未來大幅降低標(biāo)注成本。
Ted也提到,Scale AI聚集了一幫人嘗試用算法來輔助標(biāo)注,如果成功,只需幾個(gè)點(diǎn),就可以生成整個(gè)面的自動(dòng)標(biāo)注,這將會極大地提高標(biāo)注效率。
但就目前的市場現(xiàn)狀來看,預(yù)標(biāo)注技術(shù)在很多細(xì)節(jié)上并不精準(zhǔn),Ted認(rèn)為,距離預(yù)標(biāo)注技術(shù)的應(yīng)用落地,還需要很長一段時(shí)間。
在數(shù)據(jù)質(zhì)檢流程上,也有用自動(dòng)化技術(shù)和人工智能技術(shù)提效的空間。
“如果可以用半自動(dòng)化的方式實(shí)現(xiàn)驗(yàn)收或是自動(dòng)對比,可以節(jié)省掉相當(dāng)一部分管理層的人力成本。”Ted提出了另一個(gè)可能會讓數(shù)據(jù)標(biāo)注行業(yè)更有效率的方式,并不是要用機(jī)器取代人工標(biāo)注,而是用機(jī)器輔助人工標(biāo)注。
賈宇航也有相似的觀點(diǎn),他表示,云測會投入更多人力進(jìn)行驗(yàn)收工具的研發(fā),提升質(zhì)檢效率,提高標(biāo)注質(zhì)量。
隨著人工智能技術(shù)與場景的結(jié)合逐漸深化,科技創(chuàng)業(yè)者們進(jìn)入了一片沒有航海圖的水域,對于伴生的數(shù)據(jù)標(biāo)注行業(yè)來說,未來的航程同樣值得期待。
這真像劉禹錫的那句:“沉舟側(cè)畔千帆過,病樹前頭萬木春”。
- 蜜度索驥:以跨模態(tài)檢索技術(shù)助力“企宣”向上生長
- 為什么年輕人不愛換手機(jī)了
- 柔宇科技未履行金額近億元被曝已6個(gè)月發(fā)不出工資
- 柔宇科技被曝已6個(gè)月發(fā)不出工資 公司回應(yīng)欠薪有補(bǔ)償方案
- 第六座“綠動(dòng)未來”環(huán)保公益圖書館落地貴州山區(qū)小學(xué)
- 窺見“新紀(jì)元”,2021元宇宙產(chǎn)業(yè)發(fā)展高峰論壇“廣州啟幕”
- 以人為本,景悅科技解讀智慧城市發(fā)展新理念
- 紐迪瑞科技/NDT賦能黑鯊4 Pro游戲手機(jī)打造全新一代屏幕壓感
- 清潔家電新老玩家市場定位清晰,攜手共進(jìn),核心技術(shù)決定未來
- 新思科技與芯耀輝在IP產(chǎn)品領(lǐng)域達(dá)成戰(zhàn)略合作伙伴關(guān)系
- 芯耀輝加速全球化部署,任命原Intel高管出任全球總裁
免責(zé)聲明:本網(wǎng)站內(nèi)容主要來自原創(chuàng)、合作伙伴供稿和第三方自媒體作者投稿,凡在本網(wǎng)站出現(xiàn)的信息,均僅供參考。本網(wǎng)站將盡力確保所提供信息的準(zhǔn)確性及可靠性,但不保證有關(guān)資料的準(zhǔn)確性及可靠性,讀者在使用前請進(jìn)一步核實(shí),并對任何自主決定的行為負(fù)責(zé)。本網(wǎng)站對有關(guān)資料所引致的錯(cuò)誤、不確或遺漏,概不負(fù)任何法律責(zé)任。任何單位或個(gè)人認(rèn)為本網(wǎng)站中的網(wǎng)頁或鏈接內(nèi)容可能涉嫌侵犯其知識產(chǎn)權(quán)或存在不實(shí)內(nèi)容時(shí),應(yīng)及時(shí)向本網(wǎng)站提出書面權(quán)利通知或不實(shí)情況說明,并提供身份證明、權(quán)屬證明及詳細(xì)侵權(quán)或不實(shí)情況證明。本網(wǎng)站在收到上述法律文件后,將會依法盡快聯(lián)系相關(guān)文章源頭核實(shí),溝通刪除相關(guān)內(nèi)容或斷開相關(guān)鏈接。