作為經(jīng)濟(jì)發(fā)展的底座,基礎(chǔ)設(shè)施建設(shè)決定了經(jīng)濟(jì)發(fā)展的可能性和未來邊界。 過去40年,以“鐵公基”為代表的老基建支撐了中國經(jīng)濟(jì)高速發(fā)展,成就了中國經(jīng)濟(jì)“快”的奇跡。 未來40年,以5G、AI、物聯(lián)網(wǎng)、智能計(jì)算等新一代技術(shù)為驅(qū)動(dòng)的新基建,將肩負(fù)起中國經(jīng)濟(jì)由“快”向“好”的重?fù)?dān)。
在剛剛結(jié)束的全國“兩會(huì)”中,“新基建”首次進(jìn)入政府工作報(bào)告,成為會(huì)議期間被代表提及最多的高頻詞匯。
在新基建分支中,又以AI最為引人矚目。百度、阿里、騰訊、搜狗、科大訊飛等一眾中國科技巨頭CEO,紛紛提交與AI相關(guān)的提案。
在“新基建”浪潮下,AI場(chǎng)景規(guī)?;涞嘏c應(yīng)用的速度不斷被刷新,但隨著AI應(yīng)用由淺層向深層推進(jìn),不免出現(xiàn)根基不牢、“虛火”旺盛的癥結(jié),導(dǎo)致其在商業(yè)化應(yīng)用方面仍然裹足不前。
是什么讓這樣一項(xiàng)擁有巨大潛力的技術(shù)面臨窘境?又是什么扼住了AI應(yīng)用的“咽喉”?這一切都指向了一個(gè)看似微不足道,卻可以決定AI前途命運(yùn)的基本要素——AI數(shù)據(jù)。
上層建筑與底層基座“失衡”數(shù)據(jù)扼住AI應(yīng)用的“咽喉”
如果想要聚沙成塔,那么塔基的堅(jiān)實(shí)程度將決定塔頂?shù)母叨取?/p>
當(dāng)AlphaGo戰(zhàn)勝李世石,AI領(lǐng)域遂掀起熱潮,ImageNet數(shù)據(jù)集、GPU算力支持和深度學(xué)習(xí)算法“三駕馬車”整裝待發(fā),AI商業(yè)落地到了爆發(fā)前夕。
然而,人們期待中的爆發(fā)卻遲遲未能到來,一切猶如一場(chǎng)海市蜃樓。
縱觀整個(gè)AI行業(yè),如今在算力、算法層面已達(dá)到階段性成熟,但是在決定AI能力最基本的數(shù)據(jù)領(lǐng)域,卻鮮有企業(yè)攀越高峰,這就造成上層應(yīng)用與底層基座的嚴(yán)重失衡。
俗話說:根基不牢,地動(dòng)山搖。
缺乏牢固的根基,再華麗的上層建筑也終究逃脫不了坍塌的命運(yùn),這也是扼住AI應(yīng)用咽喉的癥結(jié)所在。
根據(jù)中國信息通信研究院發(fā)布的《2018年人工智能發(fā)展白皮書》顯示,在數(shù)據(jù)層面,主要存在流通不暢、數(shù)據(jù)質(zhì)量良莠不齊和關(guān)鍵數(shù)據(jù)集缺失等問題。
當(dāng)大部分AI企業(yè)在應(yīng)用層面激戰(zhàn)正酣,支撐AI技術(shù)的算法就像新生兒一樣稚嫩,需要數(shù)以百萬計(jì)有標(biāo)注的高質(zhì)量數(shù)據(jù)來教它們“分辨”。
比如,要想讓自動(dòng)駕駛汽車算法學(xué)會(huì)識(shí)別路標(biāo),或者區(qū)分孩子和動(dòng)物,人們必須采集所有可能遇到的所有道路場(chǎng)景,并對(duì)其中的物體進(jìn)行“標(biāo)簽化”的標(biāo)注。
對(duì)于深度學(xué)習(xí)算法而言,沒有標(biāo)注的數(shù)據(jù),就沒有AI算法模型。而模型迭代和調(diào)整,則需要更多的精準(zhǔn)數(shù)據(jù)。越是準(zhǔn)確的算法,就越依賴于大量高質(zhì)量的標(biāo)注數(shù)據(jù)。
Google技術(shù)大牛Jeff Dean曾在公開課上展示過海量數(shù)據(jù)的訓(xùn)練結(jié)果,神經(jīng)網(wǎng)絡(luò)算法中準(zhǔn)確率和數(shù)據(jù)規(guī)模及質(zhì)量持續(xù)成正比。
而業(yè)界也達(dá)成了普遍共識(shí),即“大量高質(zhì)數(shù)據(jù)+普通模型”往往會(huì)比“普通數(shù)據(jù)+高級(jí)模型”的效果要好。
想要更加契合AI商業(yè)落地需求、解決行業(yè)具體痛點(diǎn),就需要大量經(jīng)過標(biāo)注處理的數(shù)據(jù)做算法訓(xùn)練支撐。
如果沒有高質(zhì)量的標(biāo)注數(shù)據(jù),即使是初期具備算法優(yōu)勢(shì)的公司,也會(huì)被后起具備數(shù)據(jù)優(yōu)勢(shì)的公司所碾壓。
如美國加州科技大學(xué)校長秦志剛教授所說:“數(shù)據(jù)標(biāo)注是AI產(chǎn)業(yè)的基礎(chǔ),是機(jī)器感知現(xiàn)實(shí)世界的起點(diǎn)。從某種程度上來說,沒有經(jīng)過標(biāo)注的數(shù)據(jù)就是無用數(shù)據(jù)?!?/p>
可以說,數(shù)據(jù)標(biāo)注的質(zhì)和量,將決定AI落地的最終效果。
場(chǎng)景化的數(shù)據(jù)標(biāo)注服務(wù)成為新基建下AI產(chǎn)業(yè)化的“催化劑”
從整個(gè)數(shù)據(jù)標(biāo)注行業(yè)看,過去這一行業(yè)曾長期處于粗放的發(fā)展模式,數(shù)據(jù)粗制、混亂、復(fù)用的情況屢見不鮮。
但隨著AI與各個(gè)產(chǎn)業(yè)結(jié)合得愈加緊密,AI商業(yè)化程度進(jìn)入新的高度,數(shù)據(jù)小作坊的模式也已不適用于AI產(chǎn)業(yè)化落地的數(shù)據(jù)需求。
在這其中,定制化、場(chǎng)景化的數(shù)據(jù)服務(wù)更是成為AI商業(yè)化的關(guān)鍵,這意味著必須有能力超群的企業(yè)站出來,重新定義數(shù)據(jù)標(biāo)注行業(yè)的規(guī)則。
目前,數(shù)據(jù)標(biāo)注行業(yè)的企業(yè)機(jī)構(gòu)主要分為三類:第一類是AI公司內(nèi)部的標(biāo)注部門,第二類是數(shù)據(jù)標(biāo)注眾包平臺(tái),第三類是以場(chǎng)景化數(shù)據(jù)采集和標(biāo)注見長的公司。
第一種以金融、安防等領(lǐng)域企業(yè)為代表,大量數(shù)據(jù)標(biāo)注任務(wù)由公司內(nèi)部完成。
第二種是眾包平臺(tái),以亞馬遜眾包平臺(tái)Mechanical Turk為代表,基本按照“需求公司——眾包平臺(tái)——多個(gè)互聯(lián)網(wǎng)用戶”的模式完成。
第三種是以云測(cè)數(shù)據(jù)為代表的,專門從事定制化數(shù)據(jù)采集和標(biāo)注的企業(yè)。
這類企業(yè)具備非常完整的數(shù)據(jù)服務(wù)鏈條,能夠滿足于定制化、場(chǎng)景化、高質(zhì)量的數(shù)據(jù)服務(wù)需求,以精細(xì)化的數(shù)據(jù)采集和標(biāo)注標(biāo)準(zhǔn),徹底撕掉了傳統(tǒng)數(shù)據(jù)標(biāo)注行業(yè)的“草莽”標(biāo)簽。
以云測(cè)數(shù)據(jù)為例,通過自建數(shù)據(jù)場(chǎng)景實(shí)驗(yàn)室和數(shù)據(jù)標(biāo)注基地,實(shí)現(xiàn)了從數(shù)據(jù)采集、數(shù)據(jù)清洗,數(shù)據(jù)標(biāo)注、標(biāo)注平臺(tái)私有化部署、到標(biāo)注駐場(chǎng)服務(wù)的高質(zhì)量、場(chǎng)景化的一站式數(shù)據(jù)采集標(biāo)注服務(wù)。
針對(duì)AI每個(gè)細(xì)分領(lǐng)域的特點(diǎn),云測(cè)數(shù)據(jù)都配備了專業(yè)人員進(jìn)行AI數(shù)據(jù)服務(wù),針對(duì)企業(yè)遇到的數(shù)據(jù)需求提供最優(yōu)方案。
項(xiàng)目前期,云測(cè)數(shù)據(jù)項(xiàng)目經(jīng)理會(huì)幫助客戶梳理更貼合實(shí)際情況的需求,之后再逐漸引入標(biāo)注和質(zhì)檢人員,通過每天的溝通和培訓(xùn),以確保每個(gè)人能夠理解并掌握標(biāo)注有關(guān)技術(shù),試標(biāo)驗(yàn)收合格后,再進(jìn)行大批量的規(guī)模性標(biāo)注。
為了確保標(biāo)注人員能夠做出正確的判斷,云測(cè)數(shù)據(jù)還配備專門的培訓(xùn)師,對(duì)每個(gè)行業(yè)細(xì)分領(lǐng)域的專業(yè)知識(shí)進(jìn)行培訓(xùn),以及標(biāo)注技能和業(yè)務(wù)流程的培訓(xùn)。
在數(shù)據(jù)標(biāo)注完成后,云測(cè)數(shù)據(jù)還會(huì)進(jìn)行質(zhì)檢和抽檢,對(duì)于準(zhǔn)確率達(dá)不到要求的數(shù)據(jù)會(huì)打回重新標(biāo)注,從而確保數(shù)據(jù)的高質(zhì)量輸出。
在智慧城市領(lǐng)域,云測(cè)數(shù)據(jù)可以提供全類型的數(shù)據(jù)標(biāo)注與定制化數(shù)據(jù)采集,如:人臉打點(diǎn)、人體拉框、目標(biāo)跟蹤、語義分割標(biāo)注,異常行為、步態(tài)、Re-ID、路面物體采集等。
在自動(dòng)駕駛領(lǐng)域,云測(cè)數(shù)據(jù)提供多維度、多模態(tài)的數(shù)據(jù)服務(wù),如:在車內(nèi)場(chǎng)景中涉及到疲勞監(jiān)測(cè)、動(dòng)作識(shí)別、場(chǎng)景光線等一切場(chǎng)景,以及在車外環(huán)境中更復(fù)雜的障礙物、道路、天氣、地點(diǎn)、車道線、路標(biāo),以及一些長尾場(chǎng)景。
同時(shí),可實(shí)現(xiàn)連續(xù)幀標(biāo)注、2D圖像框選、圖像分割、3D點(diǎn)云標(biāo)注、2D和3D融合標(biāo)注等眾多功能。
在AI技術(shù)中重要分支的自然語言處理(NLP)領(lǐng)域,云測(cè)數(shù)據(jù)已經(jīng)為許多商業(yè)化應(yīng)用提供高質(zhì)量的NLP數(shù)據(jù)支撐,如:機(jī)器翻譯、輿情監(jiān)測(cè)、問答機(jī)器人、客服機(jī)器人、智能音箱、智能問診等。
以智能客服應(yīng)用為例,云測(cè)數(shù)據(jù)為單個(gè)場(chǎng)景提供的NLP數(shù)據(jù)的意圖標(biāo)注,就分為10-20個(gè)大類,上百個(gè)子類,根據(jù)業(yè)務(wù)需求可能還會(huì)有進(jìn)一步的標(biāo)注細(xì)分。
同時(shí),云測(cè)數(shù)據(jù)除了對(duì)NLP數(shù)據(jù)進(jìn)行對(duì)話意圖、領(lǐng)域、槽位等進(jìn)行判斷和標(biāo)注,還可以進(jìn)行多角度的泛化。
目前,云測(cè)數(shù)據(jù)業(yè)務(wù)范圍已經(jīng)覆蓋智能駕駛、智慧城市、智能家居、智慧金融、新零售等多個(gè)領(lǐng)域,成為眾多AI企業(yè)和各個(gè)行業(yè)龍頭企業(yè)的合作伙伴。
正如云測(cè)數(shù)據(jù)總經(jīng)理賈宇航所說,“通過使用定制場(chǎng)景化數(shù)據(jù)服務(wù),企業(yè)可以將自己算法的識(shí)別精度推到一個(gè)新的高度,進(jìn)而落地成為產(chǎn)品被用戶使用?!?/p>
從野蠻生長走向精耕細(xì)作AI數(shù)據(jù)標(biāo)注手握新基建未來的“密鑰”
AI領(lǐng)域流行一種說法:如果AI是一輛車,那么數(shù)據(jù)是燃料,算力是車輪,算法則是發(fā)動(dòng)機(jī)。也就是說,沒有優(yōu)質(zhì)的數(shù)據(jù),AI只能是空中樓閣。
根據(jù)《2019年中國人工智能基礎(chǔ)數(shù)據(jù)服務(wù)行業(yè)白皮書》統(tǒng)計(jì),早在2018年,高質(zhì)量的數(shù)據(jù)資源定制服務(wù)就占中國AI基礎(chǔ)數(shù)據(jù)服務(wù)的86%,可見優(yōu)質(zhì)數(shù)據(jù)市場(chǎng)之潛力巨大。
事實(shí)上,AI對(duì)于標(biāo)注數(shù)據(jù)質(zhì)量的新要求,也是數(shù)據(jù)標(biāo)注行業(yè)未來發(fā)展方向的一個(gè)重要縮影。越來越多的AI企業(yè)意識(shí)到,高質(zhì)量的數(shù)據(jù)采集和標(biāo)注是影響人工智能項(xiàng)目落地的關(guān)鍵。
當(dāng)新基建的大潮席卷而來,作為AI新基建的核心生產(chǎn)要素,數(shù)據(jù)標(biāo)注如今迎來了品質(zhì)化、精細(xì)化、場(chǎng)景化的全新發(fā)展階段。
以云測(cè)數(shù)據(jù)為代表的數(shù)據(jù)標(biāo)注行業(yè)領(lǐng)軍企業(yè),正在通過提升AI數(shù)據(jù)采集和標(biāo)注的質(zhì)量、效率和安全,驅(qū)動(dòng)AI成為推動(dòng)社會(huì)前進(jìn)的新引擎。
例如,在AI數(shù)據(jù)的質(zhì)量和效率方面,云測(cè)數(shù)據(jù)在軟、硬件的投入上下足了功夫。
一方面,云測(cè)數(shù)據(jù)在華北、華東、華南搭建了專業(yè)的場(chǎng)景實(shí)驗(yàn)室和數(shù)據(jù)標(biāo)注基地,進(jìn)行相應(yīng)的AI數(shù)據(jù)交付。同時(shí),自研出專業(yè)的、擁有自主知識(shí)產(chǎn)權(quán)的數(shù)據(jù)標(biāo)注工具,提升標(biāo)注效率。
另一方面,云測(cè)數(shù)據(jù)設(shè)計(jì)了從創(chuàng)建任務(wù)、分配任務(wù)、標(biāo)注流轉(zhuǎn)、到質(zhì)檢/抽檢環(huán)節(jié)和最后的驗(yàn)收等更完善的管理流程,每個(gè)環(huán)節(jié)有相應(yīng)專業(yè)人員來把控?cái)?shù)據(jù)標(biāo)注的質(zhì)量和時(shí)間節(jié)點(diǎn),進(jìn)行上下游工作環(huán)節(jié)銜接,得以在保證數(shù)據(jù)交付質(zhì)量的前提下,真正提高生產(chǎn)效率。
在AI數(shù)據(jù)的安全方面,云測(cè)數(shù)據(jù)也始終堅(jiān)守著AI數(shù)據(jù)安全隱私的紅線。
對(duì)于AI行業(yè)而言,如何在合理使用數(shù)據(jù)的前提下保障用戶隱私、杜絕數(shù)據(jù)濫用行為一直都是每個(gè)AI企業(yè)必須要面對(duì)的課題。
作為一家為獨(dú)立第三方身份的數(shù)據(jù)服務(wù)商,云測(cè)數(shù)據(jù)在數(shù)據(jù)交付客戶后清毀數(shù)據(jù)不留底,絕不進(jìn)行二次使用。
同時(shí),云測(cè)數(shù)據(jù)與所有數(shù)據(jù)采集的用戶都簽訂數(shù)據(jù)授權(quán)協(xié)議,確保AI企業(yè)用于訓(xùn)練的數(shù)據(jù)合法合規(guī)。
此外,還建立一整套相關(guān)的數(shù)據(jù)保障機(jī)制,如從防火墻的設(shè)置、內(nèi)部信息系統(tǒng)的管護(hù)、乃至標(biāo)準(zhǔn)化的流程作業(yè)體系等,充分保障數(shù)據(jù)安全。
舍恩伯格在《大數(shù)據(jù)時(shí)代》中預(yù)言:“數(shù)據(jù)可以量化一切,文字變成了數(shù)據(jù),方位變成了數(shù)據(jù),溝通變成了數(shù)據(jù),直到萬物的數(shù)據(jù)化。”
以數(shù)據(jù)價(jià)值為支撐的數(shù)字經(jīng)濟(jì)正成為推動(dòng)社會(huì)前進(jìn)的主要模式,由AI等創(chuàng)新技術(shù)驅(qū)動(dòng)的數(shù)字化轉(zhuǎn)型成為新基建的核心。
而驅(qū)動(dòng)這趟科技列車前行的卻是一個(gè)個(gè)看似微不足道的數(shù)據(jù),這些被標(biāo)注的數(shù)據(jù)就像娟娟細(xì)流,最終將匯聚在AI新基建的大江大河之中,幻化成澎湃的時(shí)代波濤奔涌向前。
【關(guān)于科技云報(bào)道】
專注于原創(chuàng)的企業(yè)級(jí)內(nèi)容行家——科技云報(bào)道。成立于2015年,是前沿企業(yè)級(jí)IT領(lǐng)域Top10媒體。獲工信部權(quán)威認(rèn)可,可信云、全球云計(jì)算大會(huì)官方指定傳播媒體之一。深入原創(chuàng)報(bào)道云計(jì)算、大數(shù)據(jù)、人工智能、區(qū)塊鏈等領(lǐng)域。
來源:科技云報(bào)道
免責(zé)聲明:此文內(nèi)容為第三方自媒體作者發(fā)布的觀察或評(píng)論性文章,所有文字和圖片版權(quán)歸作者所有,且僅代表作者個(gè)人觀點(diǎn),與極客網(wǎng)無關(guān)。文章僅供讀者參考,并請(qǐng)自行核實(shí)相關(guān)內(nèi)容。投訴郵箱:editor@fromgeek.com。
- 2024年劇集氪金力大盤點(diǎn)
- “共創(chuàng)”、“造梗”成頂流,傳統(tǒng)品牌緣何要花式出圈?
- 人形機(jī)器人瘋狂進(jìn)廠打工!銀河通用、智元、樂聚機(jī)器人怕是都瘋了
- 因?yàn)樗投Y電商!2025微信、抖音、淘寶又撕破了臉
- 中國手機(jī)市場(chǎng)成績單:華為增長最快,蘋果跌幅最大
- 原以為微軟、亞馬遜、阿里云云計(jì)算大局已定!沒想到有這四大變數(shù)
- 崖州灣之旅:看見海與智能,聯(lián)想到了未來
- 榮耀換帥,一艘AI巨輪的舵手更替會(huì)帶來什么?
- 泳池機(jī)器人Aiper,從價(jià)值鏈高處“游”進(jìn)全球庭院
- 榮耀換帥,加速迎接科技變革下的新全球化挑戰(zhàn)
免責(zé)聲明:本網(wǎng)站內(nèi)容主要來自原創(chuàng)、合作伙伴供稿和第三方自媒體作者投稿,凡在本網(wǎng)站出現(xiàn)的信息,均僅供參考。本網(wǎng)站將盡力確保所提供信息的準(zhǔn)確性及可靠性,但不保證有關(guān)資料的準(zhǔn)確性及可靠性,讀者在使用前請(qǐng)進(jìn)一步核實(shí),并對(duì)任何自主決定的行為負(fù)責(zé)。本網(wǎng)站對(duì)有關(guān)資料所引致的錯(cuò)誤、不確或遺漏,概不負(fù)任何法律責(zé)任。任何單位或個(gè)人認(rèn)為本網(wǎng)站中的網(wǎng)頁或鏈接內(nèi)容可能涉嫌侵犯其知識(shí)產(chǎn)權(quán)或存在不實(shí)內(nèi)容時(shí),應(yīng)及時(shí)向本網(wǎng)站提出書面權(quán)利通知或不實(shí)情況說明,并提供身份證明、權(quán)屬證明及詳細(xì)侵權(quán)或不實(shí)情況證明。本網(wǎng)站在收到上述法律文件后,將會(huì)依法盡快聯(lián)系相關(guān)文章源頭核實(shí),溝通刪除相關(guān)內(nèi)容或斷開相關(guān)鏈接。