2019年,人們再次談起人工智能時,最常聊到的便是其如何應(yīng)用。因為大家心里都清楚,人工智能要想服務(wù)于企業(yè)和社會,必須先從實驗室中走出來,放下它那神秘高貴的外表,腳踏實地。
然而,就像半導(dǎo)體技術(shù)一樣,在誕生之初,它沒有得到產(chǎn)業(yè)的認(rèn)可,主要是因為高昂的制作費(fèi)用,一顆電晶體成本高達(dá)10美元,被戲稱作實驗室里的玩具。直到硅提純、精密加工等技術(shù)的發(fā)展,才有了由杰克·基爾比所研發(fā)的現(xiàn)代集成電路,目前10美元可以買數(shù)千萬甚至上億顆電晶體。
人工智能的成本又由何組成呢?它不像芯片一樣擁有明碼標(biāo)價的BOM,普遍認(rèn)為其主要來自于研發(fā)人員及工程師的薪資和服務(wù)器維護(hù),事實上這個想法不夠全面。絕大多數(shù)企業(yè)所采取的人工智能技術(shù)名為機(jī)器學(xué)習(xí),需要有脫敏的訓(xùn)練數(shù)據(jù)支撐才得以運(yùn)行。哪怕是實現(xiàn)Hopfield,也需要遠(yuǎn)超想象的數(shù)據(jù)量,更何況是現(xiàn)如今那些擁有強(qiáng)魯棒性的模型了。
數(shù)據(jù)采集標(biāo)注看起來很簡單,無非就是拍個照片標(biāo)個點,但是真正要操作起來卻根本不是那么一回事。首先要想在足夠短的周期內(nèi)采集到足夠的數(shù)據(jù)量,必須要有足夠的人手配置。假若要10萬張人臉表情照片并且要有300個點需要標(biāo)注,每人每天貢獻(xiàn)20張合格的素材算是一個較為平均的水平,企業(yè)數(shù)據(jù)采集標(biāo)注團(tuán)隊擁有50個人,那么完成這一單生意就需要100天的時長,也就是3個多月。
拿到數(shù)據(jù)后再去復(fù)審、訓(xùn)練,到最后功能上線,少說也要將近半年的時間。這顯然對不上軟件疊代更新的理念。再加上這些人員的培訓(xùn)組織運(yùn)營成本等等,一筆合格的數(shù)據(jù)采集業(yè)務(wù)的交付可能高達(dá)幾萬甚至數(shù)十萬元。這也是為什么會有一種觀點表示,人工智能不僅不會替代勞動力,反而會增加就業(yè)。
在海外,率先察覺到由人工智能所催生的新一片藍(lán)海——數(shù)據(jù)采集和數(shù)據(jù)標(biāo)注,最早由Appen為代表,后來隨著MightyAI、Scale這樣的公司出現(xiàn),逐漸走向穩(wěn)定。這個爆發(fā)點大約是在2016年,諸如后者這樣的公司,均是在2015、2016這兩年間出現(xiàn)的。而就在最近,Scale AI創(chuàng)始人,華裔22歲青年Alexandr Wang宣布獲得1億美金C輪融資,公司估值超10億美金,成為硅谷新晉獨角獸。
反觀國內(nèi),人工智能的浪潮其實要比國外更為洶涌,然而專業(yè)從事數(shù)據(jù)采集標(biāo)注的公司發(fā)展卻比較滯后。即便是有幾家相關(guān)的公司,卻多半為自營狀態(tài),和海外服務(wù)眾多AI企業(yè)的平臺模式截然相反。當(dāng)然,誰都是吃客單生意的,不同并不代表做錯了。
國內(nèi)有一家公司名為龍貓數(shù)據(jù),是國內(nèi)首家以眾包的形式運(yùn)營采集標(biāo)注業(yè)務(wù)的。眾包形式的好處就在于人員調(diào)用足夠充沛,相較于傳統(tǒng)的員工制,眾包形式更為靈活。同時,淡季的時候也不用支付員工薪資,減輕了運(yùn)營成本。
但是眾包形式的缺點在于用戶管理,數(shù)據(jù)采集成員和龍貓之間并沒有勞務(wù)合同,只有平臺運(yùn)營規(guī)范作為制約。龍貓數(shù)據(jù)因此采取了精細(xì)化管理的方式,對用戶進(jìn)行能力畫像,將不同用戶分配到多個不同環(huán)節(jié),包括數(shù)據(jù)采集和標(biāo)注、數(shù)據(jù)審查等等。
為了提高數(shù)據(jù)產(chǎn)出的質(zhì)量與效率,配合龍貓數(shù)據(jù)的眾包模式和精細(xì)化用戶運(yùn)營,龍貓數(shù)據(jù)采用了預(yù)標(biāo)注工具和人機(jī)交叉數(shù)據(jù)驗證這兩種措施。前者是指,龍貓眾包平臺的AI工具會先對需要標(biāo)注的數(shù)據(jù)進(jìn)行預(yù)標(biāo)注,然后再由標(biāo)注人員對預(yù)標(biāo)注結(jié)果進(jìn)行微調(diào);后者則指的是龍貓數(shù)據(jù)會對標(biāo)注好的數(shù)據(jù)進(jìn)行機(jī)器和人的雙重交叉審核,加上合理數(shù)量的抽檢,最終滿足數(shù)據(jù)交付的要求。
借用眾包的模式,從任務(wù)發(fā)布到數(shù)據(jù)交付,這樣一個流程下來,即便是幾十萬數(shù)據(jù)規(guī)模的大單,短短一兩周也就能搞定。
龍貓數(shù)據(jù)也有頭疼的地方,他們有一個客戶是全球非常知名的通信設(shè)備商。根據(jù)GDPR的規(guī)定,凡是消費(fèi)到GDPR所保護(hù)地區(qū)的產(chǎn)品,必須要遵守相關(guān)規(guī)定。這也就使得龍貓在數(shù)據(jù)采集時也要合乎GDPR的標(biāo)準(zhǔn)。為此,龍貓招納了深入了解GDPR的相關(guān)人士。
人工智能飛速發(fā)展為數(shù)據(jù)行業(yè)帶來了大量不同的基礎(chǔ)數(shù)據(jù)需求,龍貓數(shù)據(jù)的客單總體分為兩類:采集標(biāo)注過的數(shù)據(jù)和沒有采集標(biāo)注過的數(shù)據(jù)。已有的數(shù)據(jù)再次采集標(biāo)注是一種資源浪費(fèi)。于是龍貓數(shù)據(jù)推出了一項數(shù)據(jù)商城服務(wù),即用戶可直接在商城中購買已經(jīng)存在的數(shù)據(jù)集,以便快速拿到數(shù)據(jù)。當(dāng)然了,數(shù)據(jù)商城的數(shù)據(jù)在復(fù)售前都會與客戶簽訂一定的協(xié)議,已保證龍貓數(shù)據(jù)依然合法享有這批數(shù)據(jù)的銷售權(quán)。
類似于知識產(chǎn)權(quán),數(shù)據(jù)在銷售以后還是存在的,也就是說某一企業(yè)在購買數(shù)據(jù)后,它可以將其復(fù)制給其他公司。相當(dāng)于多個企業(yè)只要買一份數(shù)據(jù)就能完成所有的訓(xùn)練了,在經(jīng)濟(jì)學(xué)的角度來講,哪怕是購買方銷售了一次數(shù)據(jù),這對于龍貓數(shù)據(jù)來說都是一種損失。區(qū)塊鏈或許是一種解決辦法,不過當(dāng)下,龍貓把注意力放在了另一件事上。
龍貓數(shù)據(jù)將自己目前的發(fā)展分為了三個層次,第一層次為龍貓1.0,即數(shù)據(jù)標(biāo)注工具集合。1.0時期,龍貓開發(fā)了基于視覺、音頻、文本這三大領(lǐng)域的標(biāo)注工具,用于對數(shù)據(jù)進(jìn)行手動處理,以服務(wù)于機(jī)器學(xué)習(xí)的訓(xùn)練。第二層為龍貓2.0,在這段時間里,龍貓開始從整體流程上對數(shù)據(jù)采集標(biāo)注進(jìn)行優(yōu)化,實現(xiàn)了從接到需求到完成需求的全過程自動化管理,其中非常重要的一部分是對數(shù)據(jù)采集標(biāo)注任務(wù)的細(xì)化拆分,將一個復(fù)雜的任務(wù)細(xì)化拆分成顆粒度極小的需求,極大提升了需求滿足的時間。
2019年,龍貓數(shù)據(jù)進(jìn)入了3.0時期,開發(fā)AI預(yù)標(biāo)注工具。目前這種預(yù)標(biāo)注工具主要應(yīng)用在視覺層面,而音頻和文本這兩項業(yè)務(wù)應(yīng)用較少。龍貓數(shù)據(jù)3.0所代表的是全面采用預(yù)標(biāo)注技術(shù)和工具,能夠讓所有數(shù)據(jù)采集標(biāo)注人員都能使用,從而提高效率,對于龍貓數(shù)據(jù)來說,這種工具的應(yīng)用能夠極大縮短交付周期。
龍貓數(shù)據(jù)3.0會持續(xù)一段時間,隨后便進(jìn)入4.0時期。在那個時期里,龍貓會全面采用自動化標(biāo)注工具,用戶只需要對采集數(shù)據(jù)和預(yù)標(biāo)注結(jié)果進(jìn)行微調(diào),標(biāo)注及審核、質(zhì)檢工作全面由人工智能所代替。只是這個道路還較為遙遠(yuǎn),現(xiàn)在不好估量。
然而不難想象的是,未來的數(shù)據(jù)采集公司必須要通過工具和預(yù)標(biāo)注來形成自己的技術(shù)壁壘。采集過程主要依靠人來完成,其規(guī)模和效率主要來自于市場運(yùn)營和任務(wù)獎勵,這也就意味著從采集到產(chǎn)出之間,勞動時間越短,成本也就越少,能夠完成的客單數(shù)量也就越多。
從客戶數(shù)量來看,龍貓現(xiàn)有約200家客戶左右,基于眾包形式的優(yōu)勢,這種數(shù)量級是合理的。畢竟從外部看,在質(zhì)量合格的前提下,自然會選擇產(chǎn)品周期最短,價格最便宜的公司。這種模式也造就了龍貓數(shù)據(jù)客戶復(fù)購量大,核心客戶客單價高的局面。
從內(nèi)部看,龍貓數(shù)據(jù)的模式?jīng)]有大幅度變更,反倒是流程發(fā)生了變化,最根本的原因還是在于工具的進(jìn)化。同時,龍貓自3.0時期開始也不再是一家傳統(tǒng)的數(shù)據(jù)采集標(biāo)注公司,而是一家人工智能公司。
或許他們想要的是從數(shù)據(jù)基礎(chǔ)服務(wù)到人工智能的發(fā)展轉(zhuǎn)變,由單純的AI數(shù)據(jù)服務(wù)延伸到細(xì)分領(lǐng)域整體AI落地。借助AI的力量,將人工智能里最需要人工的部分解放出來,成就人工智能領(lǐng)域最智能的人工。這是他們最擅長的,畢竟他們是人工智能領(lǐng)域的筑基者,他們也最明白如何用好AI這股強(qiáng)大的原生力量。
“只有退潮了才知道誰沒穿褲衩。”這句話被人們說了無數(shù)次,最早能追溯到豆你玩、姜你軍時期。無論是VR、O2O、人工智能都是一樣的道理。
話又說回來了,數(shù)據(jù)采集標(biāo)注作為人工智能的上游,它也需要人工智能開發(fā)能力,最終形成了一種閉環(huán)。未來會怎樣,沒人說得清楚,但是人工智能的未來絕對不是吹噓自己的算法能有99%的補(bǔ)償、能解決幾百億數(shù)據(jù)量求梯度,而是要從每一比特的數(shù)據(jù)開始積累,直至幾十乃至幾百ZB。
- 特斯拉Model Y新版預(yù)售,iPhone 18 Pro系列升級,汽車界與科技界碰撞新火花
- 小鵬汽車何小鵬回應(yīng)特斯拉 Model Y 撞臉風(fēng)波:設(shè)計碰撞,靈感碰撞,究竟誰更勝一籌?
- 日本車商2024年新車銷量下滑,本田跌至近10年最低位,中國市場面臨挑戰(zhàn)?
- 英偉達(dá)批評美政府AI芯片出口限制:限制不利己,全球轉(zhuǎn)向替代技術(shù)之風(fēng)
- 特斯拉煥新Model Y難敵華為問界R7,智能科技誰領(lǐng)風(fēng)騷?
- 開源巨頭聯(lián)手打造Chromium聯(lián)盟,推動Linux生態(tài)創(chuàng)新發(fā)展
- 曹德旺巨資辦校,福耀科技大學(xué)引領(lǐng)行業(yè)新風(fēng)向,培養(yǎng)未來之星
- 愛馳汽車陷股權(quán)凍結(jié)風(fēng)波,能否順利復(fù)工復(fù)產(chǎn)引關(guān)注
- 小鵬汽車CEO何小鵬:雷軍不僅直言不諱,還勸我多做營銷,不失為良師益友
- 馬斯克大膽計劃:未來十年內(nèi)特斯拉機(jī)器人產(chǎn)能提升10倍,300億機(jī)器人將顛覆各行各業(yè)
免責(zé)聲明:本網(wǎng)站內(nèi)容主要來自原創(chuàng)、合作伙伴供稿和第三方自媒體作者投稿,凡在本網(wǎng)站出現(xiàn)的信息,均僅供參考。本網(wǎng)站將盡力確保所提供信息的準(zhǔn)確性及可靠性,但不保證有關(guān)資料的準(zhǔn)確性及可靠性,讀者在使用前請進(jìn)一步核實,并對任何自主決定的行為負(fù)責(zé)。本網(wǎng)站對有關(guān)資料所引致的錯誤、不確或遺漏,概不負(fù)任何法律責(zé)任。任何單位或個人認(rèn)為本網(wǎng)站中的網(wǎng)頁或鏈接內(nèi)容可能涉嫌侵犯其知識產(chǎn)權(quán)或存在不實內(nèi)容時,應(yīng)及時向本網(wǎng)站提出書面權(quán)利通知或不實情況說明,并提供身份證明、權(quán)屬證明及詳細(xì)侵權(quán)或不實情況證明。本網(wǎng)站在收到上述法律文件后,將會依法盡快聯(lián)系相關(guān)文章源頭核實,溝通刪除相關(guān)內(nèi)容或斷開相關(guān)鏈接。