在舊金山的 Showplace 廣場(chǎng),一棟曾經(jīng)屬于Airbnb的商業(yè)大樓最近迎來了新主人。在大部分科技公司都在業(yè)務(wù)收縮的當(dāng)下,ScaleAI,這家由95后華人創(chuàng)立的人工智能數(shù)據(jù)標(biāo)注公司,大手一揮租下了舊金山市中心約18萬平英尺的辦公室。
就在不久前,Scale AI完成了最新一輪10億美元的融資,估值達(dá)到138億美元,比上一輪的73億美元再翻了一倍。在這輪由硅谷頂級(jí)基金Accel領(lǐng)投的F輪融資中,除了YC、英偉達(dá)等現(xiàn)有投資者之外,還加入了一長(zhǎng)串的新投資者名單,包括:亞馬遜、Meta、AMD、高通、思科、英特爾、高通等等,參與機(jī)構(gòu)高達(dá)22個(gè)。
而這些巨頭投資Scale AI的出發(fā)點(diǎn)大多相似——它們基本都是Scale AI的客戶。在AI飛速發(fā)展的當(dāng)下,數(shù)據(jù)標(biāo)記,這個(gè)看似簡(jiǎn)單無趣、勞動(dòng)密集的低門檻業(yè)務(wù),卻被Scale AI一步一步地做成了一個(gè)大生意。
AI“藍(lán)領(lǐng)工廠”
在過去的一段時(shí)間里,提起“AI賣鏟人”,英偉達(dá)無疑是被提及最多的公司。但很多人不知道的是,Scale AI也扮演著同樣的角色。眾所周知,算力、算法和數(shù)據(jù)構(gòu)成了人工智能的三大支柱,英偉達(dá)占據(jù)著AI算力的山峰,Scale AI則是當(dāng)前為AI提供數(shù)據(jù)支撐的最主要服務(wù)商。
Scale AI 成立于2016,其創(chuàng)始人是生于1997年的華人Alexandr Wang,創(chuàng)立公司時(shí)年僅19歲,在MIT剛讀完大一。Scale創(chuàng)立之初主要專注于人工智能數(shù)據(jù)標(biāo)注,核心業(yè)務(wù)是幫助企業(yè)收集、清理、標(biāo)注、以及管理大規(guī)模的高質(zhì)量數(shù)據(jù),以便訓(xùn)練和優(yōu)化機(jī)器學(xué)習(xí)模型。
實(shí)際上,在Scale AI崛起之前,數(shù)據(jù)標(biāo)注在AI領(lǐng)域?qū)嶋H上長(zhǎng)期處于“邊緣”位置。所謂的數(shù)據(jù)標(biāo)注,是指為圖像、文本、視頻或音頻等原始數(shù)據(jù)添加結(jié)構(gòu)化信息,以便機(jī)器學(xué)習(xí)模型能夠理解和學(xué)習(xí)這些數(shù)據(jù)的過程。聽起來好像很復(fù)雜?但其實(shí)這是個(gè)小學(xué)生都能做的事情,比如給你一張圖片,讓你標(biāo)出圖片中的行人、車輛、建筑等,給你一段文本,讓你標(biāo)寫哪些感嘆句、哪些是疑問句,給你一段語音讓你打上情緒或說話者身份標(biāo)簽等等。
雖然原理很簡(jiǎn)單,但這些經(jīng)過標(biāo)注的數(shù)據(jù)對(duì)于人工智能的發(fā)展不可或缺。AI模型需要大量的標(biāo)注數(shù)據(jù)來進(jìn)行學(xué)習(xí),才能具備識(shí)別、分類和預(yù)測(cè)等功能。
但讓眾多AI公司頭疼的地方是,盡管一些自動(dòng)化工具可以加快部分標(biāo)注過程,但為了得到高質(zhì)量、高精確度的標(biāo)注數(shù)據(jù),仍然需要大量的人工來處理、標(biāo)記和驗(yàn)證數(shù)據(jù)。特別是在高精度要求的領(lǐng)域,如醫(yī)學(xué)影像、自動(dòng)駕駛或JS應(yīng)用,錯(cuò)誤標(biāo)注可能會(huì)導(dǎo)致嚴(yán)重的后果。也正因如此,數(shù)據(jù)標(biāo)注被認(rèn)為是一個(gè)勞動(dòng)密集型業(yè)務(wù),很多公司不愿意也沒有精力去自己管理,導(dǎo)致標(biāo)注數(shù)據(jù)的獲取的過程既耗時(shí)又昂貴。
Scale AI攬下了這個(gè)“辛苦活”。Scale AI 的早期定位是要通過結(jié)合自動(dòng)化技術(shù)與人力審核,創(chuàng)建一個(gè)高效、精確的標(biāo)注平臺(tái),幫助企業(yè)快速處理和標(biāo)注大規(guī)模的數(shù)據(jù)集。它的業(yè)務(wù)模式很簡(jiǎn)單:接洽到有標(biāo)記需求的公司,對(duì)數(shù)據(jù)進(jìn)行簡(jiǎn)單的預(yù)處理和清洗之后,將其外包給非洲、東南亞等勞工對(duì)數(shù)據(jù)進(jìn)行標(biāo)記。
2017年,Scale AI 成立了 Remotasks 作為其內(nèi)部外包機(jī)構(gòu),在肯尼亞、菲律賓、委內(nèi)瑞拉等地設(shè)立了幾十家機(jī)構(gòu),在各地培訓(xùn)了成千上萬的數(shù)據(jù)標(biāo)注員,這些標(biāo)注員的工作大部分都是按件計(jì)酬,一次標(biāo)注的收入低至幾美分,很多合約工在時(shí)薪甚至不到1美元。而在這樣的“全球工廠”模式下,Scale AI的毛利率卻能長(zhǎng)期保持在65%以上。
踩中每一次風(fēng)口
雖然數(shù)據(jù)標(biāo)注看上去是一個(gè)低門檻的業(yè)務(wù),但在2016年前后的“AI沉寂期”中卻幾乎是一個(gè)市場(chǎng)空白,只有谷歌、亞馬遜等一些大公司有自己的數(shù)據(jù)標(biāo)注部門。而Scale AI 的成功很大程度上得益于它精準(zhǔn)地洞察到了這一機(jī)遇并且抓住了近10年來人工智能行業(yè)發(fā)展的幾次風(fēng)口。
首先是自動(dòng)駕駛。在Scale AI成立幾個(gè)月后,他們就發(fā)現(xiàn)了自動(dòng)駕駛領(lǐng)域?qū)τ跀?shù)據(jù)標(biāo)注的大規(guī)模和剛性需求。自動(dòng)駕駛技術(shù)的發(fā)展依賴于大量高精度的標(biāo)注數(shù)據(jù),例如道路場(chǎng)景、行人和其他物體的圖像數(shù)據(jù),車企需要成千上萬小時(shí)的視頻數(shù)據(jù)進(jìn)行標(biāo)注來訓(xùn)練和驗(yàn)證其算法,就整個(gè)自動(dòng)駕駛行業(yè)來看,當(dāng)時(shí)90%以上的數(shù)據(jù)標(biāo)注都是以人工為主。Scale AI 通過高效的數(shù)據(jù)標(biāo)注平臺(tái),以及使用模型輔助標(biāo)注和數(shù)據(jù)預(yù)處理來加速數(shù)據(jù)處理流程,進(jìn)而大幅降低了標(biāo)注成本和時(shí)間,吸引了當(dāng)時(shí)風(fēng)頭正盛的Waymo、Cruise等企業(yè)成為了它的客戶,進(jìn)而逐漸在自動(dòng)駕駛數(shù)據(jù)標(biāo)注領(lǐng)域站穩(wěn)腳跟。
在自動(dòng)駕駛領(lǐng)域初嘗甜頭之后,Scale AI開始全面進(jìn)軍AIaaS(AI 即服務(wù))市場(chǎng)。它從單純的數(shù)據(jù)標(biāo)記延伸到數(shù)據(jù)服務(wù),提供從數(shù)據(jù)標(biāo)記和管理、模型訓(xùn)練和評(píng)估,再到AI 應(yīng)用開發(fā)和部署的全流程解決方案。
此外,為了應(yīng)對(duì)某些行業(yè)數(shù)據(jù)不足的挑戰(zhàn),Scale AI還向下游延伸到合成數(shù)據(jù)的生成,通過從現(xiàn)有數(shù)據(jù)中創(chuàng)建新的數(shù)據(jù)集,幫助訓(xùn)練模型。于是在之后的幾年里,Scale AI在數(shù)據(jù)領(lǐng)域迅速崛起,客戶也擴(kuò)展到了醫(yī)療、國(guó)防、電商、政府服務(wù)等領(lǐng)域。在成立兩年多之后,Scale AI的營(yíng)收已經(jīng)接近5000萬美元。
Scale AI還精準(zhǔn)地把握了生成式 AI爆發(fā)的機(jī)遇。早在GPT-2上,Scale就與 OpenAI 就進(jìn)行了首次帶有人類反饋的強(qiáng)化學(xué)習(xí)合作實(shí)驗(yàn),接著將這些技術(shù)擴(kuò)展到InstructGPT及其他領(lǐng)域。而由于生成式 AI 模型需要海量的訓(xùn)練數(shù)據(jù)來提升其生成內(nèi)容的準(zhǔn)確性和多樣性,大語言模型的爆發(fā)式增長(zhǎng)極大地推動(dòng)了整個(gè)行業(yè)對(duì)高質(zhì)量標(biāo)注數(shù)據(jù)的需求,Scale AI 通過整合數(shù)據(jù)標(biāo)注、數(shù)據(jù)合成等服務(wù),為生成式 AI 提供了必要的數(shù)據(jù)支持。此外,Scale AI還幫助企業(yè)快速生成定制化的 API,以減少了自行訓(xùn)練模型的復(fù)雜性和成本。
針對(duì)生成式AI,Scale目前已經(jīng)推出了全流程的平臺(tái)服務(wù),包括開發(fā)者工具平臺(tái) Scale Spellbook、合成數(shù)據(jù)產(chǎn)品 Scale Synthetic、企業(yè)級(jí)GenAI平臺(tái)等,目標(biāo)是讓企業(yè)在每一個(gè)場(chǎng)景下都有足夠的數(shù)據(jù)來支持模型的訓(xùn)練,憑借著在數(shù)據(jù)領(lǐng)域的獨(dú)特優(yōu)勢(shì),過去兩年,Scale AI的客戶激增,既有OpenAI、Meta、AWS、英偉達(dá)這樣的巨頭,也有Cohere、Adept等這樣的新興獨(dú)角獸。而他們中的很多,也在這一輪融資中成為了Scale AI的投資者。
為什么是Scale AI突圍
關(guān)于Scale AI的崛起,很多人都很疑問,對(duì)于這樣一個(gè)處于AI上游且勞動(dòng)密集的行業(yè),中國(guó)似乎具有先天的優(yōu)勢(shì),為什么沒有類似的企業(yè)脫穎而出?總體來看,這背后主要有兩方面的因素,一是行業(yè),二是融資。
在生成式AI熱潮之前,國(guó)內(nèi)的人工智能發(fā)展在場(chǎng)景應(yīng)用方面一度領(lǐng)先,數(shù)據(jù)標(biāo)注業(yè)務(wù)其實(shí)很早就起步發(fā)展了,但并沒有形成規(guī)模。很多龍頭企業(yè)雖然成立了數(shù)據(jù)標(biāo)注部門,但主要是來為自身業(yè)務(wù)服務(wù),而并不是尋求將數(shù)據(jù)與各個(gè)行業(yè)進(jìn)行資源匹配。同時(shí),正因?yàn)閲?guó)內(nèi)的人口紅利,讓標(biāo)注后的數(shù)據(jù)獲取成本低廉,也讓企業(yè)并沒有動(dòng)力去采用技術(shù)平臺(tái)。據(jù)了解,長(zhǎng)期以來,國(guó)內(nèi)的數(shù)據(jù)標(biāo)注行業(yè)的價(jià)格都很透明, 時(shí)薪普遍在10-25人民幣左右且大多沒有學(xué)歷限制。
而相較而言,美國(guó)人力成本高昂,在LinkedIn、indeed等平臺(tái)上,數(shù)據(jù)標(biāo)注的兼職時(shí)薪大多都在30-200美元之間,這在客觀上就要求企業(yè)需要從技術(shù)的角度去思考解決數(shù)據(jù)生產(chǎn)問題,或者采購(gòu)相關(guān)服務(wù)。
從融資環(huán)境來看,國(guó)內(nèi)的數(shù)據(jù)標(biāo)注市場(chǎng)一直都處于AI領(lǐng)域的融資邊緣地帶。2021年左右,研究估計(jì)中國(guó)整個(gè)數(shù)據(jù)標(biāo)注市場(chǎng)的規(guī)模僅為43億人民幣,2022年僅增長(zhǎng)至51億人民幣。這個(gè)數(shù)字相較于整個(gè)AI市場(chǎng)的千萬億規(guī)模無疑不值一提,也造成了數(shù)據(jù)標(biāo)注公司的融資困難。2021年,當(dāng)Scale AI已經(jīng)完成3.25億美元的E輪融資,估值達(dá)到了73億美元時(shí),中國(guó)的同類創(chuàng)業(yè)公司大部分還停留在A輪。
之所以此前國(guó)內(nèi)的規(guī)模如此之小,是因?yàn)橹皇菃渭兛紤]了標(biāo)注這一個(gè)環(huán)節(jié)。而實(shí)際上,從數(shù)據(jù)標(biāo)注所衍生出來的數(shù)據(jù)管理、數(shù)據(jù)評(píng)估、數(shù)據(jù)合成等全流程的數(shù)據(jù)服務(wù)才是這個(gè)行業(yè)中的增值部分。
關(guān)于數(shù)據(jù)對(duì)于大語言模型發(fā)展的重要性,Scale AI的創(chuàng)始人Alex Wang在最近的訪談中談到,人們已經(jīng)用盡了互聯(lián)網(wǎng)上的所有數(shù)據(jù),想要開發(fā)出比GPT-4.5更強(qiáng)大的人工智能,則必須構(gòu)建前沿?cái)?shù)據(jù)。所謂的“前沿?cái)?shù)據(jù)”是指那些與應(yīng)用場(chǎng)景密切相關(guān)、能及時(shí)反映最新趨勢(shì)和變化的數(shù)據(jù),往往包含大量長(zhǎng)尾或少見的場(chǎng)景,有助于提升AI在非典型情況下的表現(xiàn),推動(dòng)人工智能能力的邊界向復(fù)雜推理、多模態(tài)等方向發(fā)展。
隨著AI向縱深發(fā)展,未來的數(shù)據(jù)訓(xùn)練需要更多地與特定任務(wù)、特定應(yīng)用場(chǎng)景相匹配,因此也需要挖掘和生產(chǎn)出更多新的、差異化的數(shù)據(jù),這是Scale AI此輪10億美元融資之后的工作重點(diǎn),也進(jìn)一步打開了數(shù)據(jù)標(biāo)注的想象邊界。
免責(zé)聲明:本網(wǎng)站內(nèi)容主要來自原創(chuàng)、合作伙伴供稿和第三方自媒體作者投稿,凡在本網(wǎng)站出現(xiàn)的信息,均僅供參考。本網(wǎng)站將盡力確保所提供信息的準(zhǔn)確性及可靠性,但不保證有關(guān)資料的準(zhǔn)確性及可靠性,讀者在使用前請(qǐng)進(jìn)一步核實(shí),并對(duì)任何自主決定的行為負(fù)責(zé)。本網(wǎng)站對(duì)有關(guān)資料所引致的錯(cuò)誤、不確或遺漏,概不負(fù)任何法律責(zé)任。任何單位或個(gè)人認(rèn)為本網(wǎng)站中的網(wǎng)頁(yè)或鏈接內(nèi)容可能涉嫌侵犯其知識(shí)產(chǎn)權(quán)或存在不實(shí)內(nèi)容時(shí),應(yīng)及時(shí)向本網(wǎng)站提出書面權(quán)利通知或不實(shí)情況說明,并提供身份證明、權(quán)屬證明及詳細(xì)侵權(quán)或不實(shí)情況證明。本網(wǎng)站在收到上述法律文件后,將會(huì)依法盡快聯(lián)系相關(guān)文章源頭核實(shí),溝通刪除相關(guān)內(nèi)容或斷開相關(guān)鏈接。