有個(gè)著名咨詢(xún)公司曾經(jīng)預(yù)測(cè)過(guò):未來(lái)只有兩種公司,有人工智能的和不賺錢(qián)的。
它可能沒(méi)想到,還有第三種——不賺錢(qián)的AI公司。
去年我們報(bào)道過(guò)“正在消失的機(jī)器視覺(jué)公司”,昔日的“AI四小龍”( 商湯、曠視、云從、依圖),在商業(yè)化盈利上各有各的不順。不過(guò),隨著GPT系列產(chǎn)品又掀起一股“大煉模型”的熱潮,這些AI公司又支棱起來(lái)了。
商湯科技此前曾披露,下一步的發(fā)展戰(zhàn)略是通用人工智能(AGI),繼續(xù)推進(jìn)“大裝置+大模型”,并發(fā)布了1800億參數(shù)的中文語(yǔ)言大模型 “商量”。
曠視科技也表態(tài),會(huì)堅(jiān)定投入生成式大模型的研發(fā),保持核心技術(shù)能力長(zhǎng)期領(lǐng)先。
云從科技公開(kāi)的定增預(yù)案中,為云從“行業(yè)精靈”大模型研發(fā)項(xiàng)目,募集資金不超過(guò)36.35億元。
依圖科技沒(méi)有公開(kāi)消息,但在此前的融資中曾因AI大模型和國(guó)產(chǎn)芯片等被看好。
無(wú)論是上一輪,以BERT、GPT-3為代表的“預(yù)訓(xùn)練+精調(diào)”大模型,還是此刻正紅火的,以ChatGPT、GPT-4、文心一言等為代表的“預(yù)訓(xùn)練+精調(diào)+提示+RLHF(人類(lèi)反饋)”的大語(yǔ)言模型,已經(jīng)成為各大頭部科技公司“秀肌肉”、相互競(jìng)爭(zhēng)的重要工具。
谷歌、百度等大廠跑著入場(chǎng),各路大模型“神仙斗法”。這場(chǎng)狂歡派對(duì),成了機(jī)器視覺(jué)公司不得不玩、又玩不起的游戲。
尷尬的“長(zhǎng)衫”
最近,CV公司參與到大模型這局游戲中,出現(xiàn)了這樣的畫(huà)風(fēng):語(yǔ)氣一會(huì)兒大,一會(huì)兒慫。
在公開(kāi)信息中,都表示自己會(huì)加大投入,去解決基礎(chǔ)技術(shù)、基礎(chǔ)問(wèn)題。云從的管理者說(shuō)要“投一二十億解決算力問(wèn)題”“我們是技術(shù)公司,研發(fā)投入不會(huì)低”;商湯的有關(guān)人士稱(chēng),要做“統(tǒng)一化標(biāo)準(zhǔn)化的大模型”“加速構(gòu)建通用人工智能的核心能力”;曠視也對(duì)標(biāo)OpenAI,要“做影響物理世界的 AI 技術(shù)創(chuàng)新”。
談到大模型技術(shù)和產(chǎn)品本身,底氣又不足了。
這個(gè)說(shuō)“基礎(chǔ)大模型要有長(zhǎng)期布局,NLP難點(diǎn)很多,短期內(nèi)與境外領(lǐng)先企業(yè)會(huì)存在較大差距”,那個(gè)說(shuō)“中國(guó)AI公司有商業(yè)化的壓力,不能像OpenAI那樣不計(jì)代價(jià)的創(chuàng)新”。
“預(yù)期管理”算是被你們玩明白了。
年輕人流行說(shuō)自己是“脫不下長(zhǎng)衫的孔乙己”,CV公司對(duì)于大模型這種不尷不尬的處境,其實(shí)也和“孔乙己”有相似之處。
CV公司在底層技術(shù)、基礎(chǔ)設(shè)施、人才、資金、生態(tài)等領(lǐng)域的積累,不如頭部科技企業(yè)優(yōu)勢(shì)顯著。所以,自然也不可能真的跟谷歌、OpenAI、BATH(百度、阿里、騰訊、華為)正面打擂臺(tái),燒錢(qián)去做通用的基礎(chǔ)大模型(foundation model)。
新一輪大語(yǔ)言模型,完整技術(shù)棧、工程實(shí)現(xiàn)能力、算力成本、數(shù)據(jù)積累等都有極高的門(mén)檻,AI公司自研大語(yǔ)言模型的難度前所未有。 OpenAI 在2022年就花掉了5.44億美元,收入只有3600萬(wàn)美元,這是國(guó)內(nèi)CV公司不具備的家底兒。
當(dāng)然,外界也不應(yīng)該過(guò)度放大CV公司的責(zé)任,非要將巨頭才能承擔(dān)的創(chuàng)新壓力放在CV公司身上。
但是,CV公司又有著“AI-native原生企業(yè)”的光環(huán),也確實(shí)積累了很多技術(shù)儲(chǔ)備, 所以也不能直接躺平,像ISV集成商、軟件公司一樣依附大廠,歡欣鼓舞地等著集成或調(diào)用API就好。
昔日的“AI四小龍”還是要撐起“技術(shù)自立”的架子,努力融入這波煉大模型的熱潮里,于是,又將模型數(shù)量和參數(shù)規(guī)模的比拼,拉升到了新的競(jìng)爭(zhēng)水平。
比如云從有NLP、視覺(jué)領(lǐng)域的預(yù)訓(xùn)練模型,商湯在“AI大裝置SenseCore”的基礎(chǔ)上,構(gòu)建的日日新大模型體系就包含了通用視覺(jué)模型、中文語(yǔ)言模型、圖片生成模型……其中,僅“商量”大模型的參數(shù)規(guī)模,就和GPT-3差不多。
今天大家都感慨,孔乙己脫下長(zhǎng)衫不容易,換個(gè)角度,“大模型”這件長(zhǎng)衫,CV公司是不是有必要穿上呢?
玩不起的游戲
從2018年的預(yù)訓(xùn)練大模型到2023年的大語(yǔ)言模型,大模型走過(guò)了一個(gè)從萌芽到繁榮的小周期,種類(lèi)、功能也豐富起來(lái),我們已經(jīng)見(jiàn)過(guò)很多AI企業(yè)、高校和科研機(jī)構(gòu)、行業(yè)公司所打造的各種各樣的大模型。
問(wèn)題來(lái)了:
第一,大模型的“智能涌現(xiàn)”,需要在超大規(guī)模的數(shù)據(jù)和充分的訓(xùn)練才能出現(xiàn),只有不計(jì)投入的基礎(chǔ)模型能做到。
很多面向行業(yè)的預(yù)訓(xùn)練大模型,由于數(shù)據(jù)和訓(xùn)練不足,無(wú)法達(dá)到“智能涌現(xiàn)”的臨界點(diǎn),這也是為什么此前預(yù)訓(xùn)練大模型那么多,卻只有ChatGPT的到來(lái),才證實(shí)了“通用人工智能”的可行性。
在基礎(chǔ)模型的魯棒性、泛化性極大提升的今天,一味盲目地“訓(xùn)大模型”,結(jié)果就是“大小班同上”,基礎(chǔ)大模型和行業(yè)大模型一起,消耗本就不充沛的算力,進(jìn)一步推高計(jì)算成本,讓AI企業(yè)背上更重的負(fù)擔(dān)。
第二,大模型的商業(yè)化路徑,標(biāo)準(zhǔn)化API是比較基礎(chǔ)的一種,而基礎(chǔ)模型API有虹吸效應(yīng)。
簡(jiǎn)單來(lái)說(shuō),通過(guò)API接入AI能力,技術(shù)是決定性因素,基礎(chǔ)模型的能力強(qiáng)、受眾廣泛,很容易通過(guò)API經(jīng)濟(jì)完成商業(yè)化,而行業(yè)大模型面對(duì)的領(lǐng)域較窄,很難通過(guò)“規(guī)模效應(yīng)”來(lái)攤薄研發(fā)成本。
隨著一個(gè)又一個(gè)大模型被推向市場(chǎng),大家恍然發(fā)現(xiàn):原來(lái)我們并不缺大模型,缺的是商業(yè)化路徑。
目前,大模型的商業(yè)化還比較有限,C端通用產(chǎn)品貼成本定價(jià),B端盈利前景不明朗,根據(jù) A16Z 對(duì)美國(guó) LLM 創(chuàng)業(yè)調(diào)研,純模型廠商只能拿走0-10%的價(jià)值,并且要長(zhǎng)期對(duì)標(biāo)OpenAI的定價(jià)策略,會(huì)面臨很大的商業(yè)化壓力。
通用基礎(chǔ)模型和行業(yè)大模型一起面向市場(chǎng)和客戶(hù),結(jié)果就是,在商業(yè)價(jià)值分配上產(chǎn)生博弈。AI巨頭“神仙斗法”,打造出的通用基礎(chǔ)大模型會(huì)吸引產(chǎn)業(yè)和用戶(hù)的最多關(guān)注。
而大量行業(yè)大模型,要么在訓(xùn)完后無(wú)人問(wèn)津,浪費(fèi)了前期投入;要么無(wú)法滿(mǎn)足產(chǎn)業(yè)需求,商業(yè)化前景受限;或者跟通用基礎(chǔ)大模型的能力有沖突,導(dǎo)致商業(yè)化達(dá)不到預(yù)期。
同為AI創(chuàng)業(yè)型公司的出門(mén)問(wèn)問(wèn)創(chuàng)始人李志飛,就在一次采訪中直言:“不是所有人都要去做通用大模型,貿(mào)然進(jìn)入,難度很大,商業(yè)競(jìng)爭(zhēng)很激烈,想不清商業(yè)模式到最后會(huì)很痛苦。”
所以,大煉模型,可能是CV公司目前玩不起的一局游戲。
輕裝上陣的路
你可能會(huì)問(wèn),現(xiàn)在大模型這么火,不訓(xùn)大模型怎么能吃到這波紅利,在新一輪AI熱潮里建立優(yōu)勢(shì)呢?
CV公司要輕裝上陣,可能要嘗試這樣幾條路,去探索大模型熱潮中的機(jī)會(huì):
1.跟基礎(chǔ)大模型平臺(tái)建立更緊密地聯(lián)系。
自己開(kāi)發(fā)大模型難度太大,訓(xùn)練成本、存算成本過(guò)高,社區(qū)生態(tài)支持也不夠充足??梢哉驹诰奕说募绨蛏希尤牖A(chǔ)模型的能力打造小模型,與基礎(chǔ)模型的商業(yè)模式形成差異。
此前CV公司盈利難的一個(gè)挑戰(zhàn)是:機(jī)器視覺(jué)要進(jìn)入腰尾市場(chǎng),存在著海量的碎片化需求,客戶(hù)體量比較小、數(shù)量多,項(xiàng)目規(guī)模不大,這對(duì)CV公司的開(kāi)發(fā)效率提出了很高的要求。
通用的成熟型算法,無(wú)法滿(mǎn)足細(xì)分需求,但全靠算法工程師來(lái)定制開(kāi)發(fā)不現(xiàn)實(shí),也不夠經(jīng)濟(jì)劃算?;A(chǔ)大模型,將算法開(kāi)發(fā)推進(jìn)到工業(yè)化階段,減少了編程工作量,提高了開(kāi)發(fā)效率,定制化算法的性?xún)r(jià)比提高,也就更容易為企業(yè)所接受。
對(duì)于CV公司來(lái)說(shuō),算法進(jìn)入工業(yè)化大生產(chǎn)階段,將碎片化需求全面覆蓋、規(guī)?;瘡?fù)用,整體營(yíng)收能力自然也就上來(lái)了。
2.深入到具體行業(yè)中去,構(gòu)筑能產(chǎn)生差異化的應(yīng)用產(chǎn)品。
基礎(chǔ)模型要走向產(chǎn)業(yè),必須進(jìn)一步精調(diào),CV公司就有相應(yīng)的優(yōu)勢(shì)。
很多高度專(zhuān)業(yè)化或復(fù)雜的工作,比如金融、建筑設(shè)計(jì)、編程、辦公、客服等,需要精準(zhǔn)的垂類(lèi)知識(shí);一些特定領(lǐng)域,比如醫(yī)療、司法,非結(jié)構(gòu)化數(shù)據(jù)比較稀缺。沒(méi)有足夠的語(yǔ)料來(lái)“投喂”,基礎(chǔ)模型在這些場(chǎng)景就會(huì)欠缺一些“常識(shí)”,比如GPT-4就寫(xiě)不好中文詩(shī)。
據(jù)說(shuō),GPT-3.5的訓(xùn)練數(shù)據(jù)集全部為私有數(shù)據(jù)集,其中關(guān)鍵的SFT訓(xùn)練集,有89.3%的數(shù)據(jù)是定制的。
CV公司大多有自己聚焦的垂直領(lǐng)域,比如依圖的智能醫(yī)療,曠視的物聯(lián)網(wǎng),云從的智慧園區(qū),商湯的智慧城市、智慧出行等,可以結(jié)合在相關(guān)領(lǐng)域沉淀的差異化數(shù)據(jù)集,利用精調(diào)或prompt的方式,打造出更加精確、可靠的小模型,更容易部署,為AI應(yīng)用加速AI的快速落地。
3.建立更具韌性的生態(tài)合作護(hù)城河。
CV公司在大模型技術(shù)上的積累,就會(huì)變成AI 2.0時(shí)代的底牌,也可以作為與AI巨頭、算力提供商的生態(tài)合作籌碼。
比如這一輪大模型,對(duì)提示學(xué)習(xí)、人類(lèi)反饋的強(qiáng)化學(xué)習(xí)RLHF等提出了很高的要求,讓模型在人類(lèi)的引導(dǎo)下,發(fā)現(xiàn)知識(shí)的使用方式,理解人類(lèi)的偏好,這在國(guó)內(nèi)都屬于很新的領(lǐng)域,提示師、專(zhuān)業(yè)標(biāo)注師很少。有媒體報(bào)道,OpenAI的標(biāo)注員,本科學(xué)歷52.6%,碩士學(xué)歷36.8%,這就不能全部靠眾包模式來(lái)進(jìn)行數(shù)據(jù)標(biāo)注,必須擁有自己的垂直領(lǐng)域的標(biāo)注團(tuán)隊(duì)。
比如醫(yī)療領(lǐng)域,醫(yī)學(xué)圖像還沒(méi)有建立起自然圖像那么大級(jí)別的數(shù)據(jù)庫(kù),而對(duì)醫(yī)學(xué)圖像的標(biāo)注是很難的,不像自然圖像標(biāo)注,普通人一看就知道是什么,醫(yī)學(xué)圖像的數(shù)據(jù)標(biāo)注涉及到器官、癌變等專(zhuān)業(yè)知識(shí),就需要針對(duì)性地積累。
這樣的高水平技術(shù)人員,恰恰是CV公司這種AI-native原生企業(yè)的重要資源,可以與產(chǎn)業(yè)鏈上下游開(kāi)展更緊密地合作,從而保障產(chǎn)品和服務(wù)的競(jìng)爭(zhēng)力和可持續(xù)性,吸引客戶(hù)更多地將數(shù)據(jù)放入自己的產(chǎn)品中,形成馬太效應(yīng)。
大模型開(kāi)辟了一條蘊(yùn)藏著極大價(jià)值和可能性的新路,被寄托了太多期待和野心。要有大模型能力,不代表要自己訓(xùn)大模型。
重復(fù)建設(shè)的熱潮終會(huì)褪去,屆時(shí),大模型商業(yè)化的考驗(yàn)才剛剛開(kāi)始。
對(duì)于CV公司來(lái)說(shuō),脫下“大模型”的長(zhǎng)衫,是為了留住商業(yè)化的“底褲”。集體弄潮只是只是一時(shí)熱鬧,保存實(shí)力才能在AI江湖中走得更遠(yuǎn)。
免責(zé)聲明:此文內(nèi)容為第三方自媒體作者發(fā)布的觀察或評(píng)論性文章,所有文字和圖片版權(quán)歸作者所有,且僅代表作者個(gè)人觀點(diǎn),與極客網(wǎng)無(wú)關(guān)。文章僅供讀者參考,并請(qǐng)自行核實(shí)相關(guān)內(nèi)容。投訴郵箱:editor@fromgeek.com。
- 2024年劇集氪金力大盤(pán)點(diǎn)
- “共創(chuàng)”、“造?!背身斄鳎瑐鹘y(tǒng)品牌緣何要花式出圈?
- 人形機(jī)器人瘋狂進(jìn)廠打工!銀河通用、智元、樂(lè)聚機(jī)器人怕是都瘋了
- 因?yàn)樗投Y電商!2025微信、抖音、淘寶又撕破了臉
- 中國(guó)手機(jī)市場(chǎng)成績(jī)單:華為增長(zhǎng)最快,蘋(píng)果跌幅最大
- 原以為微軟、亞馬遜、阿里云云計(jì)算大局已定!沒(méi)想到有這四大變數(shù)
- 崖州灣之旅:看見(jiàn)海與智能,聯(lián)想到了未來(lái)
- 榮耀換帥,一艘AI巨輪的舵手更替會(huì)帶來(lái)什么?
- 泳池機(jī)器人Aiper,從價(jià)值鏈高處“游”進(jìn)全球庭院
- 榮耀換帥,加速迎接科技變革下的新全球化挑戰(zhàn)
免責(zé)聲明:本網(wǎng)站內(nèi)容主要來(lái)自原創(chuàng)、合作伙伴供稿和第三方自媒體作者投稿,凡在本網(wǎng)站出現(xiàn)的信息,均僅供參考。本網(wǎng)站將盡力確保所提供信息的準(zhǔn)確性及可靠性,但不保證有關(guān)資料的準(zhǔn)確性及可靠性,讀者在使用前請(qǐng)進(jìn)一步核實(shí),并對(duì)任何自主決定的行為負(fù)責(zé)。本網(wǎng)站對(duì)有關(guān)資料所引致的錯(cuò)誤、不確或遺漏,概不負(fù)任何法律責(zé)任。任何單位或個(gè)人認(rèn)為本網(wǎng)站中的網(wǎng)頁(yè)或鏈接內(nèi)容可能涉嫌侵犯其知識(shí)產(chǎn)權(quán)或存在不實(shí)內(nèi)容時(shí),應(yīng)及時(shí)向本網(wǎng)站提出書(shū)面權(quán)利通知或不實(shí)情況說(shuō)明,并提供身份證明、權(quán)屬證明及詳細(xì)侵權(quán)或不實(shí)情況證明。本網(wǎng)站在收到上述法律文件后,將會(huì)依法盡快聯(lián)系相關(guān)文章源頭核實(shí),溝通刪除相關(guān)內(nèi)容或斷開(kāi)相關(guān)鏈接。