精品国产亚洲一区二区三区|亚洲国产精彩中文乱码AV|久久久久亚洲AV综合波多野结衣|漂亮少妇各种调教玩弄在线

<blockquote id="ixlwe"><option id="ixlwe"></option></blockquote>

<abbr id="ixlwe"></abbr>

直播
榜單
7x24h快訊

極客網(wǎng) > 自明星 >

垂直大模型競(jìng)爭(zhēng)，能突破數(shù)據(jù)“卡點(diǎn)”嗎？

人閱讀
2023-05-19 13:51:00
相關(guān)關(guān)鍵詞
- 自明星-科技云報(bào)道

科技云報(bào)道原創(chuàng)。

AI大模型火遍全球，中國(guó)產(chǎn)業(yè)也激發(fā)了對(duì)人工智能應(yīng)用的新熱情。

隨著各大廠商參與競(jìng)逐，市場(chǎng)正在分化為通用與垂直兩大路徑，兩者在參數(shù)級(jí)別、應(yīng)用場(chǎng)景、商業(yè)模式等方面差異已逐步顯現(xiàn)。

企業(yè)涌入垂直大模型賽道

?

通用AI大模型像ChatGPT，能夠處理各種領(lǐng)域和場(chǎng)景的自然語(yǔ)言，但由于需要巨大的計(jì)算資源和數(shù)據(jù)量，已經(jīng)成為國(guó)內(nèi)外大廠的重點(diǎn)項(xiàng)目。

這類企業(yè)往往有著強(qiáng)大的技術(shù)團(tuán)隊(duì)和資金支持，且有著自己的場(chǎng)景和流量?jī)?yōu)勢(shì)。比如百度、阿里、騰訊、字節(jié)、華為等，在搜索、社交、電商、辦公等領(lǐng)域都有著自己的通用AI大模型。

相較之下，創(chuàng)業(yè)公司、細(xì)分領(lǐng)域企業(yè)很難在這樣的競(jìng)爭(zhēng)中獲得先發(fā)優(yōu)勢(shì)或者差異化優(yōu)勢(shì)。

而垂直AI大模型只關(guān)注某個(gè)特定的領(lǐng)域或者場(chǎng)景，它能夠利用行業(yè)的數(shù)據(jù)和知識(shí)，提供更精準(zhǔn)和高效的解決方案，更好地滿足用戶在某個(gè)領(lǐng)域或者場(chǎng)景下的需求和期待，如：醫(yī)療、金融、教育等。

同時(shí)，它可以利用一些開(kāi)源或者閉源的通用AI大模型作為基礎(chǔ)，然后在其上進(jìn)行指令微調(diào)（instruction tuning），來(lái)適應(yīng)自己的目標(biāo)領(lǐng)域或者場(chǎng)景。

因此，它的參數(shù)規(guī)模比通用大模型低一個(gè)量級(jí)，如果讓數(shù)據(jù)飛輪和模型訓(xùn)練能夠很好結(jié)合，在某些特定領(lǐng)域甚至比通用大模型的效果更好、成本更低。

在這樣的背景下，越來(lái)越多的企業(yè)加入了垂直大模型的賽道。

5月18日，深信服發(fā)布國(guó)內(nèi)首個(gè)自研安全大模型，成為安全領(lǐng)域GPT技術(shù)應(yīng)用首秀；

5月5日，學(xué)而思宣布正在進(jìn)行自研數(shù)學(xué)大模型的研發(fā)，命名為MathGPT，面向全球數(shù)學(xué)愛(ài)好者和科研機(jī)構(gòu)；

3月，達(dá)觀數(shù)據(jù)公布正在開(kāi)發(fā)曹植系統(tǒng)，專注于金融、政務(wù)、制造等垂直領(lǐng)域的大語(yǔ)言模型。

明確的商業(yè)化落地場(chǎng)景和更低的算力成本，為各類企業(yè)打開(kāi)了進(jìn)軍垂直大模型的大門。

垂直大模型的考驗(yàn)

垂直大模型的優(yōu)勢(shì)在于不夠大：算力不夠大、算法難度低，但并不代表垂直大模型誰(shuí)都能做。

眾所周知，AI大模型三要素：算力、算法、數(shù)據(jù)，都是喂養(yǎng)AI的“飼料”。

先說(shuō)算力。

大模型之所以“大”，就是因?yàn)閰?shù)眾多和數(shù)據(jù)量龐大。AI大模型所需要的計(jì)算量，大致上相當(dāng)于參數(shù)量與數(shù)據(jù)量的乘積。

過(guò)去5年，AI大模型的參數(shù)量幾乎每年提升一個(gè)數(shù)量級(jí)，例如GPT-4參數(shù)量是GPT-3的16倍，達(dá)到1.6萬(wàn)億個(gè)。

隨著圖像、音視頻等多模態(tài)數(shù)據(jù)的引入，大模型的數(shù)據(jù)量也在飛速膨脹。這意味著想要玩轉(zhuǎn)大模型，必須擁有大算力。

而一套垂直大模型的訓(xùn)練和推理成本，做個(gè)參考，在數(shù)字人垂類技術(shù)場(chǎng)景中，可以做到比Open AI同參數(shù)規(guī)模的模型低一個(gè)量級(jí)，像啟元世界的戰(zhàn)略總監(jiān)王思捷就曾提到：先構(gòu)建更小的垂類模型（比如百億參數(shù)、十億參數(shù)），讓數(shù)據(jù)飛輪和模型訓(xùn)練能夠很好結(jié)合，垂類模型在某些領(lǐng)域可能比Open AI的效果更好成本更低。

即便垂直大模型在算力要求上已遠(yuǎn)遠(yuǎn)低于通用大模型，但對(duì)算力基礎(chǔ)設(shè)施的投入依然會(huì)阻擋部分小公司的入局。

再說(shuō)算法。

在三要素中，算法的研發(fā)難度相對(duì)較低，每家公司都有自己實(shí)現(xiàn)大模型的路徑算法，且有眾多開(kāi)源項(xiàng)目可作為參考，中國(guó)公司最容易縮短甚至抹平差距。

最后說(shuō)數(shù)據(jù)。

高質(zhì)量的數(shù)據(jù)是助力AI訓(xùn)練與調(diào)優(yōu)的關(guān)鍵，足夠多、足夠豐富的數(shù)據(jù)，是AI大模型的根基。

OpenAI此前披露，為了AI像人類那樣流暢交談，研發(fā)人員給GPT-3.5提供多達(dá)45TB的文本語(yǔ)料，相當(dāng)于472萬(wàn)套中國(guó)“四大名著”。這些語(yǔ)料的來(lái)源包括維基百科、網(wǎng)絡(luò)文章、書籍期刊等，甚至還將代碼開(kāi)源平臺(tái)Github納入其中。

但是聚焦到細(xì)分行業(yè)，數(shù)據(jù)的獲取就沒(méi)那么容易了。

興業(yè)證券公開(kāi)表示，要訓(xùn)練專業(yè)的行業(yè)大模型，優(yōu)質(zhì)的行業(yè)數(shù)據(jù)、公共數(shù)據(jù)至關(guān)重要。

就國(guó)內(nèi)數(shù)據(jù)市場(chǎng)而言，據(jù)發(fā)改委官方批露，我國(guó)政府?dāng)?shù)據(jù)資源占全國(guó)數(shù)據(jù)資源的比重超過(guò)3/4，但開(kāi)放規(guī)模不足美國(guó)的10%，個(gè)人和企業(yè)可以利用的規(guī)模更是不及美國(guó)的7%。

而行業(yè)數(shù)據(jù)更是非常核心的私域數(shù)據(jù)，私域數(shù)據(jù)量越大，質(zhì)量越高，就越有價(jià)值。

比如，一個(gè)醫(yī)療公司擁有大量醫(yī)療數(shù)據(jù)、病例數(shù)據(jù)，那么它就能開(kāi)發(fā)出醫(yī)療垂直大模型類的產(chǎn)品。同理，建筑行業(yè)的項(xiàng)目數(shù)據(jù)、金融行業(yè)的用戶畫像數(shù)據(jù)、海運(yùn)行業(yè)的船位數(shù)據(jù)等，都是賦能垂直大模型的關(guān)鍵。

但是這些私域數(shù)據(jù)都攥在企業(yè)自己手中，而且為了數(shù)據(jù)安全和合規(guī)，絕大部分機(jī)構(gòu)是要本地化部署才會(huì)嘗試大模型訓(xùn)練，很難想象企業(yè)會(huì)把自己的核心數(shù)據(jù)拿給別人去訓(xùn)練。

此外，如何合理地給數(shù)據(jù)打上分級(jí)標(biāo)簽、做好標(biāo)注也非常重要。數(shù)據(jù)分級(jí)分類能夠幫助產(chǎn)品提效，而高精度的標(biāo)注數(shù)據(jù)能夠進(jìn)一步提升大模型的專業(yè)表現(xiàn)。

但現(xiàn)階段垂直行業(yè)想要獲取高精度標(biāo)注數(shù)據(jù)的成本較高，而在公開(kāi)數(shù)據(jù)庫(kù)中，行業(yè)專業(yè)數(shù)據(jù)也較少，因此對(duì)垂直大模型的建構(gòu)提出了很高的要求。

總體而言，想要做好垂直大模型，數(shù)據(jù)的重要性，遠(yuǎn)超過(guò)算力和算法。

數(shù)據(jù)，已成為企業(yè)突破垂直大模型的“卡點(diǎn)”。

手握行業(yè)數(shù)據(jù)領(lǐng)先一步

?

垂類大模型講求應(yīng)用與場(chǎng)景先行的邏輯，而在國(guó)內(nèi)更是強(qiáng)調(diào)產(chǎn)業(yè)側(cè)的價(jià)值。

一方面，在當(dāng)前中國(guó)的智能化浪潮下，產(chǎn)業(yè)側(cè)數(shù)字化革新本就有廣闊的市場(chǎng)需求；另一方面，在toB生態(tài)下，基于垂直應(yīng)用的實(shí)踐也有利于形成數(shù)據(jù)飛輪與場(chǎng)景飛輪。

而這一切的前提，是推出垂類大模型的公司在該行業(yè)已建立技術(shù)壁壘與護(hù)城河，即“人無(wú)我有”的競(jìng)爭(zhēng)優(yōu)勢(shì)。

如此看來(lái)，在垂直行業(yè)深耕多年的企業(yè)或?qū)⒂懈蟮内A面。

這類企業(yè)在數(shù)據(jù)層面、大模型以及知識(shí)圖譜方面都有較為深厚的積累，對(duì)于大模型的優(yōu)化更具優(yōu)勢(shì)。同時(shí)，它們對(duì)于to B客戶需求和落地場(chǎng)景有很深的理解，能夠更好地保證垂直大模型產(chǎn)品的可信和可靠，滿足企業(yè)級(jí)對(duì)于安全可控合規(guī)的需求。

目前，已有一些垂類大模型在金融、教育、醫(yī)藥、營(yíng)銷等場(chǎng)景中得到試煉。

例如，彭博社利用自身豐富的金融數(shù)據(jù)源，基于開(kāi)源的GPT-3框架再訓(xùn)練，開(kāi)發(fā)出了金融專屬大模型BloombergGPT；

網(wǎng)易有道則面向教育場(chǎng)景，推出自研的類ChatGPT模型“子曰”；

在ChatGPT發(fā)布后僅幾周，谷歌公布了一個(gè)專門用于回答醫(yī)療保健相關(guān)問(wèn)題的大型醫(yī)用語(yǔ)言模型Med-PaLM......

相信隨著越來(lái)越多企業(yè)入局，垂直大模型在各個(gè)行業(yè)和細(xì)分領(lǐng)域中將大量涌現(xiàn)。而那些能將一個(gè)垂直領(lǐng)域做專、做透，用高質(zhì)量的數(shù)據(jù)持續(xù)優(yōu)化模型，跑通商業(yè)閉環(huán)，構(gòu)建起產(chǎn)業(yè)生態(tài)的企業(yè)，最終將把價(jià)值鏈做到足夠長(zhǎng)。

來(lái)源：科技云報(bào)道

免責(zé)聲明：此文內(nèi)容為第三方自媒體作者發(fā)布的觀察或評(píng)論性文章，所有文字和圖片版權(quán)歸作者所有，且僅代表作者個(gè)人觀點(diǎn)，與極客網(wǎng)無(wú)關(guān)。文章僅供讀者參考，并請(qǐng)自行核實(shí)相關(guān)內(nèi)容。投訴郵箱：editor@fromgeek.com。

極客網(wǎng)企業(yè)會(huì)員

免責(zé)聲明：本網(wǎng)站內(nèi)容主要來(lái)自原創(chuàng)、合作伙伴供稿和第三方自媒體作者投稿，凡在本網(wǎng)站出現(xiàn)的信息，均僅供參考。本網(wǎng)站將盡力確保所提供信息的準(zhǔn)確性及可靠性，但不保證有關(guān)資料的準(zhǔn)確性及可靠性，讀者在使用前請(qǐng)進(jìn)一步核實(shí)，并對(duì)任何自主決定的行為負(fù)責(zé)。本網(wǎng)站對(duì)有關(guān)資料所引致的錯(cuò)誤、不確或遺漏，概不負(fù)任何法律責(zé)任。任何單位或個(gè)人認(rèn)為本網(wǎng)站中的網(wǎng)頁(yè)或鏈接內(nèi)容可能涉嫌侵犯其知識(shí)產(chǎn)權(quán)或存在不實(shí)內(nèi)容時(shí)，應(yīng)及時(shí)向本網(wǎng)站提出書面權(quán)利通知或不實(shí)情況說(shuō)明，并提供身份證明、權(quán)屬證明及詳細(xì)侵權(quán)或不實(shí)情況證明。本網(wǎng)站在收到上述法律文件后，將會(huì)依法盡快聯(lián)系相關(guān)文章源頭核實(shí)，溝通刪除相關(guān)內(nèi)容或斷開(kāi)相關(guān)鏈接。

下一篇

阿斯麥訂單“腰斬”股價(jià)暴跌16%，半導(dǎo)體產(chǎn)業(yè)寒冬來(lái)了？

阿斯麥訂單腰斬阿斯麥訂單阿斯麥股價(jià)暴跌

極客觀察

專題報(bào)道

企業(yè)專欄

簡(jiǎn)版
原版
投稿
回頂部

2023-05-19

垂直大模型競(jìng)爭(zhēng)，能突破數(shù)據(jù)“卡點(diǎn)”嗎？

垂直大模型競(jìng)爭(zhēng)，能突破數(shù)據(jù)“卡點(diǎn)”嗎？

長(zhǎng)按掃碼閱讀全文