精品国产亚洲一区二区三区|亚洲国产精彩中文乱码AV|久久久久亚洲AV综合波多野结衣|漂亮少妇各种调教玩弄在线

<blockquote id="ixlwe"><option id="ixlwe"></option></blockquote>

<abbr id="ixlwe"></abbr>

<source id="o4iam"><tr id="o4iam"></tr></source>

<s id="o4iam"><delect id="o4iam"></delect></s>

直播
榜單
7x24h快訊

極客網(wǎng) > 7x24h快訊 > 極客快訊 >

政產(chǎn)學(xué)研大咖共話中國大模型語料庫的價(jià)值與挑戰(zhàn)

人閱讀
2023-11-29 13:48:02
來源：西盟科技資訊
相關(guān)關(guān)鍵詞
- 星環(huán)科技

11月26日，在2023全球數(shù)商大會(huì)上，星環(huán)科技成功舉辦了數(shù)據(jù)要素市場與大模型語料庫論壇暨中國大模型語料數(shù)據(jù)聯(lián)盟開放日活動(dòng)。

論壇上，中國大模型語料庫的價(jià)值與挑戰(zhàn)圓桌對話，由星環(huán)科技智能量化事業(yè)部總經(jīng)理曾晨光主持，上海市經(jīng)濟(jì)和信息化委員會(huì)信息化推進(jìn)處干部薛威、復(fù)旦大學(xué)大數(shù)據(jù)學(xué)院副院長陽德青、上海財(cái)聯(lián)社技術(shù)總監(jiān)葉周、上海數(shù)交所技術(shù)開發(fā)高級經(jīng)理孫江，從主管機(jī)構(gòu)、學(xué)界、數(shù)據(jù)機(jī)構(gòu)、交易所視角共同探討中國大模型語料庫建設(shè)。

圖1.jpg

圓桌對話實(shí)錄

曾晨光(主持人)：今年8月上海市發(fā)布了《立足數(shù)字經(jīng)濟(jì)新賽道推動(dòng)數(shù)據(jù)要素產(chǎn)業(yè)創(chuàng)新發(fā)展行動(dòng)方案(2023-2025年)》，獲得了非常高的呼聲，越來越多人關(guān)注數(shù)據(jù)要素尤其是語料庫、數(shù)據(jù)交易和數(shù)據(jù)牌照等一系列落地內(nèi)容?？煞裰攸c(diǎn)介紹一下未來行動(dòng)方案發(fā)力點(diǎn)以及上海的特色?

薛威：我們今年10月份正式對外發(fā)布了這部行動(dòng)方案，一共有23條，也是落實(shí)國家《數(shù)據(jù)二十條》的具體舉措。我挑幾個(gè)具體的方向：

第一，構(gòu)建產(chǎn)業(yè)的數(shù)據(jù)樞紐，面向一些產(chǎn)業(yè)集成度較高的領(lǐng)域，建設(shè)重點(diǎn)樞紐型平臺，比如電力、核能、新材料、集成電路、人工智能等領(lǐng)域，我們將會(huì)布局建設(shè)能夠連接整個(gè)產(chǎn)業(yè)鏈上下游所有數(shù)據(jù)要素資源的樞紐性平臺和機(jī)構(gòu)。

第二，構(gòu)建行業(yè)特色型的數(shù)據(jù)空間。這次大會(huì)特別把國際數(shù)據(jù)空間協(xié)會(huì)的外賓請到主論壇現(xiàn)場，介紹了他們相關(guān)的經(jīng)驗(yàn)，我們希望在上海也針對比如金融、航運(yùn)等特色領(lǐng)域，建設(shè)一批特色的行業(yè)數(shù)據(jù)空間。

第三，加快建設(shè)數(shù)據(jù)交易所。今天的數(shù)商大會(huì)就是數(shù)據(jù)交易所不斷提升能級的具體體現(xiàn)，我們?yōu)榇蠹叶紭?gòu)建了一些非常有實(shí)效和行業(yè)能級的平臺，希望大家同我們一起用好這些平臺的資源，一起推動(dòng)上海數(shù)據(jù)要素產(chǎn)業(yè)的創(chuàng)新發(fā)展。

曾晨光(主持人)：上海數(shù)據(jù)交易所發(fā)布了首款大模型應(yīng)用-入場咨詢助手問答數(shù)字人，想請問站在上海數(shù)據(jù)交易所的視角，如何推動(dòng)國內(nèi)語料庫的健康、高效、合規(guī)發(fā)展?

孫江：上海數(shù)據(jù)交易所的重要使命之一是提供給市場合規(guī)、高效、集約、低成本的數(shù)據(jù)流通交易基礎(chǔ)設(shè)施。要關(guān)注三點(diǎn)：數(shù)據(jù)要供得出、流得動(dòng)、用得好。

我們在市經(jīng)信委領(lǐng)導(dǎo)下，在人工智能協(xié)會(huì)的倡導(dǎo)下，于9月份開設(shè)了語料庫的版塊。目前語料庫板塊掛牌了69款數(shù)據(jù)產(chǎn)品，包括也有部分網(wǎng)紅產(chǎn)品已經(jīng)進(jìn)行了交易。

同時(shí)，在流得動(dòng)方面也在國家工程實(shí)驗(yàn)室的指導(dǎo)下，與梅宏院士的頂尖團(tuán)隊(duì)構(gòu)建鏈網(wǎng)融合數(shù)據(jù)交易技術(shù)創(chuàng)新方案、與鄔江興院士的頂尖團(tuán)隊(duì)合作構(gòu)建內(nèi)生可信交付框架體系。產(chǎn)業(yè)數(shù)據(jù)跨域融合平臺的落地與推廣也在有序的進(jìn)行中，以數(shù)據(jù)空間的方式，發(fā)揮數(shù)據(jù)要素乘數(shù)效應(yīng)，提升niDts數(shù)據(jù)交易平臺的效能。

用得好方面，前兩年上海數(shù)據(jù)交易所提出了“無合規(guī)不掛牌，無場景不交易”，針對大模型應(yīng)用也是一樣的道理。具體來說就是基于垂直行業(yè)要解決的具體問題，從場景出發(fā)聚焦大模型能力的輸出，拉動(dòng)供需雙方進(jìn)行數(shù)據(jù)撮合，形成語料庫供應(yīng)的產(chǎn)業(yè)鏈發(fā)展。

曾晨光(主持人)：在專有領(lǐng)域的語料庫層面，財(cái)聯(lián)社本身是獲得巨大媒體資源的媒體平臺，同時(shí)在通用領(lǐng)域語料有很多貢獻(xiàn)，尤其是在金融領(lǐng)域的語料積累，據(jù)了解現(xiàn)在已經(jīng)開始儲(chǔ)備一些微調(diào)的指令和預(yù)訓(xùn)練高質(zhì)量語料集，這些知識工程現(xiàn)在是什么進(jìn)展?有什么最新的內(nèi)容可以與大家分享?

葉周：財(cái)聯(lián)社在語料這塊，除了前面提到的語料的分級分類，還有一塊是SFT，或者是其他一些數(shù)據(jù)。從另一個(gè)視角來看，廣義的數(shù)據(jù)可以分成兩大類，一種是Data in training，訓(xùn)練時(shí)候用的語料;還有一種是Data in use，在使用場景中重點(diǎn)積累，具體的使用又可以細(xì)分為SFT，針對像金融領(lǐng)域，比如要寫一篇財(cái)經(jīng)的稿子，它的文風(fēng)應(yīng)該是怎么樣的，這種數(shù)據(jù)是在積累。還有一個(gè)是真正日常使用的，比如需要引用一些投研的觀點(diǎn)，或者做一些分析，通過向量查詢的方式來使用這些數(shù)據(jù)。還有一種隱蔽類型的數(shù)據(jù)就是我們的提示詞，這也是和星環(huán)科技在很多具體場景上積累的，比如像剛才提到的風(fēng)控，也積累了一些提示詞，這幾塊都是目前我們正在投入積累的，也是發(fā)揮財(cái)聯(lián)社作為財(cái)經(jīng)媒體和數(shù)據(jù)供應(yīng)商的優(yōu)勢。

曾晨光(主持人)：目前知識圖譜和大模型結(jié)合有幾個(gè)論調(diào)，有些人認(rèn)為大模型已經(jīng)具有知識了無需知識圖譜，也有人認(rèn)為知識圖譜可以有效補(bǔ)充大模型知識的精準(zhǔn)度和廣泛性避免幻覺，同時(shí)也有人認(rèn)為可以把知識圖譜訓(xùn)練到大模型中去。請分享一下見解。

陽德青：我所在的研究領(lǐng)域，基本過去十年都是專注于知識圖譜的研究。大模型有很多知識，我們不懂的，大模型能回答。知識圖譜到底還需不需要，從專業(yè)角度來講，它們是有所不同的，各有優(yōu)劣，更好的方式是把這兩者結(jié)合起來。

具體談一談大模型和知識圖譜各自的優(yōu)劣勢。先說大模型，基于大規(guī)模的語料訓(xùn)練，知識儲(chǔ)備比較豐富，其強(qiáng)大之處在于自然語言理解和生成能力。但對于一些預(yù)訓(xùn)練過程中沒有碰到的，尤其垂直領(lǐng)域比較深的、比較難的問題答，如果硬要回答，就會(huì)出現(xiàn)我們所說的幻覺。

知識圖譜優(yōu)點(diǎn)在于其中的知識是正確的，知識以圖形式的存儲(chǔ)是其另一大優(yōu)點(diǎn)，可以用一些圖的算法進(jìn)行高階推理，而且很多時(shí)候能保證推理出來的知識正確性，這就可以彌補(bǔ)大模型的缺點(diǎn)。尤其在一些長尾的垂直領(lǐng)域，如果因大模型缺乏垂直領(lǐng)域知識不能回答的，基于該領(lǐng)域的知識圖譜就能回答。

而且很多時(shí)候我們會(huì)發(fā)現(xiàn)，一個(gè)問題換一種問法，大模型就不能問答了，或者稍微高階一些的推理大模型并不能實(shí)現(xiàn)。但知識圖譜因?yàn)橛型陚涞?、正確的知識，有友好的結(jié)構(gòu)形式，可以實(shí)現(xiàn)推理的算法。使用大模型很重要一點(diǎn)就是評測，我們都知道，現(xiàn)在很多時(shí)候大模型靠的是人工專家的評測，成本很高。但有了知識圖譜來產(chǎn)生評測所需的標(biāo)準(zhǔn)答案，就能保證大模型評測的效果和對與錯(cuò)，就能很正確的判定。

同樣利用大模型的優(yōu)勢，可以彌補(bǔ)知識圖譜的不足，例如幫助更新知識圖譜，甚至補(bǔ)全知識圖譜，讓知識圖譜質(zhì)量更高。之前對知識圖譜如果不采用一些自動(dòng)化的方法主動(dòng)更新當(dāng)中的知識，它會(huì)過時(shí)，雖然以前的知識是正確的，但現(xiàn)在不一定正確。而大模型可以隨時(shí)隨地在補(bǔ)充新語料后進(jìn)行預(yù)訓(xùn)練，甚至通過強(qiáng)化學(xué)習(xí)人工的反饋，它可能掌握更多更新的知識，雖然有些知識可能會(huì)錯(cuò)，但它新掌握的知識更多，而且是更及時(shí)的。這兩者是相輔相成的，并不是誰替代誰，誰淘汰誰的問題。

曾晨光(主持人)：建立健全數(shù)據(jù)交易、數(shù)據(jù)跨境、數(shù)據(jù)確權(quán)等相關(guān)立法的頂層設(shè)計(jì)是數(shù)據(jù)要素市場化的基石，很多數(shù)商可能更加關(guān)注，如何將自己的數(shù)據(jù)，或者結(jié)合公共數(shù)據(jù)平臺加工融合的數(shù)據(jù)進(jìn)行商業(yè)化或市場化落地?

薛威：總體來講，所有在推進(jìn)智能化、數(shù)據(jù)化的市場化工作中，第一個(gè)考慮的是應(yīng)用場景。所以未來配置相關(guān)要素的模式也將是由場景牽引，第一就是需要什么樣的要素資源。我們在配置各種各樣的卡、算力等相關(guān)的資源。

第二項(xiàng)就是關(guān)于數(shù)據(jù)要素的配置，不光建設(shè)了數(shù)據(jù)交易所，也搭建了大模型數(shù)據(jù)語料聯(lián)盟，但需求和供給之間的配合實(shí)際是長期的，不能像以前其他商業(yè)化已經(jīng)比較成熟的領(lǐng)域，只要拿出清單來，市場上總能找到想要的資源。數(shù)據(jù)領(lǐng)域的磨合實(shí)際是一個(gè)深度的、以數(shù)據(jù)應(yīng)用場景為牽引的相互交流的過程，我們特別希望手上有數(shù)據(jù)的機(jī)構(gòu)，能夠和我們最一線的技術(shù)人員進(jìn)行一定程度的溝通。特別是安全領(lǐng)域。

世界上淺網(wǎng)的數(shù)據(jù)只占了所有數(shù)據(jù)的5%，而95%的數(shù)據(jù)還在深網(wǎng)之中，甚至還在各個(gè)專家的腦袋中，所以這個(gè)方面仍然需要大量的專家，比如今天新加入的人民檢察院，檢察院的檢察官們、記者朋友、律師們腦子里的知識如何進(jìn)行數(shù)據(jù)化，如何供給到大模型業(yè)態(tài)中去，是政府部門特別關(guān)注的內(nèi)容。

此外，我們在不斷推進(jìn)一些法律法規(guī)和相關(guān)標(biāo)準(zhǔn)的建設(shè)，特別是針對于數(shù)據(jù)的三種產(chǎn)權(quán)，進(jìn)入到大模型之后生成的結(jié)果，到底它的IP產(chǎn)權(quán)在誰手里面，是大家形成共識的一個(gè)過程。所以希望三個(gè)方面，我們政府部門和大家一道進(jìn)行探索。

曾晨光(主持人)：大模型和語料庫是一個(gè)天然的產(chǎn)業(yè)鏈上下游關(guān)系，關(guān)于新型供應(yīng)鏈的打通，還有什么需要注意的地方?

孫江：當(dāng)下基于數(shù)據(jù)流通的基礎(chǔ)設(shè)施已經(jīng)發(fā)生了本質(zhì)性的改變，從傳統(tǒng)的信息化基礎(chǔ)設(shè)施，轉(zhuǎn)變?yōu)閲@數(shù)據(jù)要素價(jià)值化的新型基礎(chǔ)設(shè)施。信息時(shí)代建立的是通道與節(jié)點(diǎn)，通過知識裂變產(chǎn)生價(jià)值。而在數(shù)據(jù)時(shí)代是圍繞數(shù)據(jù)本身，構(gòu)建數(shù)據(jù)空間，加上算法、算力、網(wǎng)絡(luò)資源、安全設(shè)施。通過聚變形成規(guī)模價(jià)值效應(yīng)，通過場景挖掘激發(fā)用數(shù)需求，通過工具與平臺釋放數(shù)據(jù)價(jià)值潛能。這也是數(shù)據(jù)作為生產(chǎn)要素的魅力所在。而模型也一樣，縱觀整個(gè)產(chǎn)業(yè)，我認(rèn)為模型有三類潛在的生態(tài)。

第一，語料庫運(yùn)營商。從數(shù)據(jù)的生命周期來看，從采集、加工、存儲(chǔ)、開發(fā)、共享、流通與交易，再進(jìn)一步是做數(shù)據(jù)標(biāo)注、分類分級，做語料庫的加工。我稱之為DIKC模型，也這就是從海量數(shù)據(jù)(Data)中挖掘信息價(jià)值(Information)，形成知識庫(Knowledge)，再在知識庫之上形成面向需求的多級語料數(shù)庫(Corpus)。例如當(dāng)下隨著大模型技術(shù)興起的數(shù)據(jù)標(biāo)注產(chǎn)業(yè)。

第二，模型加工集成商。各種各樣小模型加大模型集成，去解決模型應(yīng)用開發(fā)最后一公里的問題，需要這些廠商來參與。

第三，大模型的工具平臺?，F(xiàn)在孕育出一些LLMOps廠商，包括AWS、騰訊云、星環(huán)科技等，他們在進(jìn)行多元異構(gòu)的管理平臺建設(shè)，包括預(yù)訓(xùn)練、語料庫加工處理、微調(diào)、最后的價(jià)值評估，這樣一些工具平臺也會(huì)應(yīng)運(yùn)而生。

曾晨光(主持人)：有很多業(yè)內(nèi)人士很關(guān)心，通用領(lǐng)域的語料開源開放是被理解的，但垂直領(lǐng)域，比如像金融，私有的大模型和開源大模型都有，但私有的數(shù)據(jù)和開源的數(shù)據(jù)沒有人去論證過，它的商業(yè)價(jià)值如何體現(xiàn)?未來站在大模型生產(chǎn)要素、生產(chǎn)力、生產(chǎn)關(guān)系層面怎么看待其商業(yè)價(jià)值?

葉周：這個(gè)問題比較抽象，財(cái)聯(lián)社在內(nèi)容創(chuàng)作方面，幾個(gè)月前就已經(jīng)把大模型能力用在采編環(huán)節(jié)，財(cái)聯(lián)社的生產(chǎn)就是生產(chǎn)內(nèi)容，首當(dāng)其沖受到大模型的沖擊。

比如微軟的copilot輔助程序員寫代碼，會(huì)根據(jù)所寫的內(nèi)容自動(dòng)補(bǔ)全一堆東西，如何把這種思維定式平行移植到財(cái)聯(lián)社編輯部里，這種模式還是以人為中心，小編或者記者也要休假、睡覺，就會(huì)錯(cuò)過一些東西。有沒有可能完全屏蔽掉這種干擾，最終實(shí)現(xiàn)將源源不斷的素材從各個(gè)重要的渠道匯集過來，讓大模型直接生產(chǎn)，24小時(shí)連續(xù)不間斷。在此情況下，編輯部可能在稿件生產(chǎn)環(huán)節(jié)壓根不需要人的參與，我給它起了個(gè)名字叫“黑燈編輯部”，就一個(gè)無情的寫稿機(jī)器不斷的生成稿件。

在這種新的視角下，就要重新考慮大模型生產(chǎn)要素、生產(chǎn)力、生產(chǎn)關(guān)系。我們也在摸索，以往那種生產(chǎn)力或者人類社會(huì)的生產(chǎn)力之下我們做了很多妥協(xié)和折中，形成了現(xiàn)在比較穩(wěn)定的生產(chǎn)關(guān)系，因?yàn)槿说纳a(chǎn)力是有限的，但是大模型的生產(chǎn)力目前來看遠(yuǎn)遠(yuǎn)沒到上限。如果還是用現(xiàn)有的這套生產(chǎn)關(guān)系去硬套新出來的生產(chǎn)力，那就好比是用前朝的劍來斬本朝的官。

曾晨光(主持人)：最近剛好拜讀了陽教授的論文，其中一片論文今年發(fā)在NLP最頂尖會(huì)議ACL上，并奪得杰出論文獎(jiǎng)。我看到論文中planning script就是利用大模型來實(shí)現(xiàn)復(fù)雜任務(wù)規(guī)劃的非常有意思，而且讓大模型具有認(rèn)知智能中類比能力也是非常重要的，想請問這樣的技術(shù)未來的應(yīng)用方向以及相關(guān)規(guī)劃數(shù)據(jù)集準(zhǔn)備上是否有更大前景和方向?

陽德青：本來我們做這個(gè)工作只是想去評測一下大模型在完成比較高階的認(rèn)知智能任務(wù)的能力，比如規(guī)劃能力。在此過程中發(fā)現(xiàn)，大模型在回答很多問題，包括常識性問題的時(shí)候，因?yàn)檎莆肇S富的知識能做出回答，讓其做一些簡單的規(guī)劃任務(wù)，例如給出比較抽象的任務(wù)目標(biāo)，讓其它產(chǎn)生完成任務(wù)的執(zhí)行腳本，它也能正?；卮稹５绻麑δ繕?biāo)增加復(fù)雜一點(diǎn)的約束條件，即完成帶約束目標(biāo)的具體規(guī)劃任務(wù)的話，生成的腳本就缺點(diǎn)比較明顯了。比如要求寫出為糖尿病病人做蛋糕的執(zhí)行腳本，它產(chǎn)生的腳本中會(huì)有一步是要加糖，但糖尿病病人是不能吃糖的。

因此，我們在文中提出一個(gè)方案去改進(jìn)大模型在這方面的能力，這篇論文能夠得到很多專家的認(rèn)可還有一個(gè)很重要的原因是我們構(gòu)建了相應(yīng)的數(shù)據(jù)集。

要知道現(xiàn)在不是每個(gè)人、每個(gè)團(tuán)隊(duì)、每個(gè)公司都用得起大模型，畢竟要花費(fèi)不小的成本，很多時(shí)候只能使用規(guī)模相對小一點(diǎn)的模型。小模型的能力有缺陷，尤其是通用的學(xué)習(xí)能力，零樣本學(xué)習(xí)能力有欠缺的，不過有了我們這樣的數(shù)據(jù)集，對小模型進(jìn)行訓(xùn)練和指令微調(diào)，會(huì)發(fā)現(xiàn)提升后也可以接近大模型，雖然達(dá)不到大模型那么優(yōu)秀的程度，但是夠用了。我們這篇論文里面做的工作就是提出了一套范式，為大模型和小模型在此類任務(wù)上的微調(diào)和評測生成質(zhì)量更高、更可信的數(shù)據(jù)集，它的價(jià)值在于此，我覺得這是我們工作的一個(gè)很重要的貢獻(xiàn)。

曾晨光(主持人)：其實(shí)剛剛也提到了尤其垂直領(lǐng)域語料數(shù)據(jù)+小參數(shù)量大模型微調(diào)可以讓更多人使用成本低廉的AGI能力，尤其我也看到其實(shí)在美國有一些AGI獨(dú)角獸企業(yè)，就是做垂直領(lǐng)域微調(diào)指令的。您覺得尤其是圍繞垂直領(lǐng)域語料數(shù)據(jù)未來發(fā)展格局如何?

陽德青：首先垂直領(lǐng)域構(gòu)建的能夠訓(xùn)練垂直領(lǐng)域大模型的有質(zhì)量的樣本要求還是挺高的，剛才也提到數(shù)據(jù)公有和私有的問題。首先，這些數(shù)據(jù)不一定已經(jīng)公開成為網(wǎng)頁文本擺在那里可供大家使用，很多專業(yè)領(lǐng)域的知識可能都在專家腦袋里面，沒有變成可見的語料。剛才也提到，很多訓(xùn)練樣本是靠人工去標(biāo)注，但是人力成本是很高，人力也是有限的，那就需要模型自動(dòng)產(chǎn)生。模型雖然產(chǎn)生數(shù)據(jù)的速度很快，成本也比較低，但也不保證百分之百正確，而且大模型完成一些特定領(lǐng)域的任務(wù)要做垂直領(lǐng)域的指令微調(diào)，這些數(shù)據(jù)哪里來?回答這個(gè)問題這可以和前面探討的第一個(gè)問題結(jié)合，可以依靠領(lǐng)域?qū)＜医Y(jié)合現(xiàn)有的領(lǐng)域文檔資料，并采用一些模型算法利用垂直領(lǐng)域中已經(jīng)形成的領(lǐng)域知識圖譜，用人機(jī)協(xié)作的方式，讓人和小模型配合產(chǎn)生本領(lǐng)域的數(shù)據(jù)語料，去喂給大模型訓(xùn)練或微調(diào)，而且能保證數(shù)據(jù)量足夠、質(zhì)量夠高，這樣來訓(xùn)練垂直領(lǐng)域大模型就可以擺脫沒有數(shù)據(jù)，或者擺脫只能依靠人工來產(chǎn)生數(shù)據(jù)的缺點(diǎn)。

至于未來格局如何，現(xiàn)在我還提不敢斷言，但我剛才提的幾個(gè)方式應(yīng)該是可行并能并存的，大模型數(shù)據(jù)語料的構(gòu)建不能只靠機(jī)器，也不能只靠人，需要人機(jī)協(xié)作。

曾晨光(主持人)：財(cái)聯(lián)社已經(jīng)率先實(shí)現(xiàn)了這樣的落地，包括在垂直領(lǐng)域建設(shè)語料庫的經(jīng)驗(yàn)和方案。葉總作為數(shù)商代表，能不能給同行一些建議。

葉周：第一先趕緊用起來，這是毫無疑問的。我說的是真正的用起來，要真正把它用在生產(chǎn)環(huán)節(jié)中，這種情況下，才能真正持久的使用大模型，在大模型的使用中積累經(jīng)驗(yàn)。財(cái)聯(lián)社因?yàn)橛玫孟鄬Ρ容^早，也積累了一些經(jīng)驗(yàn)，就數(shù)據(jù)而言，我們發(fā)現(xiàn)數(shù)據(jù)不是越多越好，很多數(shù)據(jù)用處不是特別大。比如炒股票，每天的K線高開低收，這是股票的幾個(gè)基本要素，5000個(gè)股票，一年200個(gè)交易日，每個(gè)交易日都有開盤價(jià)、最高價(jià)、最低價(jià)、成交量等，這個(gè)數(shù)據(jù)量很大，其中是沒有什么知識的，這種數(shù)據(jù)丟給大模型幾乎毫無用處。

什么是有用的?比如炒股的教材，有些技術(shù)面分析，像鉆石頂、雙尖底、矩形突破這些概念。你在網(wǎng)上一些論壇里面提到這些黑話，或者是雞頭頂、鵝頭頂這種技術(shù)類黑話，大模型是不知道的，你讓它自己總結(jié)也總結(jié)不出來的，這就是知識，這個(gè)知識就從一些教材中來。

所以我們現(xiàn)在正在摸索，如何把金融相關(guān)的教材作為語料投喂給大模型，我們最終還沒有看出效果的差異，只是方法的差異。但是從數(shù)據(jù)而言，哪些數(shù)據(jù)是有Knowledge的，哪些數(shù)據(jù)是沒有Knowledge的，這一點(diǎn)可以作為后續(xù)在大模型時(shí)代，無論數(shù)據(jù)供應(yīng)商還是系統(tǒng)集成商，還是大模型應(yīng)用者，我覺得這是比較有價(jià)值的判斷標(biāo)準(zhǔn)。

曾晨光(主持人)：這個(gè)論壇是大模型語料庫的價(jià)值與挑戰(zhàn)，尤其挑戰(zhàn)方面，還有哪些?對這些挑戰(zhàn)還有哪些建議?

孫江：未來通用大模型我認(rèn)為會(huì)往集約型的方向去走，因?yàn)榇竽Ｐ图夹g(shù)作為一個(gè)工具，它最后是要和生產(chǎn)要素去結(jié)合，解決一些具體問題，賦能數(shù)字經(jīng)濟(jì)及實(shí)體經(jīng)濟(jì)。但是行業(yè)大模型不同，它本身具備了行業(yè)規(guī)模效應(yīng)，如果能解決到具體問題、提升生產(chǎn)中的效果與效能，不管大模型也好，小模型也好，必將百花齊放。

既然有挑戰(zhàn)就有幾個(gè)困難點(diǎn)要克服。一是克服大模型幻覺的問題，因?yàn)橐鉀Q行業(yè)的具體問題，一定要讓大模型和行業(yè)語義進(jìn)行對齊，特別是在政務(wù)領(lǐng)域、公共事業(yè)領(lǐng)域，去回答一些特定性問題，特別是法律法規(guī)的解讀與釋義，不能含糊不清。這就要與其他一些小模型結(jié)合，包括知識檢索、分類模型，實(shí)現(xiàn)精準(zhǔn)化的回答。

二是數(shù)據(jù)要素化，數(shù)據(jù)要素化往前的階段是數(shù)字化、數(shù)據(jù)化，往下的階段是數(shù)智化。數(shù)字化轉(zhuǎn)型對很多企業(yè)還在發(fā)生和進(jìn)行中，大量的企業(yè)數(shù)據(jù)還是停留在怎么把非結(jié)構(gòu)化變成結(jié)構(gòu)化，再里面提煉出有價(jià)值的知識，去形成一些行業(yè)的知識，最后賦能給行業(yè)上下游甚至整個(gè)社會(huì)。

三是智能問答，智能問答核心要解決的除了回答對錯(cuò)以外，能不能提供情感關(guān)懷和情緒價(jià)值。我提的一個(gè)觀點(diǎn)就是大模型要加上元宇宙數(shù)字人，這也是我們上數(shù)所在開發(fā)的一款大模型應(yīng)用—下個(gè)月要上線的"入場咨詢助手"，它就是一款結(jié)合大模型加上數(shù)字人，然后有情感表達(dá)，去提供行業(yè)知識、行業(yè)資訊，數(shù)據(jù)產(chǎn)品推薦、數(shù)商服務(wù)推薦、合規(guī)指引解讀的智能問答數(shù)字人。

四是要有一些評估標(biāo)準(zhǔn)。在數(shù)據(jù)領(lǐng)域里有合規(guī)評估、質(zhì)量評估、價(jià)值評估。其實(shí)對模型工具或者模型應(yīng)用，一定要有一套行之有效并且行業(yè)共識的評估標(biāo)準(zhǔn)與規(guī)范。通過這樣一個(gè)指標(biāo)體系去衡量模型應(yīng)用的開發(fā)質(zhì)量，對效果進(jìn)行評級。從而達(dá)到推動(dòng)大模型生態(tài)高質(zhì)量發(fā)展。

曾晨光(主持人)：相信這些挑戰(zhàn)也是語料聯(lián)盟未來要去克服的一些目標(biāo)和方向，薛老師是否能給語料聯(lián)盟未來發(fā)展的方向給一些寄語或者期望?

薛威：語料聯(lián)盟最新的數(shù)字大概是42家成員機(jī)構(gòu)，經(jīng)常有新的機(jī)構(gòu)加入。我覺得還是要有更強(qiáng)的服務(wù)大模型的意識，同時(shí)我更加關(guān)注一個(gè)問題，我把它稱為“大模型的好孩子、壞孩子問題”，到底怎么培育出來一個(gè)好的大模型，它既知道世界的美好，也知道世界的險(xiǎn)惡，這是我們長期想要考慮的問題。所以價(jià)值對齊不僅僅是告訴它什么是對的過程，也是不斷的博弈，去讓它自身的存在感始終保持警惕的思考。我特別同意陽教授的講法，知識圖譜的確是有必要的，它最大的必要性在于，它讓大模型可以知道有些東西不會(huì)，你可以選擇說我不會(huì)，而不是按照概率學(xué)去編造一套可能可以滿足用戶傾向的需求，我覺得這是所有大模型語料數(shù)據(jù)聯(lián)盟成員單位都應(yīng)當(dāng)持續(xù)思考的問題。

（免責(zé)聲明：本網(wǎng)站內(nèi)容主要來自原創(chuàng)、合作伙伴供稿和第三方自媒體作者投稿，凡在本網(wǎng)站出現(xiàn)的信息，均僅供參考。本網(wǎng)站將盡力確保所提供信息的準(zhǔn)確性及可靠性，但不保證有關(guān)資料的準(zhǔn)確性及可靠性，讀者在使用前請進(jìn)一步核實(shí)，并對任何自主決定的行為負(fù)責(zé)。本網(wǎng)站對有關(guān)資料所引致的錯(cuò)誤、不確或遺漏，概不負(fù)任何法律責(zé)任。
任何單位或個(gè)人認(rèn)為本網(wǎng)站中的網(wǎng)頁或鏈接內(nèi)容可能涉嫌侵犯其知識產(chǎn)權(quán)或存在不實(shí)內(nèi)容時(shí)，應(yīng)及時(shí)向本網(wǎng)站提出書面權(quán)利通知或不實(shí)情況說明，并提供身份證明、權(quán)屬證明及詳細(xì)侵權(quán)或不實(shí)情況證明。本網(wǎng)站在收到上述法律文件后，將會(huì)依法盡快聯(lián)系相關(guān)文章源頭核實(shí)，溝通刪除相關(guān)內(nèi)容或斷開相關(guān)鏈接。）

極客觀察

贊助商

簡版
原版
投稿
回頂部

<source id="mguuu"><del id="mguuu"></del></source>

<td id="mguuu"></td>