11月26日,在2023全球數(shù)商大會(huì)上,星環(huán)科技成功舉辦了數(shù)據(jù)要素市場與大模型語料庫論壇暨中國大模型語料數(shù)據(jù)聯(lián)盟開放日活動(dòng)。
論壇上,中國大模型語料庫的價(jià)值與挑戰(zhàn)圓桌對話,由星環(huán)科技智能量化事業(yè)部總經(jīng)理曾晨光主持,上海市經(jīng)濟(jì)和信息化委員會(huì)信息化推進(jìn)處干部薛威、復(fù)旦大學(xué)大數(shù)據(jù)學(xué)院副院長陽德青、上海財(cái)聯(lián)社技術(shù)總監(jiān)葉周、上海數(shù)交所技術(shù)開發(fā)高級經(jīng)理孫江,從主管機(jī)構(gòu)、學(xué)界、數(shù)據(jù)機(jī)構(gòu)、交易所視角共同探討中國大模型語料庫建設(shè)。
圓桌對話實(shí)錄
曾晨光(主持人):今年8月上海市發(fā)布了《立足數(shù)字經(jīng)濟(jì)新賽道推動(dòng)數(shù)據(jù)要素產(chǎn)業(yè)創(chuàng)新發(fā)展行動(dòng)方案(2023-2025年)》,獲得了非常高的呼聲,越來越多人關(guān)注數(shù)據(jù)要素尤其是語料庫、數(shù)據(jù)交易和數(shù)據(jù)牌照等一系列落地內(nèi)容??煞裰攸c(diǎn)介紹一下未來行動(dòng)方案發(fā)力點(diǎn)以及上海的特色?
薛威:我們今年10月份正式對外發(fā)布了這部行動(dòng)方案,一共有23條,也是落實(shí)國家《數(shù)據(jù)二十條》的具體舉措。我挑幾個(gè)具體的方向:
第一,構(gòu)建產(chǎn)業(yè)的數(shù)據(jù)樞紐,面向一些產(chǎn)業(yè)集成度較高的領(lǐng)域,建設(shè)重點(diǎn)樞紐型平臺,比如電力、核能、新材料、集成電路、人工智能等領(lǐng)域,我們將會(huì)布局建設(shè)能夠連接整個(gè)產(chǎn)業(yè)鏈上下游所有數(shù)據(jù)要素資源的樞紐性平臺和機(jī)構(gòu)。
第二,構(gòu)建行業(yè)特色型的數(shù)據(jù)空間。這次大會(huì)特別把國際數(shù)據(jù)空間協(xié)會(huì)的外賓請到主論壇現(xiàn)場,介紹了他們相關(guān)的經(jīng)驗(yàn),我們希望在上海也針對比如金融、航運(yùn)等特色領(lǐng)域,建設(shè)一批特色的行業(yè)數(shù)據(jù)空間。
第三,加快建設(shè)數(shù)據(jù)交易所。今天的數(shù)商大會(huì)就是數(shù)據(jù)交易所不斷提升能級的具體體現(xiàn),我們?yōu)榇蠹叶紭?gòu)建了一些非常有實(shí)效和行業(yè)能級的平臺,希望大家同我們一起用好這些平臺的資源,一起推動(dòng)上海數(shù)據(jù)要素產(chǎn)業(yè)的創(chuàng)新發(fā)展。
曾晨光(主持人):上海數(shù)據(jù)交易所發(fā)布了首款大模型應(yīng)用-入場咨詢助手問答數(shù)字人,想請問站在上海數(shù)據(jù)交易所的視角,如何推動(dòng)國內(nèi)語料庫的健康、高效、合規(guī)發(fā)展?
孫江:上海數(shù)據(jù)交易所的重要使命之一是提供給市場合規(guī)、高效、集約、低成本的數(shù)據(jù)流通交易基礎(chǔ)設(shè)施。要關(guān)注三點(diǎn):數(shù)據(jù)要供得出、流得動(dòng)、用得好。
我們在市經(jīng)信委領(lǐng)導(dǎo)下,在人工智能協(xié)會(huì)的倡導(dǎo)下,于9月份開設(shè)了語料庫的版塊。目前語料庫板塊掛牌了69款數(shù)據(jù)產(chǎn)品,包括也有部分網(wǎng)紅產(chǎn)品已經(jīng)進(jìn)行了交易。
同時(shí),在流得動(dòng)方面也在國家工程實(shí)驗(yàn)室的指導(dǎo)下,與梅宏院士的頂尖團(tuán)隊(duì)構(gòu)建鏈網(wǎng)融合數(shù)據(jù)交易技術(shù)創(chuàng)新方案、與鄔江興院士的頂尖團(tuán)隊(duì)合作構(gòu)建內(nèi)生可信交付框架體系。產(chǎn)業(yè)數(shù)據(jù)跨域融合平臺的落地與推廣也在有序的進(jìn)行中,以數(shù)據(jù)空間的方式,發(fā)揮數(shù)據(jù)要素乘數(shù)效應(yīng),提升niDts數(shù)據(jù)交易平臺的效能。
用得好方面,前兩年上海數(shù)據(jù)交易所提出了“無合規(guī)不掛牌,無場景不交易”,針對大模型應(yīng)用也是一樣的道理。具體來說就是基于垂直行業(yè)要解決的具體問題,從場景出發(fā)聚焦大模型能力的輸出,拉動(dòng)供需雙方進(jìn)行數(shù)據(jù)撮合,形成語料庫供應(yīng)的產(chǎn)業(yè)鏈發(fā)展。
曾晨光(主持人):在專有領(lǐng)域的語料庫層面,財(cái)聯(lián)社本身是獲得巨大媒體資源的媒體平臺,同時(shí)在通用領(lǐng)域語料有很多貢獻(xiàn),尤其是在金融領(lǐng)域的語料積累,據(jù)了解現(xiàn)在已經(jīng)開始儲(chǔ)備一些微調(diào)的指令和預(yù)訓(xùn)練高質(zhì)量語料集,這些知識工程現(xiàn)在是什么進(jìn)展?有什么最新的內(nèi)容可以與大家分享?
葉周:財(cái)聯(lián)社在語料這塊,除了前面提到的語料的分級分類,還有一塊是SFT,或者是其他一些數(shù)據(jù)。從另一個(gè)視角來看,廣義的數(shù)據(jù)可以分成兩大類,一種是Data in training,訓(xùn)練時(shí)候用的語料;還有一種是Data in use,在使用場景中重點(diǎn)積累,具體的使用又可以細(xì)分為SFT,針對像金融領(lǐng)域,比如要寫一篇財(cái)經(jīng)的稿子,它的文風(fēng)應(yīng)該是怎么樣的,這種數(shù)據(jù)是在積累。還有一個(gè)是真正日常使用的,比如需要引用一些投研的觀點(diǎn),或者做一些分析,通過向量查詢的方式來使用這些數(shù)據(jù)。還有一種隱蔽類型的數(shù)據(jù)就是我們的提示詞,這也是和星環(huán)科技在很多具體場景上積累的,比如像剛才提到的風(fēng)控,也積累了一些提示詞,這幾塊都是目前我們正在投入積累的,也是發(fā)揮財(cái)聯(lián)社作為財(cái)經(jīng)媒體和數(shù)據(jù)供應(yīng)商的優(yōu)勢。
曾晨光(主持人):目前知識圖譜和大模型結(jié)合有幾個(gè)論調(diào),有些人認(rèn)為大模型已經(jīng)具有知識了無需知識圖譜,也有人認(rèn)為知識圖譜可以有效補(bǔ)充大模型知識的精準(zhǔn)度和廣泛性避免幻覺,同時(shí)也有人認(rèn)為可以把知識圖譜訓(xùn)練到大模型中去。請分享一下見解。
陽德青:我所在的研究領(lǐng)域,基本過去十年都是專注于知識圖譜的研究。大模型有很多知識,我們不懂的,大模型能回答。知識圖譜到底還需不需要,從專業(yè)角度來講,它們是有所不同的,各有優(yōu)劣,更好的方式是把這兩者結(jié)合起來。
具體談一談大模型和知識圖譜各自的優(yōu)劣勢。先說大模型,基于大規(guī)模的語料訓(xùn)練,知識儲(chǔ)備比較豐富,其強(qiáng)大之處在于自然語言理解和生成能力。但對于一些預(yù)訓(xùn)練過程中沒有碰到的,尤其垂直領(lǐng)域比較深的、比較難的問題答,如果硬要回答,就會(huì)出現(xiàn)我們所說的幻覺。
知識圖譜優(yōu)點(diǎn)在于其中的知識是正確的,知識以圖形式的存儲(chǔ)是其另一大優(yōu)點(diǎn),可以用一些圖的算法進(jìn)行高階推理,而且很多時(shí)候能保證推理出來的知識正確性,這就可以彌補(bǔ)大模型的缺點(diǎn)。尤其在一些長尾的垂直領(lǐng)域,如果因大模型缺乏垂直領(lǐng)域知識不能回答的,基于該領(lǐng)域的知識圖譜就能回答。
而且很多時(shí)候我們會(huì)發(fā)現(xiàn),一個(gè)問題換一種問法,大模型就不能問答了,或者稍微高階一些的推理大模型并不能實(shí)現(xiàn)。但知識圖譜因?yàn)橛型陚涞?、正確的知識,有友好的結(jié)構(gòu)形式,可以實(shí)現(xiàn)推理的算法。使用大模型很重要一點(diǎn)就是評測,我們都知道,現(xiàn)在很多時(shí)候大模型靠的是人工專家的評測,成本很高。但有了知識圖譜來產(chǎn)生評測所需的標(biāo)準(zhǔn)答案,就能保證大模型評測的效果和對與錯(cuò),就能很正確的判定。
同樣利用大模型的優(yōu)勢,可以彌補(bǔ)知識圖譜的不足,例如幫助更新知識圖譜,甚至補(bǔ)全知識圖譜,讓知識圖譜質(zhì)量更高。之前對知識圖譜如果不采用一些自動(dòng)化的方法主動(dòng)更新當(dāng)中的知識,它會(huì)過時(shí),雖然以前的知識是正確的,但現(xiàn)在不一定正確。而大模型可以隨時(shí)隨地在補(bǔ)充新語料后進(jìn)行預(yù)訓(xùn)練,甚至通過強(qiáng)化學(xué)習(xí)人工的反饋,它可能掌握更多更新的知識,雖然有些知識可能會(huì)錯(cuò),但它新掌握的知識更多,而且是更及時(shí)的。這兩者是相輔相成的,并不是誰替代誰,誰淘汰誰的問題。
曾晨光(主持人):建立健全數(shù)據(jù)交易、數(shù)據(jù)跨境、數(shù)據(jù)確權(quán)等相關(guān)立法的頂層設(shè)計(jì)是數(shù)據(jù)要素市場化的基石,很多數(shù)商可能更加關(guān)注,如何將自己的數(shù)據(jù),或者結(jié)合公共數(shù)據(jù)平臺加工融合的數(shù)據(jù)進(jìn)行商業(yè)化或市場化落地?
薛威:總體來講,所有在推進(jìn)智能化、數(shù)據(jù)化的市場化工作中,第一個(gè)考慮的是應(yīng)用場景。所以未來配置相關(guān)要素的模式也將是由場景牽引,第一就是需要什么樣的要素資源。我們在配置各種各樣的卡、算力等相關(guān)的資源。
第二項(xiàng)就是關(guān)于數(shù)據(jù)要素的配置,不光建設(shè)了數(shù)據(jù)交易所,也搭建了大模型數(shù)據(jù)語料聯(lián)盟,但需求和供給之間的配合實(shí)際是長期的,不能像以前其他商業(yè)化已經(jīng)比較成熟的領(lǐng)域,只要拿出清單來,市場上總能找到想要的資源。數(shù)據(jù)領(lǐng)域的磨合實(shí)際是一個(gè)深度的、以數(shù)據(jù)應(yīng)用場景為牽引的相互交流的過程,我們特別希望手上有數(shù)據(jù)的機(jī)構(gòu),能夠和我們最一線的技術(shù)人員進(jìn)行一定程度的溝通。特別是安全領(lǐng)域。
世界上淺網(wǎng)的數(shù)據(jù)只占了所有數(shù)據(jù)的5%,而95%的數(shù)據(jù)還在深網(wǎng)之中,甚至還在各個(gè)專家的腦袋中,所以這個(gè)方面仍然需要大量的專家,比如今天新加入的人民檢察院,檢察院的檢察官們、記者朋友、律師們腦子里的知識如何進(jìn)行數(shù)據(jù)化,如何供給到大模型業(yè)態(tài)中去,是政府部門特別關(guān)注的內(nèi)容。
此外,我們在不斷推進(jìn)一些法律法規(guī)和相關(guān)標(biāo)準(zhǔn)的建設(shè),特別是針對于數(shù)據(jù)的三種產(chǎn)權(quán),進(jìn)入到大模型之后生成的結(jié)果,到底它的IP產(chǎn)權(quán)在誰手里面,是大家形成共識的一個(gè)過程。所以希望三個(gè)方面,我們政府部門和大家一道進(jìn)行探索。
曾晨光(主持人):大模型和語料庫是一個(gè)天然的產(chǎn)業(yè)鏈上下游關(guān)系,關(guān)于新型供應(yīng)鏈的打通,還有什么需要注意的地方?
孫江:當(dāng)下基于數(shù)據(jù)流通的基礎(chǔ)設(shè)施已經(jīng)發(fā)生了本質(zhì)性的改變,從傳統(tǒng)的信息化基礎(chǔ)設(shè)施,轉(zhuǎn)變?yōu)閲@數(shù)據(jù)要素價(jià)值化的新型基礎(chǔ)設(shè)施。信息時(shí)代建立的是通道與節(jié)點(diǎn),通過知識裂變產(chǎn)生價(jià)值。而在數(shù)據(jù)時(shí)代是圍繞數(shù)據(jù)本身,構(gòu)建數(shù)據(jù)空間,加上算法、算力、網(wǎng)絡(luò)資源、安全設(shè)施。通過聚變形成規(guī)模價(jià)值效應(yīng),通過場景挖掘激發(fā)用數(shù)需求,通過工具與平臺釋放數(shù)據(jù)價(jià)值潛能。這也是數(shù)據(jù)作為生產(chǎn)要素的魅力所在。而模型也一樣,縱觀整個(gè)產(chǎn)業(yè),我認(rèn)為模型有三類潛在的生態(tài)。
第一,語料庫運(yùn)營商。從數(shù)據(jù)的生命周期來看,從采集、加工、存儲(chǔ)、開發(fā)、共享、流通與交易,再進(jìn)一步是做數(shù)據(jù)標(biāo)注、分類分級,做語料庫的加工。我稱之為DIKC模型,也這就是從海量數(shù)據(jù)(Data)中挖掘信息價(jià)值(Information),形成知識庫(Knowledge),再在知識庫之上形成面向需求的多級語料數(shù)庫(Corpus)。例如當(dāng)下隨著大模型技術(shù)興起的數(shù)據(jù)標(biāo)注產(chǎn)業(yè)。
第二,模型加工集成商。各種各樣小模型加大模型集成,去解決模型應(yīng)用開發(fā)最后一公里的問題,需要這些廠商來參與。
第三,大模型的工具平臺?,F(xiàn)在孕育出一些LLMOps廠商,包括AWS、騰訊云、星環(huán)科技等,他們在進(jìn)行多元異構(gòu)的管理平臺建設(shè),包括預(yù)訓(xùn)練、語料庫加工處理、微調(diào)、最后的價(jià)值評估,這樣一些工具平臺也會(huì)應(yīng)運(yùn)而生。
曾晨光(主持人):有很多業(yè)內(nèi)人士很關(guān)心,通用領(lǐng)域的語料開源開放是被理解的,但垂直領(lǐng)域,比如像金融,私有的大模型和開源大模型都有,但私有的數(shù)據(jù)和開源的數(shù)據(jù)沒有人去論證過,它的商業(yè)價(jià)值如何體現(xiàn)?未來站在大模型生產(chǎn)要素、生產(chǎn)力、生產(chǎn)關(guān)系層面怎么看待其商業(yè)價(jià)值?
葉周:這個(gè)問題比較抽象,財(cái)聯(lián)社在內(nèi)容創(chuàng)作方面,幾個(gè)月前就已經(jīng)把大模型能力用在采編環(huán)節(jié),財(cái)聯(lián)社的生產(chǎn)就是生產(chǎn)內(nèi)容,首當(dāng)其沖受到大模型的沖擊。
比如微軟的copilot輔助程序員寫代碼,會(huì)根據(jù)所寫的內(nèi)容自動(dòng)補(bǔ)全一堆東西,如何把這種思維定式平行移植到財(cái)聯(lián)社編輯部里,這種模式還是以人為中心,小編或者記者也要休假、睡覺,就會(huì)錯(cuò)過一些東西。有沒有可能完全屏蔽掉這種干擾,最終實(shí)現(xiàn)將源源不斷的素材從各個(gè)重要的渠道匯集過來,讓大模型直接生產(chǎn),24小時(shí)連續(xù)不間斷。在此情況下,編輯部可能在稿件生產(chǎn)環(huán)節(jié)壓根不需要人的參與,我給它起了個(gè)名字叫“黑燈編輯部”,就一個(gè)無情的寫稿機(jī)器不斷的生成稿件。
在這種新的視角下,就要重新考慮大模型生產(chǎn)要素、生產(chǎn)力、生產(chǎn)關(guān)系。我們也在摸索,以往那種生產(chǎn)力或者人類社會(huì)的生產(chǎn)力之下我們做了很多妥協(xié)和折中,形成了現(xiàn)在比較穩(wěn)定的生產(chǎn)關(guān)系,因?yàn)槿说纳a(chǎn)力是有限的,但是大模型的生產(chǎn)力目前來看遠(yuǎn)遠(yuǎn)沒到上限。如果還是用現(xiàn)有的這套生產(chǎn)關(guān)系去硬套新出來的生產(chǎn)力,那就好比是用前朝的劍來斬本朝的官。
曾晨光(主持人):最近剛好拜讀了陽教授的論文,其中一片論文今年發(fā)在NLP最頂尖會(huì)議ACL上,并奪得杰出論文獎(jiǎng)。我看到論文中planning script就是利用大模型來實(shí)現(xiàn)復(fù)雜任務(wù)規(guī)劃的非常有意思,而且讓大模型具有認(rèn)知智能中類比能力也是非常重要的,想請問這樣的技術(shù)未來的應(yīng)用方向以及相關(guān)規(guī)劃數(shù)據(jù)集準(zhǔn)備上是否有更大前景和方向?
陽德青:本來我們做這個(gè)工作只是想去評測一下大模型在完成比較高階的認(rèn)知智能任務(wù)的能力,比如規(guī)劃能力。在此過程中發(fā)現(xiàn),大模型在回答很多問題,包括常識性問題的時(shí)候,因?yàn)檎莆肇S富的知識能做出回答,讓其做一些簡單的規(guī)劃任務(wù),例如給出比較抽象的任務(wù)目標(biāo),讓其它產(chǎn)生完成任務(wù)的執(zhí)行腳本,它也能正?;卮稹5绻麑δ繕?biāo)增加復(fù)雜一點(diǎn)的約束條件,即完成帶約束目標(biāo)的具體規(guī)劃任務(wù)的話,生成的腳本就缺點(diǎn)比較明顯了。比如要求寫出為糖尿病病人做蛋糕的執(zhí)行腳本,它產(chǎn)生的腳本中會(huì)有一步是要加糖,但糖尿病病人是不能吃糖的。
因此,我們在文中提出一個(gè)方案去改進(jìn)大模型在這方面的能力,這篇論文能夠得到很多專家的認(rèn)可還有一個(gè)很重要的原因是我們構(gòu)建了相應(yīng)的數(shù)據(jù)集。
要知道現(xiàn)在不是每個(gè)人、每個(gè)團(tuán)隊(duì)、每個(gè)公司都用得起大模型,畢竟要花費(fèi)不小的成本,很多時(shí)候只能使用規(guī)模相對小一點(diǎn)的模型。小模型的能力有缺陷,尤其是通用的學(xué)習(xí)能力,零樣本學(xué)習(xí)能力有欠缺的,不過有了我們這樣的數(shù)據(jù)集,對小模型進(jìn)行訓(xùn)練和指令微調(diào),會(huì)發(fā)現(xiàn)提升后也可以接近大模型,雖然達(dá)不到大模型那么優(yōu)秀的程度,但是夠用了。我們這篇論文里面做的工作就是提出了一套范式,為大模型和小模型在此類任務(wù)上的微調(diào)和評測生成質(zhì)量更高、更可信的數(shù)據(jù)集,它的價(jià)值在于此,我覺得這是我們工作的一個(gè)很重要的貢獻(xiàn)。
曾晨光(主持人):其實(shí)剛剛也提到了尤其垂直領(lǐng)域語料數(shù)據(jù)+小參數(shù)量大模型微調(diào)可以讓更多人使用成本低廉的AGI能力,尤其我也看到其實(shí)在美國有一些AGI獨(dú)角獸企業(yè),就是做垂直領(lǐng)域微調(diào)指令的。您覺得尤其是圍繞垂直領(lǐng)域語料數(shù)據(jù)未來發(fā)展格局如何?
陽德青:首先垂直領(lǐng)域構(gòu)建的能夠訓(xùn)練垂直領(lǐng)域大模型的有質(zhì)量的樣本要求還是挺高的,剛才也提到數(shù)據(jù)公有和私有的問題。首先,這些數(shù)據(jù)不一定已經(jīng)公開成為網(wǎng)頁文本擺在那里可供大家使用,很多專業(yè)領(lǐng)域的知識可能都在專家腦袋里面,沒有變成可見的語料。剛才也提到,很多訓(xùn)練樣本是靠人工去標(biāo)注,但是人力成本是很高,人力也是有限的,那就需要模型自動(dòng)產(chǎn)生。模型雖然產(chǎn)生數(shù)據(jù)的速度很快,成本也比較低,但也不保證百分之百正確,而且大模型完成一些特定領(lǐng)域的任務(wù)要做垂直領(lǐng)域的指令微調(diào),這些數(shù)據(jù)哪里來?回答這個(gè)問題這可以和前面探討的第一個(gè)問題結(jié)合,可以依靠領(lǐng)域?qū)<医Y(jié)合現(xiàn)有的領(lǐng)域文檔資料,并采用一些模型算法利用垂直領(lǐng)域中已經(jīng)形成的領(lǐng)域知識圖譜,用人機(jī)協(xié)作的方式,讓人和小模型配合產(chǎn)生本領(lǐng)域的數(shù)據(jù)語料,去喂給大模型訓(xùn)練或微調(diào),而且能保證數(shù)據(jù)量足夠、質(zhì)量夠高,這樣來訓(xùn)練垂直領(lǐng)域大模型就可以擺脫沒有數(shù)據(jù),或者擺脫只能依靠人工來產(chǎn)生數(shù)據(jù)的缺點(diǎn)。
至于未來格局如何,現(xiàn)在我還提不敢斷言,但我剛才提的幾個(gè)方式應(yīng)該是可行并能并存的,大模型數(shù)據(jù)語料的構(gòu)建不能只靠機(jī)器,也不能只靠人,需要人機(jī)協(xié)作。
曾晨光(主持人):財(cái)聯(lián)社已經(jīng)率先實(shí)現(xiàn)了這樣的落地,包括在垂直領(lǐng)域建設(shè)語料庫的經(jīng)驗(yàn)和方案。葉總作為數(shù)商代表,能不能給同行一些建議。
葉周:第一先趕緊用起來,這是毫無疑問的。我說的是真正的用起來,要真正把它用在生產(chǎn)環(huán)節(jié)中,這種情況下,才能真正持久的使用大模型,在大模型的使用中積累經(jīng)驗(yàn)。財(cái)聯(lián)社因?yàn)橛玫孟鄬Ρ容^早,也積累了一些經(jīng)驗(yàn),就數(shù)據(jù)而言,我們發(fā)現(xiàn)數(shù)據(jù)不是越多越好,很多數(shù)據(jù)用處不是特別大。比如炒股票,每天的K線高開低收,這是股票的幾個(gè)基本要素,5000個(gè)股票,一年200個(gè)交易日,每個(gè)交易日都有開盤價(jià)、最高價(jià)、最低價(jià)、成交量等,這個(gè)數(shù)據(jù)量很大,其中是沒有什么知識的,這種數(shù)據(jù)丟給大模型幾乎毫無用處。
什么是有用的?比如炒股的教材,有些技術(shù)面分析,像鉆石頂、雙尖底、矩形突破這些概念。你在網(wǎng)上一些論壇里面提到這些黑話,或者是雞頭頂、鵝頭頂這種技術(shù)類黑話,大模型是不知道的,你讓它自己總結(jié)也總結(jié)不出來的,這就是知識,這個(gè)知識就從一些教材中來。
所以我們現(xiàn)在正在摸索,如何把金融相關(guān)的教材作為語料投喂給大模型,我們最終還沒有看出效果的差異,只是方法的差異。但是從數(shù)據(jù)而言,哪些數(shù)據(jù)是有Knowledge的,哪些數(shù)據(jù)是沒有Knowledge的,這一點(diǎn)可以作為后續(xù)在大模型時(shí)代,無論數(shù)據(jù)供應(yīng)商還是系統(tǒng)集成商,還是大模型應(yīng)用者,我覺得這是比較有價(jià)值的判斷標(biāo)準(zhǔn)。
曾晨光(主持人):這個(gè)論壇是大模型語料庫的價(jià)值與挑戰(zhàn),尤其挑戰(zhàn)方面,還有哪些?對這些挑戰(zhàn)還有哪些建議?
孫江:未來通用大模型我認(rèn)為會(huì)往集約型的方向去走,因?yàn)榇竽P图夹g(shù)作為一個(gè)工具,它最后是要和生產(chǎn)要素去結(jié)合,解決一些具體問題,賦能數(shù)字經(jīng)濟(jì)及實(shí)體經(jīng)濟(jì)。但是行業(yè)大模型不同,它本身具備了行業(yè)規(guī)模效應(yīng),如果能解決到具體問題、提升生產(chǎn)中的效果與效能,不管大模型也好,小模型也好,必將百花齊放。
既然有挑戰(zhàn)就有幾個(gè)困難點(diǎn)要克服。一是克服大模型幻覺的問題,因?yàn)橐鉀Q行業(yè)的具體問題,一定要讓大模型和行業(yè)語義進(jìn)行對齊,特別是在政務(wù)領(lǐng)域、公共事業(yè)領(lǐng)域,去回答一些特定性問題,特別是法律法規(guī)的解讀與釋義,不能含糊不清。這就要與其他一些小模型結(jié)合,包括知識檢索、分類模型,實(shí)現(xiàn)精準(zhǔn)化的回答。
二是數(shù)據(jù)要素化,數(shù)據(jù)要素化往前的階段是數(shù)字化、數(shù)據(jù)化,往下的階段是數(shù)智化。數(shù)字化轉(zhuǎn)型對很多企業(yè)還在發(fā)生和進(jìn)行中,大量的企業(yè)數(shù)據(jù)還是停留在怎么把非結(jié)構(gòu)化變成結(jié)構(gòu)化,再里面提煉出有價(jià)值的知識,去形成一些行業(yè)的知識,最后賦能給行業(yè)上下游甚至整個(gè)社會(huì)。
三是智能問答,智能問答核心要解決的除了回答對錯(cuò)以外,能不能提供情感關(guān)懷和情緒價(jià)值。我提的一個(gè)觀點(diǎn)就是大模型要加上元宇宙數(shù)字人,這也是我們上數(shù)所在開發(fā)的一款大模型應(yīng)用—下個(gè)月要上線的"入場咨詢助手",它就是一款結(jié)合大模型加上數(shù)字人,然后有情感表達(dá),去提供行業(yè)知識、行業(yè)資訊,數(shù)據(jù)產(chǎn)品推薦、數(shù)商服務(wù)推薦、合規(guī)指引解讀的智能問答數(shù)字人。
四是要有一些評估標(biāo)準(zhǔn)。在數(shù)據(jù)領(lǐng)域里有合規(guī)評估、質(zhì)量評估、價(jià)值評估。其實(shí)對模型工具或者模型應(yīng)用,一定要有一套行之有效并且行業(yè)共識的評估標(biāo)準(zhǔn)與規(guī)范。通過這樣一個(gè)指標(biāo)體系去衡量模型應(yīng)用的開發(fā)質(zhì)量,對效果進(jìn)行評級。從而達(dá)到推動(dòng)大模型生態(tài)高質(zhì)量發(fā)展。
曾晨光(主持人):相信這些挑戰(zhàn)也是語料聯(lián)盟未來要去克服的一些目標(biāo)和方向,薛老師是否能給語料聯(lián)盟未來發(fā)展的方向給一些寄語或者期望?
薛威:語料聯(lián)盟最新的數(shù)字大概是42家成員機(jī)構(gòu),經(jīng)常有新的機(jī)構(gòu)加入。我覺得還是要有更強(qiáng)的服務(wù)大模型的意識,同時(shí)我更加關(guān)注一個(gè)問題,我把它稱為“大模型的好孩子、壞孩子問題”,到底怎么培育出來一個(gè)好的大模型,它既知道世界的美好,也知道世界的險(xiǎn)惡,這是我們長期想要考慮的問題。所以價(jià)值對齊不僅僅是告訴它什么是對的過程,也是不斷的博弈,去讓它自身的存在感始終保持警惕的思考。我特別同意陽教授的講法,知識圖譜的確是有必要的,它最大的必要性在于,它讓大模型可以知道有些東西不會(huì),你可以選擇說我不會(huì),而不是按照概率學(xué)去編造一套可能可以滿足用戶傾向的需求,我覺得這是所有大模型語料數(shù)據(jù)聯(lián)盟成員單位都應(yīng)當(dāng)持續(xù)思考的問題。
(免責(zé)聲明:本網(wǎng)站內(nèi)容主要來自原創(chuàng)、合作伙伴供稿和第三方自媒體作者投稿,凡在本網(wǎng)站出現(xiàn)的信息,均僅供參考。本網(wǎng)站將盡力確保所提供信息的準(zhǔn)確性及可靠性,但不保證有關(guān)資料的準(zhǔn)確性及可靠性,讀者在使用前請進(jìn)一步核實(shí),并對任何自主決定的行為負(fù)責(zé)。本網(wǎng)站對有關(guān)資料所引致的錯(cuò)誤、不確或遺漏,概不負(fù)任何法律責(zé)任。
任何單位或個(gè)人認(rèn)為本網(wǎng)站中的網(wǎng)頁或鏈接內(nèi)容可能涉嫌侵犯其知識產(chǎn)權(quán)或存在不實(shí)內(nèi)容時(shí),應(yīng)及時(shí)向本網(wǎng)站提出書面權(quán)利通知或不實(shí)情況說明,并提供身份證明、權(quán)屬證明及詳細(xì)侵權(quán)或不實(shí)情況證明。本網(wǎng)站在收到上述法律文件后,將會(huì)依法盡快聯(lián)系相關(guān)文章源頭核實(shí),溝通刪除相關(guān)內(nèi)容或斷開相關(guān)鏈接。 )