精品国产亚洲一区二区三区|亚洲国产精彩中文乱码AV|久久久久亚洲AV综合波多野结衣|漂亮少妇各种调教玩弄在线

<blockquote id="ixlwe"><option id="ixlwe"></option></blockquote>
  • <span id="ixlwe"></span>

  • <abbr id="ixlwe"></abbr>

    智譜AI COO張帆:千億模型是AIGC的船票

    5月17日消息,由搜狐主辦的2023搜狐科技峰會17日上午在北京開幕。峰會下午,智譜AI COO張帆發(fā)表了《大模型的探索和實(shí)踐》的演講。他認(rèn)為,ChatGPT背后是大模型技術(shù),只有做到千億模型,才是AIGC的船票。

    張帆認(rèn)為,做大模型需要面臨算法、算力的挑戰(zhàn),還需要數(shù)據(jù)經(jīng)驗。所謂名師出高徒,越好的數(shù)據(jù),喂出來的模型越好。如果數(shù)據(jù)有問題,或者數(shù)據(jù)的價值觀有問題,傳導(dǎo)到模型后,將很難修復(fù)。

    同時他表示,大模型有很多應(yīng)用場景,比如文本生成、信息抽取等。大模型可以進(jìn)一步讓AI普惠,可以更加低成本、快速地把AI應(yīng)用到各種業(yè)務(wù)場景中。

    以下為張帆演講全文:

    首先大家能夠看到今年被震撼的事件,就是ChatGPT用了兩個月的時間,全球破億用戶的神話,特別是對比傳統(tǒng)的技術(shù),這個速度變得非???。在ChatGPT背后的技術(shù)是什么呢?是一個大模型的技術(shù),我簡單羅列了一下大模型發(fā)展趨勢。

    大模型從2017年Transformer這篇論文出現(xiàn),開始有了這個賽道,18年發(fā)布GPT-1開始,橫軸是時間線,縱軸是參數(shù)量,越來越多的模型和越來越大的參數(shù)出現(xiàn)。智譜是比較早就關(guān)注到這個方向。

    從19年公司成立就在關(guān)注大模型,那個時候沒有那么火熱,一直投入資源在做。一直到21年下半年,我們開始訓(xùn)練我們第一個希望能夠普惠的千億稠密的大模型,大概訓(xùn)練了8、9個月之后,到22年8月份發(fā)布第一個版本,并且開源出來,在國際社會上有很多正向的反饋。

    到了今年3月份,我們對標(biāo)ChatGPT,出臺了ChatGLM對話式模型反饋非常好。今年3月份,發(fā)布了6B小號的大模型更加普惠,甚至在單張游戲卡上就可以跑出來,一個多月的時間,全球有200萬的用戶,熱度非常高的。

    從最開始OpenAI有GPT-1、GPT-2,到GPT-3,有代碼、網(wǎng)頁指令等,到后面的GPT-4。我們?nèi)ツ?也許發(fā)布了千億模型之后,也在跟進(jìn)每個環(huán)節(jié),我們有對應(yīng)的對標(biāo),比如說代碼模型、指令微調(diào),讓大模型遵循指令,Web及時獲取真實(shí)信息,Chat更像是跟人聊天,按照這樣的節(jié)奏,在今年3、4月份,基本上補(bǔ)齊3.5對標(biāo)的邏輯,我們正在追趕GPT-4的邏輯。

    為什么我們叫千億大模型?它的模型參數(shù)從一開始1億、10億、百億、千億這樣的流程,縱向是由機(jī)器生成一篇文章,讓人判別,有多大概率是機(jī)器寫的,判別這個事兒,最低線是隨機(jī)猜,下面是50%的底線。隨著參數(shù)量從1億到千億,每次增長人類越來越發(fā)現(xiàn)不了,這篇文章是不是機(jī)器寫的,等到達(dá)千億的時候,幾乎人類已經(jīng)很難分辨是機(jī)器寫的還是人類寫的,只有做到千億模型,才是AIGC的船票。

    為什么會產(chǎn)生這樣的智能?其實(shí)很多研究中,很多的任務(wù)中,我們可以看到,隨著參數(shù)量的變化,從百億到接近千億,甚至到大幾百億的時候,突然智能有快速的突增,這就是所謂的涌現(xiàn),包括思考的能力、遵循指令的能力,推理的能力,都在很大規(guī)模才開始產(chǎn)生的。但是這個背后的原因雖然有各種各樣的猜測和說法,也沒有很明確的定論。

    但是我們認(rèn)為這個邏輯還是講得通的。其實(shí),人類的智能不是隨著神經(jīng)元做的線性增長,我們1歲的時候,有一些基礎(chǔ)的智力,談不上很聰明,到了2歲、3歲,結(jié)果到了3歲以后,開始快速具備智能,這些能力也不是線性的。所以我們覺得機(jī)器跟人很像,而且人有多少神經(jīng)元,人類大概有800億神經(jīng)元,今天到了千億參數(shù)量,開始接近人類了,至少接近一個數(shù)量級的情況下了,這是我們從大模型里看到的變化。

    但是做大模型本身也是很難的,這個好比我們蓋樓房一樣,咱們蓋五層樓和蓋50層樓,不是一個線性關(guān)系,用的基礎(chǔ)技術(shù)都不一樣,5層樓用木頭就可以了,50層樓要用到鋼筋。

    我們總結(jié)幾個挑戰(zhàn)。

    第一個挑戰(zhàn)是算法挑戰(zhàn)。大模型精度非常高,它在非常復(fù)雜的計算的時候,我們本身是希望會逐步收斂起來,變成穩(wěn)定的模型,現(xiàn)實(shí)當(dāng)中,復(fù)雜精度訓(xùn)練當(dāng)中,經(jīng)常出現(xiàn)由于精度不夠,代替梯度爆炸,模型突然訓(xùn)壞了,沒有收斂了,而且爆炸了,這種情況非常常見。

    另外一個是算力挑戰(zhàn)。我們整個千億130B模型的訓(xùn)練,純的算力費(fèi)用超過一個億,這是去年的,今年所有的算力都翻倍,甚至更高,關(guān)鍵是買不到了。

    另外就是數(shù)據(jù)上的經(jīng)驗。這通常就是大家所理解的名師出高徒,也就是越好的數(shù)據(jù),喂出來的模型越好,如果數(shù)據(jù)有問題,或者數(shù)據(jù)的質(zhì)量價值觀有問題,直接傳導(dǎo)到模型上,后面很難去修復(fù)。

    下面簡單介紹一下我們整體大模型矩陣,智譜有完整的大模型矩陣,我們?nèi)婧w了文本、代碼、圖像、視頻,基本上對標(biāo)OpenAI,我們有一個大號的大模型130B,到小號的大模型到6B,從基座模型到對話模型,以及應(yīng)用端的代碼模型,有文生圖模型,還有CogVideo文生圖視頻,整個矩陣比較完整。

    更關(guān)鍵的是大模型生產(chǎn)過程中,我們大多數(shù)人用的是GPT,而我們用的是GLM,百分之百自主知識產(chǎn)權(quán)的算法自研的,這個相當(dāng)于一方面有把GPT單向模型的能力,只會單向預(yù)測出現(xiàn)的概率,到雙向的,從文本中間摳掉字,通過兩種特殊能力的結(jié)合,產(chǎn)生GLM的算法。我們明顯超過GPT-3的水平,得益于算法本身從訓(xùn)練當(dāng)中挖掘更多的知識信息。

    講一下我們具體模型特點(diǎn),130B模型,1300億大語言模型在去年8月份發(fā)布的,今年持續(xù)迭代,這個模型有幾個特點(diǎn),在去年8月份,我們率先把它做了開源,一個雙語的模型,尤其在中文的數(shù)據(jù)集上有領(lǐng)先優(yōu)勢。

    另外兩個特色,第一個是無損量化,我們是極其少有的,我們能夠用int4無損壓縮大模型,每個參數(shù)用全精度32個位,現(xiàn)在變成4個位還不影響精度,它占據(jù)的空間非常小。另外我們?nèi)嬷С謬a(chǎn)信創(chuàng),我們甚至有一些模型完全在華為的昇騰上面完成訓(xùn)練,我們對于國產(chǎn)的芯片都是有較好的支持。

    另外分享一下,我們還有一個CodeGeeX,全球領(lǐng)先的多語言代碼,我們在多語言模型上僅次于OpenAI,像Meta的,其他的開放平臺,Salesforce都是勝出的,我們包裝成中國的插件,也是對標(biāo)GitHub,中國每天產(chǎn)生400萬行的代碼為我們的用戶。另外在評測當(dāng)中,有84%的用戶都覺得它的效果是比較好的。

    我們在過去一段時間,大概溝通有將近100家客戶,在這個過程當(dāng)中,我們不斷的產(chǎn)生新的idea,讓我們了解大模型如何應(yīng)用到應(yīng)用當(dāng)中。每一次交互的變化,都可能對某一類需求產(chǎn)生洗牌的機(jī)會,我們更了解大模型,大模型應(yīng)用場景非常值得關(guān)注。

    我們選了幾個常見的點(diǎn),跟大家做簡單的分享。

    第一個文本生成。沒有大模型之前,我們的文本生成基本上都是規(guī)則作為基礎(chǔ),都是以規(guī)則的拼接方式來做的,基本上很容易發(fā)現(xiàn)是人還是機(jī)器做的,而且它的影響面和應(yīng)用場景非常小。

    現(xiàn)在模型大文本生成能力非常強(qiáng),比如廣告文案生成,工作當(dāng)中周報的生成,新聞的生成,標(biāo)書的生成,招聘的話,職位的生成,旅游的話,游記的生成,它的生成能力放在無數(shù)的地方,可能對市場的生態(tài)帶來新的可能性,或者新的機(jī)會。這是一個非常好的場景。

    第二個信息抽取。我們以前做信息抽取,基本上都靠NLP的方法,來打標(biāo),各種規(guī)則等等方法,其實(shí)它的泛化能力非常差,生產(chǎn)成本特別高,我們在一些客戶需求抽取樂得長江,有一些銷售戴著智能工牌,跟客戶聊天有一萬字的生成,我們提取用戶畫像,用戶需求,甚至做客服的質(zhì)檢,有沒有該說的話,不該說的話也說了來打分。

    如用傳統(tǒng)的NLP的方法,則需要用兩三個月的時間不斷調(diào)整,而在今天大模型時代,它的生產(chǎn)成本,一個人搞半天就可以搞好了,在這種情況下,大模型進(jìn)一步讓AI普惠,在每個地方更加低成本、大家快速的把AI應(yīng)用到自己的業(yè)務(wù)場景里面去。

    再比如說信息檢索,微軟的New Bing,帶來一種全新的模式。我們原來的搜索引擎,搜索完了之后,把10條結(jié)果全部要讀一遍,看完要一個小時,大模型可以幫你完全看完,基于你的問題,針對性做回答,甚至還可以進(jìn)一步做追問,這個體驗會帶來完全顛覆。

    這僅僅是網(wǎng)頁,它本身內(nèi)容密度比較高的。我們今天搜一個視頻,往往只能得到封面或者是一個標(biāo)題,你完全不知道自己查的內(nèi)容在哪,如果把整個視頻看了,半天就沒了,大語言能不能把字幕里的內(nèi)容提取出來,閱讀完之后,轉(zhuǎn)成對應(yīng)的方式給我們,不再受制于展現(xiàn)形式。

    比如說我們簡歷的檢索,原來簡歷檢索到這個人的職位和公司,它對于每一場項目經(jīng)驗的描述,我們沒辦法轉(zhuǎn)化成語義,在今天有可能完全改變垂直領(lǐng)域,用戶搜索的習(xí)慣和場景,這也是一個非常大的機(jī)會。在原來的方式里面做不到的。

    比如說對話系統(tǒng),原來對話系統(tǒng),基本上以QA為基礎(chǔ),我們寫好的問題,不夠的話,我們不停擴(kuò)展擴(kuò)寫,用各種各樣的方法,非常生硬,稍微長一點(diǎn)的上下文理解不了,在大模型領(lǐng)域里面,有無數(shù)的場景,更好把對話能力植入進(jìn)去,不斷有更豐富的對話,即使QA里面沒有,放一個用戶手冊,可以隨便提問題,它了門檻、效果、上下文能力,泛化能力,遠(yuǎn)遠(yuǎn)超過之前的傳統(tǒng)方法,包括我們在會議場景上做會議紀(jì)要,會議紀(jì)要直接變成排期,都是有機(jī)會。

    我們會看到僅僅在過去兩個月時間,就見到無數(shù)這樣的場景,一次一次被我們大模型能力驚艷到,它在各個場景里會出現(xiàn)越來越多的應(yīng)用,這將是一個值得大家關(guān)注的方向。

    極客網(wǎng)企業(yè)會員

    免責(zé)聲明:本網(wǎng)站內(nèi)容主要來自原創(chuàng)、合作伙伴供稿和第三方自媒體作者投稿,凡在本網(wǎng)站出現(xiàn)的信息,均僅供參考。本網(wǎng)站將盡力確保所提供信息的準(zhǔn)確性及可靠性,但不保證有關(guān)資料的準(zhǔn)確性及可靠性,讀者在使用前請進(jìn)一步核實(shí),并對任何自主決定的行為負(fù)責(zé)。本網(wǎng)站對有關(guān)資料所引致的錯誤、不確或遺漏,概不負(fù)任何法律責(zé)任。任何單位或個人認(rèn)為本網(wǎng)站中的網(wǎng)頁或鏈接內(nèi)容可能涉嫌侵犯其知識產(chǎn)權(quán)或存在不實(shí)內(nèi)容時,應(yīng)及時向本網(wǎng)站提出書面權(quán)利通知或不實(shí)情況說明,并提供身份證明、權(quán)屬證明及詳細(xì)侵權(quán)或不實(shí)情況證明。本網(wǎng)站在收到上述法律文件后,將會依法盡快聯(lián)系相關(guān)文章源頭核實(shí),溝通刪除相關(guān)內(nèi)容或斷開相關(guān)鏈接。

    2023-05-17
    智譜AI COO張帆:千億模型是AIGC的船票
    大模型將推動AI普惠。

    長按掃碼 閱讀全文