4月26日,科大訊飛V3.5發(fā)布更新版本,宣布訊飛星火成為業(yè)界首個(gè)支持長(zhǎng)文本、長(zhǎng)圖文以及長(zhǎng)語(yǔ)音的大模型產(chǎn)品。
作為人工智能國(guó)家隊(duì),科大訊飛此次升級(jí)的訊飛星火V3.5,面向用戶高效準(zhǔn)確知識(shí)獲取的痛點(diǎn),不同于行業(yè)單“卷”長(zhǎng)文本,科大訊飛還為大模型加入了長(zhǎng)圖文、長(zhǎng)語(yǔ)音功能,拓寬了大模型多媒體資料獲取和理解的能力。
科大訊飛能為已經(jīng)稍顯降溫的長(zhǎng)文本注入新的活力嗎?長(zhǎng)圖文和長(zhǎng)語(yǔ)音的加入,能打開大模型打開更大的想象空間嗎?
用戶高效知識(shí)獲取痛點(diǎn)在哪里?
長(zhǎng)文本已經(jīng)成為國(guó)產(chǎn)大模型比拼的新方向。在經(jīng)過長(zhǎng)達(dá)一年的對(duì)標(biāo) ChatGPT-4、比拼參數(shù)大小的同質(zhì)化競(jìng)爭(zhēng)之后,中國(guó)人工智能公司們終于找出了一個(gè)更容易被普通用戶理解、也更能直觀地超越美國(guó)同行們的差異化標(biāo)的。
掀起這一波競(jìng)爭(zhēng)浪潮的是國(guó)內(nèi)大模型創(chuàng)業(yè)公司月之暗面。這家公司在去年將旗下的大模型 Kimi 的上下文參數(shù)規(guī)模提升至 20 萬(wàn)字,上個(gè)月又提升至 200 萬(wàn),迅速引爆市場(chǎng)。3 月,阿里旗下的通義千問已經(jīng)將這一數(shù)字更新到 1000 萬(wàn),宣稱是“全球文檔處理容量第一的 AI 應(yīng)用”。
華泰證券在一份研報(bào)中指出,具有長(zhǎng)上下文的大模型通用性更強(qiáng),用戶將特定領(lǐng)域的知識(shí)通過上下文的方式輸入到模型中,模型即可通過上下文學(xué)習(xí)掌握相應(yīng)內(nèi)容,一定程度上代替模型的微調(diào)。
但經(jīng)過幾個(gè)月的比拼跟進(jìn)之后,長(zhǎng)文本之于大模型似乎又成了一項(xiàng)廠家炫技的同質(zhì)化環(huán)節(jié),以至于有媒體已經(jīng)飛快地喊出了“長(zhǎng)文本降溫”的口號(hào),長(zhǎng)文本如何才能真正落地陷入瓶頸。
大模型長(zhǎng)文本功能的落地需要重點(diǎn)解決兩個(gè)問題。一是海量文本的高效處理。面對(duì)上百萬(wàn)甚至上千萬(wàn)文字,模型后臺(tái)消耗的運(yùn)算資源也成倍增加,業(yè)界的一些大模型往往智能處理前 20% 或前 50% 的內(nèi)容,之后的處理效率就大大減慢。
二是如何保證大模型在科研、醫(yī)療、法律等行業(yè)專業(yè)場(chǎng)景的準(zhǔn)確率,這樣才能解決大模型在剛需場(chǎng)景的應(yīng)用問題。
科大訊飛董事長(zhǎng)劉慶峰介紹,為了解決大模型應(yīng)用效率和準(zhǔn)確率問題,訊飛星火 V3.5 提升了對(duì)長(zhǎng)文本的理解、學(xué)習(xí)、回答能力,并進(jìn)行了重要的模型剪枝和蒸餾,從而推出業(yè)界最優(yōu)的 130 億參數(shù)的大模型。在效果損失僅 3% 以內(nèi)的情況下,使得星火在文檔上傳解析、知識(shí)問答的首響時(shí)間以及文字生成效率方面都獲得了極大的效率提升。
在對(duì)比測(cè)試中,使用訊飛星火對(duì)比國(guó)內(nèi)可測(cè)最好的大模型,在保障長(zhǎng)文本效果的情況下,無論是10K、64K、128K token,還是更長(zhǎng)的文本上,星火大模型的性能都是業(yè)界最優(yōu)。
在準(zhǔn)確率上,本次訊飛星火長(zhǎng)文本功能全新升級(jí)后,具備長(zhǎng)文檔信息抽取、長(zhǎng)文檔知識(shí)問答、長(zhǎng)文檔歸納總結(jié)、長(zhǎng)文檔文本生成等能力,總體已經(jīng)達(dá)到GPT-4 Turbo 4月最新長(zhǎng)文本版本的97%水平,而在銀行、保險(xiǎn)、汽車、電力等多個(gè)垂直領(lǐng)域的知識(shí)問答任務(wù)上,訊飛星火長(zhǎng)文本總體水平已經(jīng)超過GPT-4 Turbo。
解決了效率和準(zhǔn)確率的問題,長(zhǎng)文本才不至于只停留在參數(shù)比拼的噱頭上,真正落地于應(yīng)用場(chǎng)景。
除了長(zhǎng)文本,為何要加入長(zhǎng)圖文和長(zhǎng)語(yǔ)音
但文本內(nèi)容只是日常人們獲取信息的途徑之一。在現(xiàn)實(shí)的工作與學(xué)習(xí)過程中,人們接觸的的信息還有大量的圖片、語(yǔ)音等多模態(tài)信息。只有長(zhǎng)文本仍無法完美滿足現(xiàn)實(shí)社會(huì)的需要。
劉慶峰在訊飛星火 V3.5 春季上新的發(fā)布會(huì)上說,廣大用戶在知識(shí)的獲取和學(xué)習(xí)過程中,往往拿到的資料并不是網(wǎng)上現(xiàn)成的海量長(zhǎng)文本,而是隨手可見的報(bào)刊書籍上的內(nèi)容。他發(fā)出疑問,“能不能用手機(jī)一拍就成為我們后臺(tái)知識(shí)的來源?能不能我們參加各種學(xué)術(shù)研討會(huì),看到別人的 PPT,上課老師黑板上的板書以及各種同學(xué)筆記,都成為我們知識(shí)獲取和學(xué)習(xí)的內(nèi)容?”
目前市面上大多數(shù)面向 C 端提供服務(wù)的大模型應(yīng)用都還不支持圖文識(shí)別。事實(shí)上,圖文識(shí)別一直是多語(yǔ)言大模型的難點(diǎn)之一。
為了解決這一痛點(diǎn),科大訊飛在多年深耕圖文識(shí)別的基礎(chǔ)上,首發(fā)星火圖文識(shí)別大模型,覆蓋了書籍、學(xué)術(shù)論文、報(bào)紙、體檢報(bào)告、PPT 等 31 個(gè)工作生活中的常見場(chǎng)景,并針對(duì)最常見的 18 種板面要素進(jìn)行優(yōu)化,隨手一拍就能向大模型提問,例如頁(yè)眉、頁(yè)腳、標(biāo)題、欄目、段落、表格、插圖等要素,甚至還包括比較難但是很實(shí)用的公式、印章、二維碼、手寫材料等。
訊飛星火的圖文識(shí)別能力已經(jīng)達(dá)到國(guó)際領(lǐng)先水平。據(jù)了解,在英文公開測(cè)試集的圖文識(shí)別效果對(duì)比中,星火圖文識(shí)別大模型已經(jīng)領(lǐng)先微軟、Google 等國(guó)際產(chǎn)品。在諸如科研、金融、產(chǎn)品文檔等典型應(yīng)用場(chǎng)景的圖文識(shí)別效果對(duì)比中,星火圖文識(shí)別大模型均已實(shí)現(xiàn)對(duì) GPT-4V 的超越。
在此次升級(jí)中,面對(duì)廣泛的音視頻信息高效獲取需求,科大訊飛也推出長(zhǎng)語(yǔ)音功能,將國(guó)際領(lǐng)先的語(yǔ)音識(shí)別和翻譯技術(shù)結(jié)合起來,可以實(shí)現(xiàn)會(huì)議錄音、學(xué)習(xí)視頻等的一鍵研讀,實(shí)現(xiàn)音視頻場(chǎng)景的高效知識(shí)獲取。語(yǔ)音識(shí)別一直是科大訊飛的優(yōu)勢(shì)所在,根據(jù)IDC 去年年中發(fā)布的《中國(guó)人工智能軟件 2022 年市場(chǎng)份額》報(bào)告顯示,在人工智能語(yǔ)音語(yǔ)義市場(chǎng),科大訊飛以 11.4% 的市場(chǎng)份額位居行業(yè)第一。在語(yǔ)音識(shí)別領(lǐng)域最權(quán)威的國(guó)際多通道語(yǔ)音分離與識(shí)別大賽,科大訊飛連續(xù)四屆斬獲第一,持續(xù)領(lǐng)跑國(guó)際競(jìng)爭(zhēng)對(duì)手。
劉慶峰介紹,訊飛星火的語(yǔ)音識(shí)別不僅僅能針對(duì)中文內(nèi)容進(jìn)行學(xué)習(xí)整理,還結(jié)合訊飛國(guó)際領(lǐng)先的翻譯技術(shù),讓英文資料也能像純文字內(nèi)容一樣進(jìn)行快速獲取和學(xué)習(xí)。
長(zhǎng)圖文和長(zhǎng)語(yǔ)音的加入,為大模型的長(zhǎng)文本玩法擴(kuò)充了更多的想象空間,大模型可以獲取的資料不再僅局限于文本內(nèi)容,視覺、聽覺也成為大模型的信息獲取來源,可用性與實(shí)用性大大加強(qiáng)。
去年,科大訊飛啟動(dòng)了“訊飛超腦 2030 計(jì)劃”,提出要讓具備人工智能的機(jī)器人走入每一個(gè)家庭中的宏偉愿景。同時(shí)兼顧長(zhǎng)文本、長(zhǎng)圖文和長(zhǎng)語(yǔ)音能力的訊飛星火,或許就是這個(gè)計(jì)劃的第一步。
在此次訊飛星火V3.5的上新發(fā)布中,科大訊飛還宣布將于今年 6 月27日正式推出訊飛星火 V4.0 版本,期待國(guó)產(chǎn)大模型的持續(xù)進(jìn)化。
(免責(zé)聲明:本網(wǎng)站內(nèi)容主要來自原創(chuàng)、合作伙伴供稿和第三方自媒體作者投稿,凡在本網(wǎng)站出現(xiàn)的信息,均僅供參考。本網(wǎng)站將盡力確保所提供信息的準(zhǔn)確性及可靠性,但不保證有關(guān)資料的準(zhǔn)確性及可靠性,讀者在使用前請(qǐng)進(jìn)一步核實(shí),并對(duì)任何自主決定的行為負(fù)責(zé)。本網(wǎng)站對(duì)有關(guān)資料所引致的錯(cuò)誤、不確或遺漏,概不負(fù)任何法律責(zé)任。
任何單位或個(gè)人認(rèn)為本網(wǎng)站中的網(wǎng)頁(yè)或鏈接內(nèi)容可能涉嫌侵犯其知識(shí)產(chǎn)權(quán)或存在不實(shí)內(nèi)容時(shí),應(yīng)及時(shí)向本網(wǎng)站提出書面權(quán)利通知或不實(shí)情況說明,并提供身份證明、權(quán)屬證明及詳細(xì)侵權(quán)或不實(shí)情況證明。本網(wǎng)站在收到上述法律文件后,將會(huì)依法盡快聯(lián)系相關(guān)文章源頭核實(shí),溝通刪除相關(guān)內(nèi)容或斷開相關(guān)鏈接。 )