人工智能大模型已經(jīng)從如火如荼之間開始進入到了落地焦慮之中,甚至已經(jīng)牽連了英偉達的股價。因為大家逐漸開始發(fā)現(xiàn),雖然這個東西很好,但還找不到什么很大的商業(yè)用處。更多的人還是把它當做一個智能化的搜索引擎,雖然不能說沒用,但怎么也不會超越搜索引擎,又何況里面還有一些不準確的AI幻覺的部分。
不過最近訊飛發(fā)布的星火極速超擬人語音倒是給人一種科技的一小步,體驗的一大步的超強迭代感。也許這才是人工智能大模型改變世界的真正方式。
人和AI的差距就是那幾秒
人和AI到底差別在哪里?我想很多人都會認為,人顯然不會像AI那么博學,甚至大部分人都談不上有較高的學識。所以大家會認為大模型發(fā)展的方向一定是更加的準確和全能,能夠解決更多的數(shù)據(jù)和問題,然后就在不斷的提升算力和數(shù)據(jù)量,似乎進入到了一個無限競爭甚至得出了一個未來人工智能競爭的上限是電力供應的恐怖話題。
當然,我不反對這種觀點,它也許確實是對的,或者代表了行業(yè)的方向,但回過頭來去思考,這種全知全能到底是誰的需求?用戶是不是真的有這么一個剛需去獲得一個全知全能的大模型?
這讓我想起成都車展上沃爾沃總裁對人工智能的一個吐槽,他說,“現(xiàn)在大家去試車,用語音說打開天窗,然后幾秒后,天窗打開了,大家就說這個車智能化很好。一個物理按鍵一秒鐘就能實現(xiàn)的功能現(xiàn)在要四秒才能完成,這個功能的意義到底是什么,滿足了什么需要又滿足了誰的需要?”我們拋開這個話題本身不談,我最大的發(fā)現(xiàn)則是這些智能外行人群也就是我們說的普通用戶人群首先考慮的一個點是“4秒”和“1秒”之間的差別。
所以,綜合一下就是,專業(yè)的人認為專業(yè)是最重要的,但普通的用戶則認為,快捷是最重要的。放到AI這個領域上來說,最大的問題不是準確不準確,而是它思考的時間太長了,讓我沒有辦法產(chǎn)生交流的感覺,最后就只剩下了命令和搜索的感覺。我反而覺得這是普通用戶關注的真正焦點,也是人工智能大模型最終能夠真正獲得普及的關鍵。而訊飛星火極速超擬人語音是我發(fā)現(xiàn)第一個關注到這個問題并著手解決的人。
從微信語音到微信通話
訊飛是語音識別的專家,所以最早發(fā)現(xiàn)這個問題也就不足為奇。訊飛所關注到的用戶痛點是,傳統(tǒng)的語音交互想要實現(xiàn)和人的對話,一般需要通過三步來實現(xiàn):1?把語音通過語音識別系統(tǒng)轉換為文字;2通過大模型生成回復文本;3最后再用語音合成系統(tǒng)轉成語音。
因為各個系統(tǒng)是串聯(lián)的,所以這整個過程的平均延遲一般需要3秒左右。而人類從電話發(fā)明開始,就已經(jīng)習慣于在各種場景下實時交流了。甚至很多人認為美國登月是假的一個重要原因就是,通話是實時的,而月球那么遠信號來往是要有時間的。
訊飛的另一個發(fā)現(xiàn)則是,在語音轉文字再轉語音的過程中,語音的很多情感、副語言信息甚至是環(huán)境信息都會丟失,導致語音交互系統(tǒng)只能針對語音的文本內容進行回應,會忽略我們在語音中本身真實的情感、語氣等元素。換句話說,就是內容都在,但感情沒有了。而沒有感情,也是人們無法將AI當做人來溝通和共情的關鍵,盡管AI可能比絕大部分人要聰明和博學很多。
而星火極速超擬人交互就是跨文本和音頻模態(tài)端到端地訓練了一個新模型,直接省去中間環(huán)節(jié)直接實現(xiàn)音到語音的建模,大大壓縮了響應時間,于是就實現(xiàn)了真正類似人們交流的延遲,基本你話說完,就直接有了回應。
更重要的是,訊飛結合了自身作語音識別多年的經(jīng)驗和積累,利用訊飛多維度的語音屬性解耦表征訓練準則,將內容、音色、情感、語言、風格等信息進行解耦訓練,保持了AI對情緒的理解和表達能力,這樣就不再是一個冷冰冰的機器回答,而變的有情緒多了,給人的感覺就像鋼鐵俠的老版本AI升級到了賈維斯。整個交流從“微信語音模式”切換到“微信通話模式”了,感覺一下子就來了。
這個速度水平已經(jīng)追平了GPT-4o,情感水平甚至還有所超越,明顯快于其他大模型的產(chǎn)品,并且可以提供更多個性化的使用方式。比如用幽默調侃的語氣講個笑話,用詩歌的方式朗誦一篇文章,用方言給大家做個介紹,甚至模仿孫悟空或者蠟筆小新來聊個天等等。整個AI交互的場景和思路都一下子打開了,讓人感覺一個變革的節(jié)點似乎終于來了。
變革節(jié)點到了
我一直認為,大模型提供的回答信息內容已經(jīng)非常不錯了,雖然達不到全知全能的水平,但是已經(jīng)足夠用了,而對于專業(yè)人士來說,他們也不指望大模型能真的解決專業(yè)問題,但一個數(shù)學家說的挺好,大模型給他提供了十個方案,他確定有一個是有啟發(fā)的。
所以真正的困境還是在用戶體驗上,用戶并不覺得他是一個可以互相交流的同類,而只是一個更聰明一點的智能音箱。而現(xiàn)在這個問題終于迎來的最簡單的解決方案,把速度提上去,把感情加進來,讓用戶愿意跟你交流。想想再度自駕車的時候,能有個人工智能聊天也是很快意的一件事情,而之前大家沒有這么做,顯然就是因為那種喚醒模式和延遲時間,實在是聊不起來。
現(xiàn)在有了星火極速超擬人語音,這種真正像人一樣的交互顯然已經(jīng)可以落地,汽車、手機、家居家電、智能硬件等領域的大模型交互也會徹底顛覆,用戶終于可以不再把大模型當做一個工具,而是真正當做一個自己AI助手去交流。
這大概就是速度提升的一小步,卻是體驗提升的一大步了。而訊飛能夠做到這樣的突破,我想不僅僅是因為他們的敏銳和產(chǎn)品能力,更是因為他們在語音識別領域遙遙領先的積累。
訊飛在人工智能最大的特點其實是落地能力強,早早的就把大模型應用在了教育、醫(yī)療等多個方面,并且形成了非常強的產(chǎn)品思路。而現(xiàn)在星火極速超擬人語音的出現(xiàn),無疑是這種思路持續(xù)發(fā)展的結果,也是一個非常有突破的關鍵點。
目前訊飛還在中石油等央國企大模型項目中不斷中標,最近又剛剛拿下了東數(shù)西算貴安新區(qū)算力產(chǎn)業(yè)集群的配套項目,無疑也是這種能力的另一種體現(xiàn)。相信隨著星火極速超擬人語音的落地和發(fā)展,訊飛星火大模型會帶來一波真正的人工智能的落地契機,就好像當年語音輸入給輸入領域帶來的顛覆一樣。
免責聲明:此文內容為第三方自媒體作者發(fā)布的觀察或評論性文章,所有文字和圖片版權歸作者所有,且僅代表作者個人觀點,與極客網(wǎng)無關。文章僅供讀者參考,并請自行核實相關內容。投訴郵箱:editor@fromgeek.com。
- 這里不止“羊毛月”,少年也在以電商助農
- 同仁堂醫(yī)養(yǎng)IPO: “三位一體”診療服務體系高效協(xié)同 “中醫(yī)+”健康服務未來可期
- 國產(chǎn)手機大勝,蘋果銷量大跌,難怪急哄哄降價千元
- 走出群山,長賽道“攀登者”vivo
- 三線結構光與升降LDS激光雷達 石頭自清潔掃拖機器人G30導航避障新里程
- 石頭科技閃耀CES2025 首創(chuàng)仿生機械手掃拖機器人
- TCL華星亮相CES2025,印刷OLED等創(chuàng)新顯示技術全球吸睛
- 科技云報到:從大模型到云端,“AI+云計算”還能講出什么新故事?
- 承載AI的云南花卉,正在盛開
- 打造個人辦公新范式,科大訊飛召開辦公智能體產(chǎn)品升級發(fā)布會
免責聲明:本網(wǎng)站內容主要來自原創(chuàng)、合作伙伴供稿和第三方自媒體作者投稿,凡在本網(wǎng)站出現(xiàn)的信息,均僅供參考。本網(wǎng)站將盡力確保所提供信息的準確性及可靠性,但不保證有關資料的準確性及可靠性,讀者在使用前請進一步核實,并對任何自主決定的行為負責。本網(wǎng)站對有關資料所引致的錯誤、不確或遺漏,概不負任何法律責任。任何單位或個人認為本網(wǎng)站中的網(wǎng)頁或鏈接內容可能涉嫌侵犯其知識產(chǎn)權或存在不實內容時,應及時向本網(wǎng)站提出書面權利通知或不實情況說明,并提供身份證明、權屬證明及詳細侵權或不實情況證明。本網(wǎng)站在收到上述法律文件后,將會依法盡快聯(lián)系相關文章源頭核實,溝通刪除相關內容或斷開相關鏈接。