5月14日,OpenAI召開春季發(fā)布會(huì)發(fā)布基于GPT-4o打造的語音版ChatGPT,次日Google I/O大會(huì)正式召開,推出從基座模型 Gemini 升級(jí)到新的AI語音助手 Astra,標(biāo)志著人機(jī)語音對(duì)話技術(shù)進(jìn)入新的歷史時(shí)刻。今日,國內(nèi)聲學(xué)與人工智能領(lǐng)域龍頭企業(yè)聲智宣布面向企業(yè)級(jí)用戶與個(gè)人消費(fèi)者免費(fèi)開放實(shí)時(shí)語音轉(zhuǎn)寫與多語翻譯,再次把AI語音市場(chǎng)推向新的高潮。
從2010年蘋果Siri開創(chuàng)語音助手的先河,到亞馬遜智能音箱Echo引領(lǐng)語音成為新的人機(jī)交互界面,再到國內(nèi)小米小愛同學(xué)、阿里天貓精靈、百度小度等智能音箱“百箱大戰(zhàn)”的出現(xiàn),人機(jī)語音交互技術(shù)一路走來,一直不斷再給大眾帶來新的人機(jī)交互驚喜。然而,由于自然語義理解NLP技術(shù)的局限,智能音箱為代表產(chǎn)品的智能語音交互常常表現(xiàn)出有點(diǎn)“人工智障”,智能表現(xiàn)的確差強(qiáng)人意。隨著2022年底聊天機(jī)器人模型——ChatGPT的出現(xiàn),大語言模型技術(shù)躍遷使得智能語音交互迎來奇點(diǎn)時(shí)刻。此次,OpenAI和Google推出AI語音助手的驚艷、絲滑表現(xiàn),告訴我們語音交互將結(jié)束“智障”時(shí)代,開啟語音交互新世代。
但是,在生產(chǎn)生活高速發(fā)展的現(xiàn)代社會(huì),我們期待人機(jī)語音交互當(dāng)然不能到此就好。在給我們帶來聊天順暢表現(xiàn)的同時(shí),更應(yīng)該直接運(yùn)用到日常生產(chǎn)與生活中,在復(fù)雜的聲場(chǎng)環(huán)境場(chǎng)景下為我們提供更為精準(zhǔn)、便捷和高效的體驗(yàn)。
為此,聲智科技基于深厚的聲學(xué)技術(shù)積累,不斷優(yōu)化“遠(yuǎn)場(chǎng)聲學(xué)計(jì)算”,擺脫噪聲、混響、回聲等現(xiàn)實(shí)世界紛繁的干擾,打破現(xiàn)實(shí)空間的限制與束縛,構(gòu)建起真實(shí)物理世界與數(shù)字世界的橋梁,不斷開發(fā)更能應(yīng)用于工作與生活場(chǎng)景的功能,實(shí)現(xiàn)遠(yuǎn)場(chǎng)語音交互技術(shù)新的突破,讓大家即便在如咖啡館、集市一般嘈雜的聲音環(huán)境中也能享受智能語音交互帶來的優(yōu)質(zhì)服務(wù)體驗(yàn)。同時(shí),基于自研“Azero壹元大模型”,針對(duì)實(shí)際的語音對(duì)話場(chǎng)景去做深度優(yōu)化。例如,在實(shí)時(shí)轉(zhuǎn)寫功能上,聲智通過不斷降低聲學(xué)延遲,提升語音識(shí)別,優(yōu)化斷句理解,讓你在繁雜的會(huì)議和課堂場(chǎng)景中也不錯(cuò)過每一條重要信息。
聲智科技作為國內(nèi)聲學(xué)計(jì)算與人工智能交叉領(lǐng)域的國家專精特新小巨人企業(yè),現(xiàn)在將用上述技術(shù)打造的實(shí)時(shí)語音轉(zhuǎn)寫和多國語言翻譯等功能向公眾免費(fèi)開放,成為國內(nèi)首推兩大核心功能免費(fèi)的企業(yè)。聲智真誠希望通過智能聲學(xué)科技服務(wù)于每一位用戶和消費(fèi)者,讓每個(gè)人都能在日常生活和生產(chǎn)中真正享受科技之美。
接下來,大家一起看看聲智的聲學(xué)產(chǎn)品搭載AI服務(wù),將會(huì)帶來怎樣的全新體驗(yàn)?
聲智新算法新特色
人類探索世界,離不開一雙靈敏的耳朵,機(jī)器也不例外。聲智科技的聲學(xué)算法依托先進(jìn)的聲學(xué)架構(gòu),在數(shù)千萬臺(tái)AI音箱、AI耳機(jī)和AI麥克風(fēng)中得到驗(yàn)證,具備高精度的聲音捕捉和處理能力,在聲音輸入和處理上抓取的更精準(zhǔn),處理更得當(dāng)。聲學(xué)計(jì)算是人機(jī)交互的基礎(chǔ)環(huán)節(jié),主要基于傳感陣列和芯片架構(gòu)實(shí)現(xiàn),憑借噪音消除、混響抑制和聲樂分離等聲學(xué)算法,無論在嘈雜環(huán)境中還是在特種場(chǎng)景,聲智科技的聲學(xué)技術(shù)都能確保清晰的聲音輸入,讓機(jī)器具有一雙靈敏的耳朵,為下一鏈條的語音處理打下堅(jiān)實(shí)基礎(chǔ)。
拒絕人工智障,AI要機(jī)靈、貼心的。憑借語音算法,聲智科技的AI聲學(xué)產(chǎn)品更懂用戶!高精度的語音識(shí)別功能,能夠精準(zhǔn)識(shí)別多種方言和口音,支持超長時(shí)間實(shí)時(shí)轉(zhuǎn)寫,并提供高效的語音識(shí)別和翻譯服務(wù)。該算法通過深度學(xué)習(xí)算法和大量的語音數(shù)據(jù)訓(xùn)練,顯著提高了識(shí)別準(zhǔn)確率和響應(yīng)速度。同時(shí),聲智科技最新研發(fā)的語音克隆和合成算法,還具備了長文本多情緒的擬人朗讀能力,讓AI不再冷冰冰。
在語音轉(zhuǎn)寫的基礎(chǔ)上,聲智的語言翻譯算法還可以實(shí)時(shí)將中文轉(zhuǎn)寫內(nèi)容翻譯成多種語言。這項(xiàng)技術(shù)結(jié)合了自然語言處理和機(jī)器翻譯領(lǐng)域的最新成果,確保翻譯結(jié)果的準(zhǔn)確性和流暢度。此外,語言摘要功能能夠自動(dòng)提取文本的核心信息,生成簡明扼要的摘要,讓信息處理更高效!
聲智AI耳機(jī)和AI麥克風(fēng)
除了免費(fèi)開放,聲智還推出了基于這些技術(shù)應(yīng)用的重要硬件設(shè)備——AI耳機(jī)和AI麥克風(fēng)是。AI耳機(jī)不僅提供卓越的音質(zhì),還集成了實(shí)時(shí)轉(zhuǎn)寫和翻譯功能,方便用戶在各種場(chǎng)景下進(jìn)行交流和學(xué)習(xí)。而AI麥克風(fēng)則專為高品質(zhì)聲音錄制設(shè)計(jì),是專業(yè)媒體從業(yè)者,自媒體創(chuàng)作者和音頻愛好者的理想選擇。
這項(xiàng)融合聲學(xué)、語音和語言技術(shù)的創(chuàng)新服務(wù),將極大地提升用戶的互動(dòng)體驗(yàn),助力更多人享受到智能科技帶來的便利和高效,電影《流浪地球》中的Moss將走進(jìn)千家萬戶的日常生活!
(免責(zé)聲明:本網(wǎng)站內(nèi)容主要來自原創(chuàng)、合作伙伴供稿和第三方自媒體作者投稿,凡在本網(wǎng)站出現(xiàn)的信息,均僅供參考。本網(wǎng)站將盡力確保所提供信息的準(zhǔn)確性及可靠性,但不保證有關(guān)資料的準(zhǔn)確性及可靠性,讀者在使用前請(qǐng)進(jìn)一步核實(shí),并對(duì)任何自主決定的行為負(fù)責(zé)。本網(wǎng)站對(duì)有關(guān)資料所引致的錯(cuò)誤、不確或遺漏,概不負(fù)任何法律責(zé)任。
任何單位或個(gè)人認(rèn)為本網(wǎng)站中的網(wǎng)頁或鏈接內(nèi)容可能涉嫌侵犯其知識(shí)產(chǎn)權(quán)或存在不實(shí)內(nèi)容時(shí),應(yīng)及時(shí)向本網(wǎng)站提出書面權(quán)利通知或不實(shí)情況說明,并提供身份證明、權(quán)屬證明及詳細(xì)侵權(quán)或不實(shí)情況證明。本網(wǎng)站在收到上述法律文件后,將會(huì)依法盡快聯(lián)系相關(guān)文章源頭核實(shí),溝通刪除相關(guān)內(nèi)容或斷開相關(guān)鏈接。 )