在最近的杭州亞運(yùn)會(huì)期間,一位智能“導(dǎo)游”吸引了很多的目光。它可不是一般人,它外觀看上去像一輛小車,四個(gè)輪子在地面上快速靈活地移動(dòng)。上面安裝了機(jī)械臂,整體約一人高,機(jī)械臂上配有攝像頭,以及語音和顯示界面等交互設(shè)施,使其能夠?qū)χ車h(huán)境和需要執(zhí)行的任務(wù)進(jìn)行識別與理解。
據(jù)悉,這臺“導(dǎo)游”機(jī)器人系統(tǒng)是由北京大學(xué)計(jì)算機(jī)學(xué)院HMI團(tuán)隊(duì)研發(fā),它結(jié)合了當(dāng)前最前沿的AI技術(shù)——多模態(tài)大模型和具身智能,在亞運(yùn)會(huì)期間,為視障人士提供引領(lǐng)和導(dǎo)航等幫助,并可解析視障人士的需求并完成相應(yīng)任務(wù),如幫助他們撿拾掉落的物品等,以其獨(dú)特的方式,為亞運(yùn)會(huì)的成功舉辦貢獻(xiàn)了力量。
【圖說】北京大學(xué)團(tuán)隊(duì)研發(fā)的多模態(tài)智能愛心助手在亞運(yùn)會(huì)期間服務(wù)
「我們研發(fā)的這款多模態(tài)智能愛心助手,是基于團(tuán)隊(duì)自研的感知生成一體化多模態(tài)大模型,該系統(tǒng)能夠精準(zhǔn)地感知與理解視覺場景,生成準(zhǔn)確豐富的語言描述,實(shí)現(xiàn)從人類復(fù)雜指令到具體行動(dòng)的轉(zhuǎn)化,并基于端云協(xié)作大小模型的協(xié)同高效微調(diào),提升模型的泛化性,使其可以快速適應(yīng)新場景?!贡本┐髮W(xué)計(jì)算機(jī)學(xué)院仉尚航研究員介紹。
「多模態(tài)大模型能夠根據(jù)語言、2D、3D等多種輸入模態(tài),解析接收到的指令與周圍環(huán)境,進(jìn)行任務(wù)拆解并生成相應(yīng)動(dòng)作,完成服務(wù)任務(wù)。希望我們的研究可以用科技創(chuàng)新賦能弱勢群體,讓更多人感受未來科技的溫暖,體驗(yàn)到亞運(yùn)會(huì)的精彩?!?/p>
「多模態(tài)大模型+具身智能」系統(tǒng)首次落地大型體育賽事
「亞運(yùn)會(huì)上有很多尖端科技的應(yīng)用,很大程度上增強(qiáng)了運(yùn)動(dòng)員的比賽體驗(yàn)和觀眾的觀賽體驗(yàn)?!贡本┐髮W(xué)學(xué)生莊棨寧表示:「但在深入研究和觀察后,我們發(fā)現(xiàn)對于特定的觀眾群體,如少數(shù)民族和殘疾人士,當(dāng)前的技術(shù)并沒有充分滿足他們的需求。少數(shù)民族的觀眾可能面臨語言障礙,而殘疾人士可能需要更多的輔助工具或特別的服務(wù),以便更好地享受比賽?!?/p>
為了解決這一問題,團(tuán)隊(duì)便萌生了研發(fā)一個(gè)專門服務(wù)殘障人士觀賽的AI系統(tǒng)的想法?!付嗄B(tài)大模型是我們課題組的重點(diǎn)研究方向,我們就在想有沒有可能把多模態(tài)大模型和具身智能結(jié)合起來,為機(jī)器人賦予更加智能的大腦,使其可以將人類復(fù)雜需求轉(zhuǎn)化為具體行動(dòng)指令?!?/p>
「這樣,我們的愛心助手可以更好地與用戶互動(dòng),理解他們的需求,并快速做出有針對性的響應(yīng),更好地為亞運(yùn)會(huì)弱勢觀眾群體服務(wù),也讓更多人能夠親身體驗(yàn)到AI科技所帶來的變革與溫暖?!?/p>
在仉尚航研究員的指導(dǎo)和支持下,學(xué)生們迅速行動(dòng)起來,并且追求了一種創(chuàng)新的路徑,即設(shè)計(jì)「感知生成一體化的多模態(tài)大模型」,以實(shí)現(xiàn)對各種視覺場景的精準(zhǔn)地感知與理解,并生成準(zhǔn)確豐富的語言描述。
【圖說】:仉尚航研究員(一排左四)和學(xué)生團(tuán)隊(duì)成員
同時(shí),團(tuán)隊(duì)還將多模態(tài)大模型與具身智能相結(jié)合,由于機(jī)器人將面對不同場景,需要具備快速適應(yīng)新場景的泛化能力,為此,團(tuán)隊(duì)設(shè)計(jì)了基于端云協(xié)作的大小模型協(xié)同高效微調(diào),提升模型的泛化性,使其可以持續(xù)適應(yīng)不同的場景。
在本次亞運(yùn)會(huì)期間大顯身手的多模態(tài)愛心助手,基于團(tuán)隊(duì)自研的感知生成一體化通用多模態(tài)大模型,其核心是一個(gè)參數(shù)量為7B/13B的多模態(tài)大模型,該模型集成了視覺基礎(chǔ)模型的泛化感知能力和大語言模型的涌現(xiàn)能力。
例如,聽到用戶說「我渴了」之后,機(jī)器人能自動(dòng)轉(zhuǎn)身去拿過桌上的一瓶水送到用戶手中。在這個(gè)看似簡單的過程中,實(shí)際上涉及了一系列復(fù)雜的子任務(wù):
. 機(jī)器人首先需要捕獲有人說「我渴了」這個(gè)語音信號,然后通過語音識別技術(shù)將其轉(zhuǎn)換為文字。
. 機(jī)器人需要理解「我渴了」這句話的含義,也就是說,理解說話者此時(shí)需要水。
. 然后,機(jī)器人需要知道在哪里能找到水,而這需要它對環(huán)境有一個(gè)良好的感知,利用計(jì)算機(jī)視覺技術(shù),識別和定位瓶裝水。
. 在確定了瓶裝水的位置后,機(jī)器人需要規(guī)劃一條到達(dá)那里的路徑,這涉及到路徑規(guī)劃算法。
. 完成路徑規(guī)劃后,機(jī)器人需要控制自身的動(dòng)作,移動(dòng)到瓶裝水的位置。
. 到達(dá)水瓶的位置后,機(jī)器人需要準(zhǔn)確抓取瓶裝水,這涉及視覺檢測、機(jī)器人控制系統(tǒng)和抓取的相關(guān)技術(shù)。
. 抓取到水后,機(jī)器人需要規(guī)劃返回的路徑并控制自身的動(dòng)作,將水送到說話者的手中。
每一個(gè)子任務(wù)都需要大量的研究和工程實(shí)踐。不僅如此,機(jī)器人還需要能夠處理在訓(xùn)練數(shù)據(jù)中未曾出現(xiàn)過的新情況,也就是說,模型需要具有強(qiáng)大的泛化能力,能夠在新的、未知的環(huán)境中有效地工作。
為了提升機(jī)器人在開放環(huán)境下的持續(xù)性泛化能力,團(tuán)隊(duì)構(gòu)建了一個(gè)端云協(xié)作的持續(xù)學(xué)習(xí)系統(tǒng)。這一系統(tǒng)的設(shè)計(jì)旨在兼顧終端計(jì)算的個(gè)性化、隱私保護(hù)和低通信成本等優(yōu)勢,同時(shí)也充分利用云端計(jì)算的大規(guī)模計(jì)算資源、大量標(biāo)注數(shù)據(jù)以及卓越的泛化能力。通過高效的數(shù)據(jù)傳輸和合理的資源分配,實(shí)現(xiàn)了高度泛化的大小模型協(xié)同學(xué)習(xí)。
仉尚航研究員表示,「在終端設(shè)備上,我們部署了經(jīng)過壓縮的多模態(tài)模型,該模型在進(jìn)行推理時(shí)能夠同時(shí)進(jìn)行不確定性估計(jì)。這一智能策略允許我們主動(dòng)篩選出不確定性較高的樣本,并將它們傳送回云端。這些高不確定性的樣本通常涉及新的數(shù)據(jù)分布,來自新場景、新環(huán)境或新事件等情況,這些都是在開放環(huán)境下需要特別重點(diǎn)識別和理解的情形?!?/p>
團(tuán)隊(duì)成員劉家銘同學(xué)也提及,「一旦這些高不確定性樣本到達(dá)云端,我們利用未壓縮的多模態(tài)大模型對它們進(jìn)行深度分析和學(xué)習(xí)。通過知識蒸餾和高效微調(diào)等技術(shù)手段,我們將從這些難例樣本中提取的知識傳授給終端上的壓縮模型。這個(gè)過程大幅度提高了壓縮后的多模態(tài)模型的泛化能力,使機(jī)器人在開放世界中能夠不斷適應(yīng)和理解各種場景?!?/p>
團(tuán)隊(duì)提出的端云協(xié)作持續(xù)學(xué)習(xí)系統(tǒng),在設(shè)計(jì)和研發(fā)上充分發(fā)揮了云端和終端計(jì)算的優(yōu)勢,通過智能的樣本篩選和知識傳遞,實(shí)現(xiàn)了機(jī)器人在開放環(huán)境中持續(xù)學(xué)習(xí)和適應(yīng)的目標(biāo)。這一創(chuàng)新的方法顯著提升了多模態(tài)大模型的泛化性與高效性,為開放環(huán)境中的機(jī)器人系統(tǒng)賦予了更強(qiáng)的智能。
科技創(chuàng)新賦能弱勢群體,讓亞運(yùn)會(huì)展現(xiàn)「AI的溫度」
深度學(xué)習(xí)大模型技術(shù)的突破式發(fā)展帶來了人工智能研究的革命性變化。預(yù)訓(xùn)練大模型,如 ChatGPT和 GPT-4,成為 AIGC 系統(tǒng)的核心。在基礎(chǔ)設(shè)施支撐、頂層設(shè)計(jì)優(yōu)化、下游需求旺盛三輪驅(qū)動(dòng)下,人工智能大模型迎來了良好的發(fā)展契機(jī)。
不過,大模型研究仍處于研究的初期階段,仍存在關(guān)鍵科學(xué)難題和卡脖子技術(shù)亟待解決,包括如何同時(shí)處理多種輸入模態(tài),如何進(jìn)行大規(guī)模參數(shù)和高效訓(xùn)練,如何進(jìn)行遷移學(xué)習(xí)和大模型微調(diào),如何進(jìn)行多模態(tài)和多任務(wù)學(xué)習(xí),如何進(jìn)行跨語言融合,如何進(jìn)行人機(jī)協(xié)作等。
團(tuán)隊(duì)這次自研的感知生成一體化通用多模態(tài)大模型,已經(jīng)展現(xiàn)出卓越的一體化處理能力,包括:視覺問答(VQA),能夠?qū)D像進(jìn)行自然語言問答;Captioning,能夠?yàn)閳D像生成描述性文本;行為決策與規(guī)劃,具備基于圖像和文本信息進(jìn)行決策和規(guī)劃的能力;以及目標(biāo)檢測,能夠識別圖像中的特定目標(biāo)或特征。
「多模態(tài)大模型是我們組研究的核心,」北京大學(xué)計(jì)算機(jī)學(xué)院博士后王冠群介紹說:「目前也取得了一定的成果,除了這次自研的感知生成一體化通用多模態(tài)大模型、大小模型協(xié)同訓(xùn)練與部署,我們還關(guān)注多模態(tài)生成式大模型Agent設(shè)計(jì)、大模型記憶機(jī)制設(shè)計(jì)、面向多場景的智能醫(yī)療多模態(tài)大模型集群、通用大模型適配器等?!?/p>
據(jù)悉,團(tuán)隊(duì)研發(fā)的一體化大模型工具鏈(X-Accessory),旨在降低大模型使用門檻,促使各行業(yè)從業(yè)者能輕松調(diào)試大模型,在各自專有領(lǐng)域進(jìn)化大模型的能力以靈活適配專有需求?!肝覀冊谟布洗钶d高算力一體機(jī),同時(shí)提供直通云端調(diào)取云算力服務(wù)的選項(xiàng),軟件上搭載X-Accessory工具鏈,為用戶提供靈活的大模型調(diào)試和應(yīng)用環(huán)境。該工具鏈可用于訓(xùn)練和部署各類任務(wù),包括但不限于金融知識問答、交通任務(wù)調(diào)度、醫(yī)療推薦等垂直領(lǐng)域的專有任務(wù)?!?/p>
基于多模態(tài)大模型,在北京大學(xué)計(jì)算機(jī)學(xué)院黃鐵軍教授及仉尚航研究員的指導(dǎo)下,團(tuán)隊(duì)還為本次亞運(yùn)會(huì)研發(fā)了一款智能AI賽事解說系統(tǒng)。黃鐵軍教授提出了「脈沖連續(xù)攝影原理」,直接用每個(gè)像素的定額積分時(shí)間表達(dá)光強(qiáng),相機(jī)速度取決于電路能夠?qū)崿F(xiàn)的最短信號讀取時(shí)間,顛覆了持續(xù)近兩個(gè)世紀(jì)的定時(shí)曝光成像原理,解決了傳統(tǒng)相機(jī)不能兼顧超高速、高動(dòng)態(tài)的問題,被中國電子學(xué)會(huì)鑒定認(rèn)為是「超高速成像和機(jī)器視覺領(lǐng)域的重大原始創(chuàng)新,超高速成像技術(shù)達(dá)到國際領(lǐng)先水平」。有了高速脈沖相機(jī),就能夠同時(shí)實(shí)現(xiàn)超高速、高動(dòng)態(tài)、全畫幅連續(xù)成像。在此基礎(chǔ)上,團(tuán)隊(duì)通過自研的 X-Accessory一體化大模型工具鏈,設(shè)計(jì)了多模態(tài)多語種視頻解說系統(tǒng),在亞運(yùn)會(huì)期間用于乒乓球、跆拳道、跳水、體操等賽事。這個(gè)解說系統(tǒng)的特點(diǎn)在于,它不僅能夠理解和分析正在進(jìn)行的比賽,生成實(shí)時(shí)的解說內(nèi)容,還可以根據(jù)觀眾的喜好提供個(gè)性化的解說服務(wù),包括將解說內(nèi)容翻譯成多種語言,包括維吾爾語、阿拉伯語等,從而為全球各地的觀眾提供豐富的觀賽體驗(yàn)。
【圖說】北京大學(xué)團(tuán)隊(duì)研發(fā)的智能賽事解說系統(tǒng)
在高速脈沖相機(jī)的加持下,能夠清晰成像高速運(yùn)動(dòng)場景,捕捉比賽中的關(guān)鍵時(shí)刻,針對賽場畫面進(jìn)行多個(gè)語種的解說和報(bào)道,讓更多的人了解亞運(yùn),特別是提升國內(nèi)少數(shù)民族及國外多語種國家的賽事體驗(yàn)。
除此之外,團(tuán)隊(duì)還進(jìn)行多模態(tài)生成式大模型Agent設(shè)計(jì)。當(dāng)前,多數(shù)模型都是單模態(tài)的,無法有效地結(jié)合視覺、聽覺和文本等多種模態(tài)信息。這種局限性在復(fù)雜的實(shí)際場景,如虛擬助手、機(jī)器人交互和智慧城市中,可能導(dǎo)致效果并不理想?!敢虼?我們開發(fā)了一種多模態(tài)生成式大模型Agent,將各種模態(tài)的優(yōu)點(diǎn)結(jié)合起來,例如視覺的細(xì)節(jié)捕捉能力、聽覺的時(shí)序特性和文本的結(jié)構(gòu)化知識。這樣的綜合性設(shè)計(jì)將有助于推動(dòng)生成式模型向更加實(shí)用和高效的方向發(fā)展,滿足未來多種復(fù)雜應(yīng)用場景的需求?!?/p>
在更復(fù)雜的應(yīng)用場景,團(tuán)隊(duì)還研究過面向多場景的智能醫(yī)療多模態(tài)大模型集群。他們設(shè)計(jì)和實(shí)現(xiàn)了一組智能醫(yī)療多模態(tài)大模型集群,包括面向患者的個(gè)性化醫(yī)療知識問答多模態(tài)時(shí)序大模型、面向醫(yī)生的臨床影像報(bào)告生成多模態(tài)大模型和面向?qū)г\場景的檢索增強(qiáng)大語言模型,使大模型技術(shù)適配臨床場景,滿足患者-醫(yī)生-醫(yī)院多方訴求,解決行業(yè)痛點(diǎn),推動(dòng)大模型在醫(yī)療領(lǐng)域的落地應(yīng)用。
在這個(gè)科技日新月異的時(shí)代,團(tuán)隊(duì)以其深厚的專業(yè)知識和創(chuàng)新精神,為亞運(yùn)會(huì)提供了強(qiáng)大的科技支持,也為弱勢群體帶來了實(shí)質(zhì)性的幫助。
未來,團(tuán)隊(duì)將繼續(xù)秉持科技向善的原則,不斷深化在多模態(tài)大模型的研究和實(shí)踐,將AI技術(shù)的潛力最大限度地發(fā)揮出來,為解決社會(huì)問題、改善人們的生活提供更強(qiáng)大的支持。
(免責(zé)聲明:本網(wǎng)站內(nèi)容主要來自原創(chuàng)、合作伙伴供稿和第三方自媒體作者投稿,凡在本網(wǎng)站出現(xiàn)的信息,均僅供參考。本網(wǎng)站將盡力確保所提供信息的準(zhǔn)確性及可靠性,但不保證有關(guān)資料的準(zhǔn)確性及可靠性,讀者在使用前請進(jìn)一步核實(shí),并對任何自主決定的行為負(fù)責(zé)。本網(wǎng)站對有關(guān)資料所引致的錯(cuò)誤、不確或遺漏,概不負(fù)任何法律責(zé)任。
任何單位或個(gè)人認(rèn)為本網(wǎng)站中的網(wǎng)頁或鏈接內(nèi)容可能涉嫌侵犯其知識產(chǎn)權(quán)或存在不實(shí)內(nèi)容時(shí),應(yīng)及時(shí)向本網(wǎng)站提出書面權(quán)利通知或不實(shí)情況說明,并提供身份證明、權(quán)屬證明及詳細(xì)侵權(quán)或不實(shí)情況證明。本網(wǎng)站在收到上述法律文件后,將會(huì)依法盡快聯(lián)系相關(guān)文章源頭核實(shí),溝通刪除相關(guān)內(nèi)容或斷開相關(guān)鏈接。 )