數(shù)據(jù)顯示,我國目前有1700多萬視力障礙人士,越來越多的社會力量關(guān)注到了他們,并試圖用技術(shù)和公益來改變他們的困境。
2023年1月13日下午,位于北京大鐘寺的一個(gè)報(bào)告廳里,由抖音集團(tuán)產(chǎn)品、研發(fā)工程師以及清華大學(xué)、浙江大學(xué)等高校學(xué)生組成的12支隊(duì)伍正在進(jìn)行決賽。5個(gè)多月前,64支隊(duì)伍,501名參賽選手開啟了這場“AI助力視障群體”為主題的技術(shù)公益大賽。
01.
找對一雙襪子
“襪子會不會穿錯(cuò)?冰箱里的食物會不會過期?我們是否可以幫視障用戶,擺脫這些基本的困擾,是我們做這件事情的初衷。”
來自“靈瞳”團(tuán)隊(duì)的產(chǎn)品經(jīng)理在決賽舞臺上闡明了團(tuán)隊(duì)的目標(biāo),他們希望能為視障人群帶來一個(gè)全方位的視覺助手。這個(gè)助手需要是語音、識別以及互動的能力。
靈瞳產(chǎn)品演示資料
在大量調(diào)研之后他們發(fā)現(xiàn),目前相關(guān)產(chǎn)品分為三類,一是AI語音助手,它能詢問天氣預(yù)報(bào)、語音輸入?yún)f(xié)助檢索互聯(lián)網(wǎng)上的信息,但是這僅實(shí)現(xiàn)了對話式智能,無法滿足視覺需求;第二類是視覺識別工具,例如微軟專為視障開發(fā)的Seeing AI和谷歌的Look out應(yīng)用,其商品識別功能能夠幫助用戶獲取商品條碼中的信息,以及閱讀文檔。但是無法實(shí)現(xiàn)與用戶的交互,即,它的識別功能只會對物體進(jìn)行識別,文檔閱讀功能只能閱讀全部文字,用戶無法傳遞自己的有效、具體需求,只能被動接收AI的識別結(jié)果;第三類則是人工求助,如 Be My Eyes 和 Aira 項(xiàng)目,工作人員或志愿者通過視頻的方式為視障人群提供幫助,但是其人力和付費(fèi)成本都比較高,很難推廣。
因此,“靈瞳”團(tuán)隊(duì)決定設(shè)計(jì)一款“對話式視覺助手”。簡單來說,這是一款應(yīng)用于手機(jī)和智能眼鏡的APP,初始界面類似一個(gè)相機(jī),它可以聽取和理解用戶發(fā)起的提問,同時(shí)點(diǎn)擊按鈕錄制物品信息,它會根據(jù)問題提取有效信息并語音回答。
為此,他們主要從兩個(gè)方面來改進(jìn)靈瞳的功能,一個(gè)是交互,一個(gè)是視覺。交互上,除了連續(xù)探索模式,還可以指尖探索,即用手觸摸屏幕來告訴用戶物品的相對應(yīng)位置,還有一種是對話定位,用戶可以先告訴靈瞳想要什么樣的物品,比如想要尋找一個(gè)黃色的東西,你可以拿著攝像頭去尋找,一旦你想要的目標(biāo)出現(xiàn)在屏幕中,靈瞳就會提示用戶的位置,在屏幕的左側(cè)還是右側(cè)。靈瞳還有一些輔助能力,比如找對襪子,線下買衣服,靈瞳都可以幫助你做一些輔助信息和判斷。
“靈瞳”團(tuán)隊(duì)成員在比賽現(xiàn)場
此外,視障人士在使用智能設(shè)備時(shí),可能出現(xiàn)隱私問題,比如視障人士在拍攝時(shí),并不知道他拍攝的畫面點(diǎn)有沒有相關(guān)的隱私信息,比如銀行卡的圖片,為此,他們加入了智能信息的檢測能力,檢測到涉及隱私信息的圖就要確保圖片不會傳出手機(jī)。
靈瞳團(tuán)隊(duì)相關(guān)負(fù)責(zé)人介紹,該創(chuàng)意在技術(shù)層面涉及到多模態(tài)技術(shù),如視覺語言問答、視覺語言預(yù)訓(xùn)練、視覺文字描述等,這些技術(shù)近兩年在學(xué)術(shù)界取得了顯著進(jìn)展。其它的計(jì)算機(jī)視覺技術(shù)和語音技術(shù),包括文字檢測和光學(xué)字符識別、語音識別和語音合成等技術(shù)已經(jīng)成熟穩(wěn)定并廣泛應(yīng)用。
靈瞳團(tuán)隊(duì)的成員,一名來自抖音集團(tuán)的研發(fā)工程師表示,他最早的觸動來自身邊人——一位好朋友去年患上視網(wǎng)膜相關(guān)的疾病,接下來視力會慢慢受影響甚至完全失明。從那之后,他就開始關(guān)注相關(guān)領(lǐng)域的技術(shù)和研發(fā),直至這次參加比賽。
在決賽中,靈瞳團(tuán)隊(duì)得分最高,獲得一等獎,目前靈瞳iOS端App已經(jīng)進(jìn)入內(nèi)測階段。
02.
可以聽見的二維碼
另一款頗受關(guān)注的參賽作品是“聽碼”。日常工作和生活中頻繁出現(xiàn)的掃碼操作給視障人群帶來極大困擾,而“聽碼”能夠?qū)⒛壳暗摹捌矫鎴D片”掃碼轉(zhuǎn)換為一種更為沉浸式的“空間音頻”掃碼。
從技術(shù)而言,它構(gòu)建了一種全端到端的編碼器以及解碼器模型訓(xùn)練框架,編碼系統(tǒng)能將收款支付連接、身份識別信息、網(wǎng)頁入口鏈接等信息加入到一段聲音信號上。這段聲音信號可以是一首歌曲或者是一段指令語音。當(dāng)視障人士聽到這段聲音信號后,會使用裝載有解碼系統(tǒng)的終端設(shè)備上麥克風(fēng)來接收到語音信號。此時(shí)解碼系統(tǒng)會解碼得到二維碼信息,從而完成收付款、身份驗(yàn)證、進(jìn)入網(wǎng)頁等操作。目前該項(xiàng)目已通過技術(shù)評測并申請專利,未來,將融入抖音等產(chǎn)品的相關(guān)掃碼功能。
“聆影聽光”團(tuán)隊(duì)想嘗試改善視障人群對于視頻內(nèi)容的需求。目前,無障礙視頻內(nèi)容流程是人工重新撰寫對應(yīng)視頻內(nèi)容的腳本,再配音錄制,輔之以智能讀屏。由于制作成本高,且標(biāo)準(zhǔn)不統(tǒng)一,視障用戶可選擇的內(nèi)容少且體驗(yàn)不好。
他們希望通過技術(shù)將現(xiàn)有的長短視頻能夠更智能的制作,核心技術(shù)是智能視頻理解、智能語音合成、智能語音識別。在視頻理解并自動生成旁白文本的能力還未成熟時(shí),他們開發(fā)了標(biāo)注平臺,通過標(biāo)注和語音合成技術(shù)生成旁白底稿和音庫。在視頻理解自動生成底稿能力經(jīng)過驗(yàn)證后,即可全自動化生產(chǎn)中長音視頻內(nèi)容,范圍逐漸可以擴(kuò)大至電視劇、綜藝、電影、體育比賽等。
“聆影聽光”團(tuán)隊(duì)成員在比賽現(xiàn)場
在團(tuán)隊(duì)成員看來,視障人群在這方面的需求可能要更強(qiáng)烈,不僅是出于娛樂,還有社交的目的——有更多話題可以融入身邊環(huán)境。
12支進(jìn)入決賽的團(tuán)隊(duì)依據(jù)自身技術(shù)特點(diǎn),還提供了關(guān)于視障人群的出行、辦公、購物、美妝、游戲等需求的智能解決方案。
“BANG”為視障人群提供了一款無障礙的創(chuàng)作工具:用AI技術(shù)實(shí)現(xiàn)文本轉(zhuǎn)圖、圖像編輯、色塊成圖等功能,支持語音交互方式,幫助視力障礙人群進(jìn)行便捷創(chuàng)作和表達(dá)。
“世界和平“小隊(duì)則從工作場景出發(fā),希望提供一種面向B端的“工區(qū)無障礙改造”的智能工具,為有視力障礙人群就職的機(jī)構(gòu)提供無障礙化改造方案,以給視障群體提供更加舒服的辦公環(huán)境。
03.
和視障人群“肩并肩”
人類的悲歡并不相通,“明眼人”也很難真正理解視障人群生活中的不便,一直致力于幫助視障群體的公益人傅高山對此深有感觸:“明眼人要真正與視障人群從面對面切換進(jìn)入到肩并肩視角是很難的,讓明眼人理解我們真實(shí)的需求是第一步?!?/p>
要打破這樣的隔閡,僅僅熱情是不夠的,需要耐心的溝通,甚至放下自己對產(chǎn)品和技術(shù)的“執(zhí)念”。
比如“BANG”團(tuán)隊(duì)的劉瑋,在對視障群體相關(guān)專家的用戶體驗(yàn)做了反饋后就發(fā)現(xiàn),自己原本的認(rèn)知被顛覆了,也改變了產(chǎn)品的設(shè)計(jì)方向:“我們完全不應(yīng)該把所謂的弱勢群體和視障群體去掛鉤,視障群體能做的和需要做的和非視障群體沒有區(qū)別,他們更希望自己使用的產(chǎn)品和非視障群體是相同的,重要的是我們能在產(chǎn)品設(shè)計(jì)初期就做好無障礙的適配,有利于未來去做一個(gè)面向全民的工具?!?/p>
而設(shè)計(jì)耳機(jī)的微光團(tuán)隊(duì),與用戶溝通需求后發(fā)現(xiàn),起初他們認(rèn)為可以通過技術(shù)讓產(chǎn)品落地,但實(shí)際上技術(shù)在很多問題上是沒有效果的?!凹词故巧系罔F和下地鐵,買東西和結(jié)賬,都要面臨非常細(xì)分的問題,好的技術(shù)可能不是使用所謂的高科技,而是能夠低成本且有效的解決問題。”最終團(tuán)隊(duì)回歸到對人的依賴上,讓用戶可以聯(lián)系在線的緊急聯(lián)系人,或者一公里內(nèi)愿意提供支持的用戶。
技術(shù)公益,出發(fā)點(diǎn)和落腳點(diǎn),都是公益而非技術(shù),最終也要回歸到幫助視障人群真正解決問題上。靈瞳團(tuán)隊(duì)的產(chǎn)品經(jīng)理也經(jīng)歷過這樣的改變:“技術(shù)人有時(shí)候會有一點(diǎn)技術(shù)潔癖,比如會追求一個(gè)漂亮的交互或者高級的算法,而忽略其他東西。比如,產(chǎn)品中有一個(gè)‘幫助視障者探索環(huán)境和定位感興趣物品’的小功能,它卡住了流程,交互和運(yùn)行都不滿意。最后在受益人的建議下,我們采取了看起來比較低階的技術(shù)形式,但是解決了更多問題。關(guān)注真實(shí)需求,這也是我們的學(xué)習(xí)的經(jīng)歷。”
比賽的評審問答互動環(huán)節(jié)
本次活動上,評委除了行業(yè)專家,還有視障專家團(tuán),如傅高山、盲人美妝師肖佳等。過程中他們作為觀察者,也坦誠給出各個(gè)隊(duì)伍和產(chǎn)品真實(shí)的反饋。中國盲人協(xié)會主席李慶忠,在比賽的最后表示,聽到這些項(xiàng)目很感動,因?yàn)楦惺艿?,?xiàng)目團(tuán)隊(duì)們對盲人的需求了解的非常深,也很有針對性。即使場景范圍較小的項(xiàng)目,比如美妝,也具有突破性的意義。
在最后,負(fù)責(zé)賽事的相關(guān)負(fù)責(zé)人表示,比賽只是為了提供更多的創(chuàng)意,創(chuàng)意之后可能還有demo、還有上線、還有運(yùn)轉(zhuǎn)和維護(hù)等,賽后,抖音公益會支持和協(xié)助有價(jià)值的項(xiàng)目進(jìn)行孵化和落地。
- 阿里巴巴于上海新設(shè)智信普惠科技公司,布局多領(lǐng)域技術(shù)服務(wù)
- 馬化騰短暫登頂中國富豪榜,騰訊科技與股價(jià)雙輪驅(qū)動成關(guān)鍵
- 本地生活賽道:2025年紅海變“血海”,平臺競逐白熱化
- 義烏哪吒小商品熱賣:緊跟《哪吒2》熱潮,一天賣幾百套
- 美恢復(fù)接收中國包裹,貿(mào)易政策突變引發(fā)物流界震蕩
- DeepSeek或再掀波瀾,可能對美股市場造成新一輪打擊
- 谷歌股價(jià)暴跌:收入增長放緩,人工智能支出引投資者擔(dān)憂
- 華為去年銷售收入超8600億元:ICT基礎(chǔ)設(shè)施穩(wěn)健,新業(yè)務(wù)快速發(fā)展
- 特斯拉CEO馬斯克身家暴漲,穩(wěn)居全球首富寶座
- 阿里巴巴擬發(fā)行 26.5 億美元和 170 億人民幣債券
免責(zé)聲明:本網(wǎng)站內(nèi)容主要來自原創(chuàng)、合作伙伴供稿和第三方自媒體作者投稿,凡在本網(wǎng)站出現(xiàn)的信息,均僅供參考。本網(wǎng)站將盡力確保所提供信息的準(zhǔn)確性及可靠性,但不保證有關(guān)資料的準(zhǔn)確性及可靠性,讀者在使用前請進(jìn)一步核實(shí),并對任何自主決定的行為負(fù)責(zé)。本網(wǎng)站對有關(guān)資料所引致的錯(cuò)誤、不確或遺漏,概不負(fù)任何法律責(zé)任。任何單位或個(gè)人認(rèn)為本網(wǎng)站中的網(wǎng)頁或鏈接內(nèi)容可能涉嫌侵犯其知識產(chǎn)權(quán)或存在不實(shí)內(nèi)容時(shí),應(yīng)及時(shí)向本網(wǎng)站提出書面權(quán)利通知或不實(shí)情況說明,并提供身份證明、權(quán)屬證明及詳細(xì)侵權(quán)或不實(shí)情況證明。本網(wǎng)站在收到上述法律文件后,將會依法盡快聯(lián)系相關(guān)文章源頭核實(shí),溝通刪除相關(guān)內(nèi)容或斷開相關(guān)鏈接。