2015年百度世界展出了語音和圖像為代表的多媒體搜索技術,這并非其首次亮相百度世界大會,多媒體搜索已成為百度的重頭戲,與連接人與服務戰(zhàn)略、人工智能戰(zhàn)略一起構成百度的“三駕馬車”。
多媒體搜索越來越重要
各大搜索引擎在搜索框之外,迎來兩個新圖標:話筒和相機,分別對應到語音和圖像搜索。通過向搜索引擎說一段話發(fā)號施令,或者直接拍攝生活中的實景,表明搜索意圖更加簡單和自然。讓機器“聽”和“看”,是人類一直孜孜不倦的追求,這也是人類獲取信息最重要的兩種方式。
鑒于未來的搜索引擎不再是回答問題的“百科全書”,而是幫助人們解決生活中各類需求的“智能助手”,所以它必須越來越聰明,接近人類的智能。一個重要的改進方向便是交互,搜索引擎必須能聽、會看,才能實現(xiàn)真正的智能。所以,在后移動互聯(lián)網時代多媒體搜索會成為主流,依賴鍵盤輸入的文本搜索比重將越來越小。李彥宏對此早有斷言,他認為未來超過一半的搜索將來自語音和圖像為代表的多媒體交互。
語音和圖像搜索并非新技術,90年代IBM便推出了語音輸入軟件,2008年Google 就推出了Voice Search以及“以圖搜圖”,百度在PC時代也有過類似嘗試。移動互聯(lián)網時代語音和圖像搜索才進入真正意義上的商用階段。移動互聯(lián)網帶來了語音和圖像搜索的使用場景,帶來了具備麥克風、喇叭和攝像頭的智能設備,語音搜索和圖像搜索技術也迎來飛速發(fā)展,量變產生了質變,語音和圖像搜索正在走向大眾化,與文本搜索一樣舉足輕重。
百度猛攻語音和圖像搜索
多媒體搜索有廣泛的涵義,除了文本之外的“富媒體”搜索都算多媒體搜索,例如語音、圖像、體感、位置、社交關系、物質解析(百度筷搜)等輸入內容。不過,最重要的兩類搜索是語音和圖像搜索。在去年百度展出了通過拍照搜索識別動態(tài)衣服的技術,基于圖像搜索技術的百度EYE以及小度機器人,2015百度世界重點展出了語音和圖像搜索技術的進展,百度在語音和圖像上依然還在大力投入和不斷改進。
Siri為代表的語音助手普及,培養(yǎng)了人們通過語音與機器交互的習慣,在家里為代表的安靜場景、在車內為代表的雙手不空閑場景,在步行為代表的打字不便場景,語音都有很大的施展空間。而且語音不需要學習,包含情感色彩,能夠傳遞更多信息。倘若技術達到應用標準,語音交互技術爆發(fā)是必然事件。
語音交互與搜索引擎的結合正在日趨緊密,不久前Siri與百度達成合作引入百科等內容,百度在今年則陸續(xù)將語音與搜索、外賣等業(yè)務整合,百度做語音的底氣來自于兩點:一是技術上應用深度學習大幅提升了識別準確率;二是百度擁有豐富的后端內容和服務。這意味著百度語音和圖像搜索的發(fā)展對百度連接人與服務戰(zhàn)略有很強的支撐效果,百度強調要做更具技術含量的O2O,例如支持通過語音點外賣。
圖像搜索受益于二維碼的普及,不過二維碼是結構化的圖形,機器的最終目標是像人眼一樣去認識世界。人類90%的信息來自于視覺,“看”在信息獲取上是主要方式。上傳一張圖片讓機器識別并不是很自然,但如果機器都擁有攝像頭和快速識別能力,其理解世界的方式將非常自然。將圖像識別與后端知識庫和各類服務打通的圖像搜索,是一種所見即所得的自然搜索。
百度在這塊進行了大量探索,例如識別一張圖片中的物體并與廣告內容結合,識別圖片中的文字進行翻譯,識別文本化的題目并解答,識別藥品并介紹療效以及導入藥店……這些基于百度深度學習等后端人工智能技術,以及海量的圖片數(shù)據(jù)庫和內容知識圖譜。
對于百度而言,語音和圖像搜索的投入是站在交互角度來突破移動搜索現(xiàn)有形態(tài)。鑒于使用場景的特性,多媒體搜索對于百度連接人與服務戰(zhàn)略將形成很強的支撐作用。服務搜索主要來自于移動搜索,而移動搜索未來將走向多媒體搜索。除了連接人與服務,百度還有一個戰(zhàn)略是人工智能等前沿技術的布局,語音和圖像搜索的基礎正是來自于深度學習、大數(shù)據(jù)等技術成果的轉化。所以語音和圖像搜索成為百度將人工智能等研發(fā)成果轉化到連接人與服務實踐的“橋梁”。
多媒體搜索未來走向何方?
多媒體搜索依然還在起步階段,遠遠沒有文本搜索這樣成熟,這意味著還有很多創(chuàng)新空間。從多媒體搜索探路者百度的動作來看,多媒體搜索在未來有以下發(fā)展趨勢:
1、不同類型搜索相互結合。現(xiàn)在語音是語音、圖像是圖像,未來語音、圖像、位置、文本乃至視頻,各種形式的搜索會融合在一起,就像人與人的對話一樣,你理解對方的意圖即要聽、又要看(環(huán)境、表情、手勢……),可能還會結合上下文,總之是綜合多類搜索來理解的。未來多媒體搜索同樣會語音、圖像等并用,例如你可以拍照之后問百度一句話,“這張圖片中的狗是神馬品質”,模擬人與人的交互。
2、多輪對話式搜索興起。語音搜索現(xiàn)在大都是用戶問一句,搜索引擎給出一個答案,圖像搜索同樣只能進行“一輪”。但人與人之間的對話是有“上下文”聯(lián)系的,兩人之前談的內容,會影響之后雙方的理解。因此語音、圖像搜索未來會更傾向于“多輪”,即搜索引擎可以記住之前的多次交互過程,并結合此理解用戶的語音或圖像,例如用戶可以先問“廣州的天氣怎么樣”再問”那邊有什么好吃的”,這樣搜索引擎就可以理解“那邊”是指代廣州。百度已為此申請“多輪交互專利”,語音交互可進行需求引導,根據(jù)上下文和大數(shù)據(jù)分析智能糾錯;Siri則初步實現(xiàn)了某些Case的多輪交互,比如語音調用聯(lián)系人之后的二次選擇。
3、解析速度決定用戶體驗。語音和圖像搜索過去受限于計算速度以及網絡速度,有一定延遲,隨著云計算、大數(shù)據(jù)相關技術的成熟,識別速度得以快速提升。4G和WIFI的普及、帶寬提速也逐步消除了網絡障礙。不過識別速度依然還有提升空間,如果問人一句話,給人看一張圖,要等幾秒才有答案還是讓人不爽,近期某手機廠商主打離線語音助手提升識別速度就反映了這個問題。搜索引擎正在通過離線識別等技術來提升解析速度,百度語音識別采取動態(tài)解碼技術,實現(xiàn)了僅幾十毫秒延時的快速識別。
4、基于場景的搜索服務能力。語音和圖像搜索在復雜的場景中進行,搜索發(fā)起的時間不同,地點不同,用戶的習慣、情緒有別,意味著背后有不同的需求,因此搜索引擎必須去識別用戶所處場景,與其位置、環(huán)境、個人畫像等數(shù)據(jù)結合起來分析,甚至嘗試根據(jù)語速、語調去分析用戶情感。同時整合豐富的服務對用戶需求進行滿足,比如當用戶在外面搜索“麥當勞”應該首先推薦周邊餐廳,在家里和辦公室則優(yōu)先推薦外賣服務……基于場景去滿足用戶的搜索需求。
5、無處不在的語音和圖像搜索。現(xiàn)在百度語音圖像搜索主要存在于網頁版百度、手機百度、百度HD版等百度系產品中,但同時要注意的是百度已經通過開放平臺開放其語音和圖像搜索技術。這意味著許多應用和設備都有機會用到語音和圖像搜索,它是一種開放能力,例如智能音箱可以用語音搜索歌曲并播放,汽車廠商在車內預裝語音助手,智能電視通過語音操控和搜索節(jié)目……就是說,未來語音和圖像搜索是無處不在的。
微博@互聯(lián)網阿超 微信 羅超(luochaotmt)
- 蜜度索驥:以跨模態(tài)檢索技術助力“企宣”向上生長
- 美媒聚焦比亞迪“副業(yè)”:電子代工助力蘋果,下個大計劃瞄準AI機器人
- 微信零錢通新政策:銀行卡轉入資金提現(xiàn)免手續(xù)費引熱議
- 消息稱塔塔集團將收購和碩印度iPhone代工廠60%股份 并接管日常運營
- 蘋果揭秘自研芯片成功之道:領先技術與深度整合是關鍵
- 英偉達新一代Blackwell GPU面臨過熱挑戰(zhàn),交付延期引發(fā)市場關注
- 馬斯克能否成為 AI 部部長?硅谷與白宮的聯(lián)系日益緊密
- 余承東:Mate70將在26號發(fā)布,意外泄露引發(fā)關注
- 無人機“黑科技”亮相航展:全球首臺低空重力測量系統(tǒng)引關注
- 賽力斯發(fā)布聲明:未與任何伙伴聯(lián)合開展人形機器人合作
- 賽力斯觸及漲停,汽車整車股盤初強勢拉升
免責聲明:本網站內容主要來自原創(chuàng)、合作伙伴供稿和第三方自媒體作者投稿,凡在本網站出現(xiàn)的信息,均僅供參考。本網站將盡力確保所提供信息的準確性及可靠性,但不保證有關資料的準確性及可靠性,讀者在使用前請進一步核實,并對任何自主決定的行為負責。本網站對有關資料所引致的錯誤、不確或遺漏,概不負任何法律責任。任何單位或個人認為本網站中的網頁或鏈接內容可能涉嫌侵犯其知識產權或存在不實內容時,應及時向本網站提出書面權利通知或不實情況說明,并提供身份證明、權屬證明及詳細侵權或不實情況證明。本網站在收到上述法律文件后,將會依法盡快聯(lián)系相關文章源頭核實,溝通刪除相關內容或斷開相關鏈接。