精品国产亚洲一区二区三区|亚洲国产精彩中文乱码AV|久久久久亚洲AV综合波多野结衣|漂亮少妇各种调教玩弄在线

<blockquote id="ixlwe"><option id="ixlwe"></option></blockquote>

<abbr id="ixlwe"></abbr>

<ul id="0om0e"><tfoot id="0om0e"></tfoot></ul><strong id="0om0e"></strong>

直播
榜單
7x24h快訊

極客網(wǎng) > 人工智能 >

機(jī)器也能看圖說話

人閱讀
2020-06-22 10:48:00
相關(guān)關(guān)鍵詞
- 人工智能
- AI

機(jī)器看到圖像或視頻就能像人類一樣進(jìn)行精準(zhǔn)地表述，這看似不可能，但已在深蘭科學(xué)院誕生的“智慧交通協(xié)管員”，已把它變?yōu)榱爽F(xiàn)實(shí)。

這段視頻的場景就是在城市繁忙的十字路口，尤其上下班高峰，行人違章現(xiàn)象非常多，即使有交警在路口執(zhí)勤也很難做到面面俱到，此時“智慧交通協(xié)管員”將大大發(fā)揮作用。

利用自主研發(fā)的圖像語義識別算法，“智慧交通協(xié)管員”可以實(shí)時識別行人和非機(jī)動車違章行為，可識別的行為包括：

1．行人闖紅燈； 2．非機(jī)動車闖紅燈； 3．非機(jī)動車在逆行； 4．非機(jī)動車在斑馬線騎行； 5．非機(jī)動車在人行道騎行；

還可精確描述違章者特征，進(jìn)行語音播報(bào)提醒，識別率可達(dá)80％以上。同時，支持個性化語音定制，可以利用現(xiàn)有的視頻攝像頭資源進(jìn)行人臉識別違章抓拍，方便處罰，還可輔助對接車路協(xié)同系統(tǒng)。

其中涉及到的技術(shù)比較多，概括起來就是視覺理解、認(rèn)知推理、自然語言生成和語音合成。接下來，我們會對其中的關(guān)鍵技術(shù)視覺理解和認(rèn)知推理進(jìn)行展開。

視覺理解＋認(rèn)知推理

一、認(rèn)知智能概述

人工智能的發(fā)展可以粗略劃分為三個階段：計(jì)算智能、感知智能和認(rèn)知智能。

計(jì)算智能通俗來說就是計(jì)算機(jī)能存儲、記憶會運(yùn)算，這方面，計(jì)算機(jī)的智能水平早已經(jīng)遠(yuǎn)遠(yuǎn)超過人類。

感知智能就是計(jì)算機(jī)具備類似于人類的視覺和聽覺等方面的能力，比如，聽到了什么，對應(yīng)語音識別；看到了什么，對應(yīng)圖像的分類檢測和語義分割。其中人臉識別就是包含感知智能技術(shù)的一種人工智能應(yīng)用，近年來，隨著深度學(xué)習(xí)技術(shù)在視覺感知領(lǐng)域的蓬勃發(fā)展，目前機(jī)器感知智能的性能已經(jīng)可與人類媲美，甚至在許多場景下已經(jīng)超過人類。

認(rèn)知智能強(qiáng)調(diào)知識、推理等技能，要求機(jī)器能理解、會思考，目前機(jī)器遠(yuǎn)不及人類。從計(jì)算智能到感知智能，標(biāo)志著人工智能走向成熟；從感知智能到認(rèn)知智能，是人工智能質(zhì)的飛躍。認(rèn)知智能，與人的語言、知識、邏輯相關(guān)，是人工智能的更高階段，涉及到語義理解、知識表示、小樣本學(xué)習(xí)甚至零樣本學(xué)習(xí)、聯(lián)想推理和自主學(xué)習(xí)等等。相比于計(jì)算智能和感知智能，認(rèn)知智能是更復(fù)雜和更困難的任務(wù)，也是未來數(shù)十年最重要的任務(wù)。

二、視覺理解與推理

Image captioning的發(fā)展歷程

1996－2000年符號規(guī)則方法

追溯到1996年，Gerber發(fā)表了一篇知識表示的論文，限定于交通場景，在圖像序列中用知識表示來進(jìn)行自然語言描述的問題。2010年時，朱松純（S．－C．Zhu）教授團(tuán)隊(duì)首次提出與或圖（And－Or Graph）的模型。進(jìn)一步與 D． Mumford 合作進(jìn)行了框架的完善，融入隨機(jī)上下文相關(guān)語法（Stochastic Context Sensitive Grammar），能對復(fù)雜物體的多層次構(gòu)造特性（Hierarchical Compositionality）建模，完全表示圖像語法（Image Grammar）。

與或圖表示突破了傳統(tǒng)單一模板（Template）的表示方法，對每類物體用多個圖結(jié)構(gòu)表示，該結(jié)構(gòu)可以通過語法（Grammar）、產(chǎn)生規(guī)則（Production Rule）進(jìn)行動態(tài)調(diào)制，從而可以用相對小的視覺字典（Visual Vocabulary），表達(dá)大量類間結(jié)構(gòu)變化很大的物體的圖像表現(xiàn)形式（Configuration）。

這些方法實(shí)際上都基于邏輯體系和規(guī)則的系統(tǒng)，對圖像的內(nèi)容設(shè)計(jì)很多規(guī)則，繼而產(chǎn)生自然語言描述。由于強(qiáng)依賴于手工定制，人工特征工程的工作量就非常大，這也是當(dāng)時亟待改善的問題。

2011－2013年無明顯進(jìn)展

2014年至今深度學(xué)習(xí)方法等

2014年，谷歌的Oriol Vinyals 等人公開論文《Show and Tell： A Neural Image Caption Generator》，并發(fā)表于2015年CVPR，開了深度學(xué)習(xí)在Image captioning中使用的先河。該方法來源于以前的機(jī)器翻譯。

輸入圖形后，深度卷積神經(jīng)網(wǎng)絡(luò)對圖形特征進(jìn)行提取，通過固定長度矢量形成輸入（Input）進(jìn)入循環(huán)神經(jīng)網(wǎng)絡(luò)（RNN），經(jīng)過一系列訓(xùn)練后，輸出一段描述性的自然語言文字。按照時間序列的順序，逐個詞進(jìn)行輸出，條件依附于之前的詞。

使用如下公式最大化給定圖像的正確描述概率：

Encoding－Decoding 靈感來源于翻譯模型。

基于更復(fù)雜的視覺特征提取模型的Image Captioning。其中利用人的常識構(gòu)建了一個知識庫（ConceptNet），然后把它加入Encoding－Decoding模型里，賦予模型一定程度的常識能力。我們一直希望機(jī)器能有所謂的認(rèn)知智能，實(shí)際上就是希望機(jī)器能夠像人一樣具有常識。

123下一頁>

（免責(zé)聲明：本網(wǎng)站內(nèi)容主要來自原創(chuàng)、合作伙伴供稿和第三方自媒體作者投稿，凡在本網(wǎng)站出現(xiàn)的信息，均僅供參考。本網(wǎng)站將盡力確保所提供信息的準(zhǔn)確性及可靠性，但不保證有關(guān)資料的準(zhǔn)確性及可靠性，讀者在使用前請進(jìn)一步核實(shí)，并對任何自主決定的行為負(fù)責(zé)。本網(wǎng)站對有關(guān)資料所引致的錯誤、不確或遺漏，概不負(fù)任何法律責(zé)任。
任何單位或個人認(rèn)為本網(wǎng)站中的網(wǎng)頁或鏈接內(nèi)容可能涉嫌侵犯其知識產(chǎn)權(quán)或存在不實(shí)內(nèi)容時，應(yīng)及時向本網(wǎng)站提出書面權(quán)利通知或不實(shí)情況說明，并提供身份證明、權(quán)屬證明及詳細(xì)侵權(quán)或不實(shí)情況證明。本網(wǎng)站在收到上述法律文件后，將會依法盡快聯(lián)系相關(guān)文章源頭核實(shí)，溝通刪除相關(guān)內(nèi)容或斷開相關(guān)鏈接。）

為您推薦

極客觀察

欄目相關(guān)

贊助商

極客網(wǎng)熱搜關(guān)鍵詞

人工智能 AI OpenAI ChatGPT 機(jī)器學(xué)習(xí) 生成式AI AI芯片 AIGC U-Mail AI大模型世界人工智能大會 AIoT AirPods Airbnb Rushmail 人工智能AI AI人工智能 Akamai 昇騰AI 生成式人工智能 AIPC Air AI技術(shù) 谷歌AI 蘋果AI GenAI 科大訊飛AI學(xué)習(xí)機(jī) 百度AI CAICT 阿爾法蛋AI詞典筆T10 AI手機(jī) 華為AI 松鼠AI AI+ 昇騰AI創(chuàng)新大賽微軟AI AIS Airdoc WAIC AITO 阿爾法蛋AI詞典筆京東AI 智譜AI AI模型 SoleusAir aigo SoleusAir舒樂氏 LIFAair 2019世界人工智能大會 AI機(jī)器人人工智能大會 AI創(chuàng)企移動AI時代浙大AIF 人工智能技術(shù) AI應(yīng)用 Zain AI醫(yī)療 AI算力 xAI AI人才人工智能芯片 Airtag AI時代騰訊AI AI服務(wù)器 AI算法 AI投資 BrainCo AI框架 Gmail 聯(lián)想AI VAIO 人工智能計(jì)算中心 Airwallex空中云匯人工智能大賽 Chain AI教育 Coremail AI搜索 OPENAIGC開發(fā)者大賽 AI賦能谷歌人工智能 AI眼鏡人工智能名片 Airwheel Mirai 昇騰AI開發(fā)者創(chuàng)享日人工智能機(jī)器人 AI聊天機(jī)器人阿里AI AI音樂 BrainCo強(qiáng)腦科技 AI計(jì)算人工智能+ 浪潮KaiwuDB 阿爾法蛋AI詞典筆T20 英偉達(dá)AI芯片 AI助手 AIOps

上一篇

理想與現(xiàn)實(shí)的努力平衡: OpenAI開啟測試API試水商業(yè)化道路

下一篇

外媒：網(wǎng)易云音樂170萬美元戰(zhàn)略投資AI音樂公司AIVA

簡版
原版
投稿
回頂部

2020-06-22

機(jī)器也能看圖說話

機(jī)器看到圖像或視頻就能像人類一樣進(jìn)行精準(zhǔn)地表述，這看似不可能，但已在深蘭科學(xué)院誕生的“智慧交通協(xié)管員”，已把它變?yōu)榱爽F(xiàn)實(shí)。

長按掃碼閱讀全文

<th id="cso00"><fieldset id="cso00"></fieldset></th>