計算機(jī)視覺(CV)和自然語言處理(NLP)早先是兩個較為獨立的研究領(lǐng)域。CV 重點關(guān)注如何用計算機(jī)代替人眼對目標(biāo)完成識別、跟蹤、測量等任務(wù),對圖像進(jìn)行處理;NLP 則研究計算機(jī)如何處理、運用自然語言,包括語言生成、問答、對話等任務(wù)。近年來,以深度神經(jīng)網(wǎng)絡(luò)為代表的機(jī)器學(xué)習(xí)和模式識別技術(shù)被廣泛應(yīng)用于 CV 和 NLP 領(lǐng)域,取得了目前最先進(jìn)的效果。
近年來,研究者們試圖將動作控制也引入到「視覺-語言」任務(wù)的框架中。吳琦將此類任務(wù)命名為 V3A(Vision, Ask, Answer, Act),在給定視覺輸入后,我們希望機(jī)器能夠提出問題、回答問題、并通過和人以及機(jī)器之間的語言交流執(zhí)行某些動作。
例如,「Vision+Ask」的任務(wù)包含視覺問題生成、根據(jù)問題生成查詢、圖像描述等;「Vision+Answer」的任務(wù)包含視覺問答、視覺對話等;「Vision+Act」的任務(wù)包含指稱表達(dá)、視覺對齊(visual grounding)、語言引導(dǎo)的視覺導(dǎo)航、具身視覺問答、具身指稱表達(dá)等。
商用機(jī)器人 Disinfection Robot 展廳機(jī)器人 智能垃圾站 輪式機(jī)器人底盤 迎賓機(jī)器人 移動機(jī)器人底盤 講解機(jī)器人 紫外線消毒機(jī)器人 大屏機(jī)器人 霧化消毒機(jī)器人 服務(wù)機(jī)器人底盤 智能送餐機(jī)器人 霧化消毒機(jī) 機(jī)器人OEM代工廠 消毒機(jī)器人排名 智能配送機(jī)器人 圖書館機(jī)器人 導(dǎo)引機(jī)器人 移動消毒機(jī)器人 導(dǎo)診機(jī)器人 迎賓接待機(jī)器人 前臺機(jī)器人 導(dǎo)覽機(jī)器人 酒店送物機(jī)器人 云跡科技潤機(jī)器人 云跡酒店機(jī)器人 智能導(dǎo)診機(jī)器人 |