AI學會視覺推理,“腦補”看不清的物體 | 李佳李飛飛等CVPR論文

                             

李林 發自 凹非寺

量子位 出品 | 公眾號 QbitAI

人類有一種非常強大的能力:腦補。

AI學會視覺推理,“腦補”看不清的物體 | 李佳李飛飛等CVPR論文

這張照片在人類眼中,左下角的一小片棕黃黑灰就是一匹活生生的馬——這個姿勢和場景,當然是騎馬啦!

但對於大部分的算法來說,圖上有兩個人,就是兩個人,誰知道左下角那團東西是什麼,誰知道他們倆在幹~什~麼~

一篇新鮮出爐的CVPR 2018論文Iterative Visual Reasoning Beyond Convolutions,就嘗試著將人類的“腦補”能力帶到算法中。

會腦補的算法

這項研究由卡耐基梅隆大學(CMU)和Google合作完成,作者有Facebook研究員陳鑫磊(論文是他博士畢業前完成的)、Google的李佳和李飛飛、以及陳鑫磊的導師Abhinav Gupta。

他們所研究的“腦補”能力,按論文中比較嚴謹學術正式的說法,是對空間和語義的視覺推理。有瞭這種能力,計算機就能在一張圖像中準確識別更多的物體。

AI學會視覺推理,“腦補”看不清的物體 | 李佳李飛飛等CVPR論文

比如說面對這樣一個場景,沒有空間語義推理能力的算法隻能憑車的形狀輪廓來辨認它是小汽車還是大巴,在上面的窗戶中,也隻能認出沒被遮擋的那些。

借助空間推理,和三扇窗戶排成一排又被局部遮擋住的那個物體,也會被認作是窗戶;借助語義推理,通身黃色上面還帶燈牌的大巴,就會被識別成校車;空間和語義推理結合起來,算法就能認出小汽車窗戶裡那個模模糊糊的影子,其實是個人。

我們來看一看比較具體的例子:

AI學會視覺推理,“腦補”看不清的物體 | 李佳李飛飛等CVPR論文

比如上圖,深藍色標註的“鼠標”,就是普通神經網絡識別不出來,而這種會腦補的新方法能識別出來的。它在圖上很模糊,分辨率非常低,但是可以根據周圍的物體推斷出來。

AI學會視覺推理,“腦補”看不清的物體 | 李佳李飛飛等CVPR論文

根據圖中的洗衣機,也可以推斷出深藍色標出的洗滌劑槽。

同樣一張圖像,會腦補的算法從中認出的物體,就比普通神經網絡更多。也就是說,它從圖像上框出各個物體並識別出來的能力更好。

論文的極為作者用“框出物體並識別”的區域分類任務,給這種腦補算法跑瞭個分:

AI學會視覺推理,“腦補”看不清的物體 | 李佳李飛飛等CVPR論文

與普通的卷積神經網絡相比,這種模型在ADE數據集上,每類平均準確率提升瞭8.4%,而增加網絡深度隻能提升1%左右。在COCO數據集上,這種模型能將準確率提升3.7%。

怎麼做到的?

AI學會視覺推理,“腦補”看不清的物體 | 李佳李飛飛等CVPR論文

他們在普通的卷積神經網絡上,加上瞭一個視覺推理框架,由兩個核心模塊組成:一個是局部模塊,運用空間記憶來存儲之前的認識,用卷積神經網絡來推理;一個是全局模塊,基於圖進行推理,將區域和類視為圖中的節點,通過在它們之間傳遞信息來進行推理。

詳細來說,全局模塊有三個部件,一個以類別為節點的知識圖譜,一個以圖像中的區域為節點、以區域間的空間關系為邊界的區域圖,和一個為區域分配類別的分配圖。

最終,所有模塊每次迭代的預測和註意力機制結合起來,就得出瞭最終的預測結果。

失敗花絮

當然,也有失敗的時候。

AI學會視覺推理,“腦補”看不清的物體 | 李佳李飛飛等CVPR論文

比如說床頭櫃上可能會放個遙控器這件事,這個算法就和普通的卷積神經網絡一樣get不到。

學神(們)

這篇論文的四位作者中,二三作是你們非常熟悉的兩位女神李佳和李飛飛啦,現在都在Google的雲計算部門。兩位的履歷和成就,大概也不需要量子位再講一遍瞭。

四作Abhinav Gupta是卡耐基梅隆大學計算機系副教授,目前主要在研究如何表征視覺世界、語言和視覺之間、行為與對象之間如何聯系等問題。

一作陳鑫磊,是眾多同學大概都會很崇拜的學神榜樣。

這位小哥哥今年2月在卡耐基梅隆大學(CMU)獲得瞭博士學位,現在是Facebook AI研究院的研究員。在浙江大學讀本科的時候,他就已經發表過AAAI、CVPR、CIKM等頂會論文瞭。

讀博期間,他先後在微軟研究院、Google VisCAM組和Google Cloud AI團隊實習過。

他的博士學位論文Visual Knowledge Learning,研究瞭圖像的背景知識在計算機視覺系統理解圖像過程中的重要性。這篇論文比較系統地論述瞭計算機如何自動化、可擴展地學習顯式和隱式視覺知識,以及如怎樣運用視覺知識來推理。

來這裡,可以系統地膜拜一下學神:http://xinleic.xyz/

最重要的是

論文地址,當然必不可少~https://www.arxiv-vanity.com/papers/1803.11189/

以及小哥哥的博士論文地址:http://xinleic.xyz/papers/thesis.pdf

— 完 —

誠摯招聘

量子位正在招募編輯/記者,工作地點在北京中關村。期待有才氣、有熱情的同學加入我們!相關細節,請在量子位公眾號(QbitAI)對話界面,回復“招聘”兩個字。

量子位 QbitAI · 頭條號簽約作者

վ’ᴗ’ ի 追蹤AI技術和產品新動態