對(duì)于自動(dòng)駕駛中的許多任務(wù)來說,從自上而下、地圖或鳥瞰 (BEV) 幾個(gè)角度去看會(huì)更容易完成。由于許多自動(dòng)駕駛主題被限制在地平面,所以俯視圖是一種更實(shí)用的低維表征,對(duì)于導(dǎo)航也更加理想,能夠捕獲相關(guān)障礙和危險(xiǎn)。對(duì)于像自主駕駛這樣的場景,語義分割的 BEV 地圖必須作為瞬時(shí)估計(jì)生成,以處理自由移動(dòng)的對(duì)象和只訪問一次的場景。
要想從圖像推斷 BEV 地圖,就需要確定圖像元素與它們在環(huán)境中的位置之間的對(duì)應(yīng)關(guān)系。此前的一些研究以稠密深度圖和圖像分割地圖指導(dǎo)這種轉(zhuǎn)換過程,還有研究延展了隱式解析深度和語義的方法。一些研究則利用了相機(jī)的幾何先驗(yàn),但并沒有明確地學(xué)習(xí)圖像元素和 BEV 平面之間的相互作用。
在近期一篇論文中,來自薩里大學(xué)的研究者引入了注意力機(jī)制,將自動(dòng)駕駛的 2D 圖像轉(zhuǎn)換為鳥瞰圖,使得模型的識(shí)別準(zhǔn)確率提升了 15%。這項(xiàng)研究在不久前落幕的 ICRA 2022 會(huì)議上獲得了杰出論文獎(jiǎng)。
與以往的方法不同,這項(xiàng)研究將 BEV 的轉(zhuǎn)換視為一個(gè)「Image-to-World」的轉(zhuǎn)換問題,其目標(biāo)是學(xué)習(xí)圖像中的垂直掃描線(vertical scan lines)和 BEV 中的極射線(polar ray)之間的對(duì)齊。因此,這種射影幾何對(duì)網(wǎng)絡(luò)來說是隱式的。
在對(duì)齊模型上,研究者采用了 Transformer 這種基于注意力的序列預(yù)測結(jié)構(gòu)。利用其注意力機(jī)制,研究者明確地建模了圖像中垂直掃描線與其極性 BEV 投影之間的成對(duì)相互作用。Transformer 非常適合圖像到 BEV 的轉(zhuǎn)換問題,因?yàn)樗鼈兛梢酝评沓鑫矬w、深度和場景照明之間的相互依賴關(guān)系,以實(shí)現(xiàn)全局一致的表征。
研究者將基于 Transformer 的對(duì)齊模型嵌入到一個(gè)端到端學(xué)習(xí)公式中,該公式以單目圖像及其固有矩陣為輸入,然后預(yù)測靜態(tài)和動(dòng)態(tài)類的語義 BEV 映射。
本文構(gòu)建了一個(gè)體系結(jié)構(gòu),有助于從對(duì)齊模型周圍的單目圖像預(yù)測語義 BEV 映射。如下圖 1 所示,它包含三個(gè)主要組成部分:一個(gè)標(biāo)準(zhǔn)的 CNN 骨干,用于提取圖像平面上的空間特征;編碼器 - 解碼器 Transformer 將圖像平面上的特征轉(zhuǎn)換為 BEV;最后一個(gè)分割網(wǎng)絡(luò)將 BEV 特征解碼為語義地圖。
具體而言,這項(xiàng)研究的主要貢獻(xiàn)在于:
(1)用一組 1D 序列 - 序列的轉(zhuǎn)換從一幅圖像中生成一個(gè) BEV 圖;(2)構(gòu)建了一個(gè)受限制的數(shù)據(jù)高效的 Transformer 網(wǎng)絡(luò),具備空間感知能力;(3)公式和語言領(lǐng)域單調(diào)注意力的結(jié)合表明,對(duì)于精確的映射來說,知道圖像中一個(gè)點(diǎn)下面是什么比知道它上面是什么更重要,盡管兩者都使用會(huì)導(dǎo)致最佳性能;(4)展示了軸向注意力如何通過提供時(shí)間意識(shí)來提高性能,并在三個(gè)大規(guī)模數(shù)據(jù)集上展示了最新的結(jié)果。實(shí)驗(yàn)結(jié)果
在實(shí)驗(yàn)中,研究者做了幾項(xiàng)評(píng)估:將圖像到 BEV 的轉(zhuǎn)換作為 nuScenes 數(shù)據(jù)集上的轉(zhuǎn)換問題評(píng)估其效用;在單調(diào)注意力中消融回溯方向,評(píng)估長序列水平上下文的效用和極位置信息(polar positional information)的影響。最后,將該方法與 nuScenes 、Argoverse 和 Lyft 數(shù)據(jù)集的 SOTA 方法進(jìn)行比較。
消融實(shí)驗(yàn)
如下表 2 的第一部分所示,研究者比較了軟注意力 (looking both ways)、圖像底部回溯(looking down) 的單調(diào)注意力、圖像頂部回溯 (looking up) 的單調(diào)注意力。結(jié)果表明,從圖像中的一個(gè)點(diǎn)向下看比向上看要好。
沿著局部的紋理線索——這與人類在城市環(huán)境中試圖確定物體距離的方法是一致的,我們會(huì)利用物體與地平面相交的位置。結(jié)果還表明,兩個(gè)方向的觀察都進(jìn)一步提高了精度,使深度推理更具有識(shí)別力。
長序列水平上下文的效用。此處的圖像 - BEV 轉(zhuǎn)換是作為一組 1D 序列 - 序列轉(zhuǎn)換進(jìn)行的,因此一個(gè)問題是,當(dāng)整個(gè)圖像被轉(zhuǎn)換成 BEV 時(shí)會(huì)發(fā)生什么??紤]到生成注意力地圖所需的二次計(jì)算時(shí)間和記憶力,這種方法的成本高得令人望而卻步。然而,可以通過在圖像平面特征上應(yīng)用水平軸向注意力,取得近似使用整個(gè)圖像的上下文效益。借助通過圖像行的軸向注意力,垂直掃描線中的像素現(xiàn)在具備了長距離的水平上下文,之后像以前一樣,通過在 1D 序列之間轉(zhuǎn)換來提供長距離的垂直上下文。
如表 2 中間部分所示,合并長序列水平上下文并不會(huì)使模型受益,甚至略有不利影響。這說明了兩點(diǎn):首先,每個(gè)轉(zhuǎn)換后的射線并不需要輸入圖像整個(gè)寬度的信息,或者更確切地說,比起已經(jīng)通過前端卷積聚合的上下文,長序列上下文并沒有提供任何額外的好處。這表明,使用整個(gè)圖像執(zhí)行轉(zhuǎn)換,不會(huì)讓模型精度提高以至超過 baseline 約束公式;此外,引入水平軸向注意力導(dǎo)致的性能下降意味著使用注意力訓(xùn)練圖像寬度的序列的困難,可以看出,使用整個(gè)圖像作為輸入序列的話,會(huì)更難訓(xùn)練。
Polar-agnostic vs polar-adaptive Transformers:表 2 最后一部分比較了 Po-Ag 與 Po-Ad 的變體。一個(gè) Po-Ag 模型沒有極化位置信息,圖像平面的 Po-Ad 包括添加到 Transformer 編碼器中的 polar encodings,而對(duì)于 BEV 平面,這些信息會(huì)加入到解碼器中。在任何一個(gè)平面上添加 polar encodings 都比在不可知模型上添加更有益處,其中動(dòng)態(tài)類的增加最多。將它添加到兩個(gè)平面會(huì)進(jìn)一步強(qiáng)化這一點(diǎn),但對(duì)靜態(tài)類的影響最大。
和 SOTA 方法的對(duì)比
研究者將本文方法與一些 SOTA 方法進(jìn)行了比較。如下表 1 所示,空間模型的表現(xiàn)優(yōu)于目前壓縮的 SOTA 方法 STA-S ,平均相對(duì)改善 15% 。在更小的動(dòng)態(tài)類上,改善更加顯著,公共汽車、卡車、拖車和障礙物的檢測準(zhǔn)確度都增加了相對(duì) 35-45% 。
下圖 2 中得到的定性結(jié)果也支持了這一結(jié)論,本文模型顯示出更大的結(jié)構(gòu)相似性和更好的形狀感。這種差異可以部分歸因于用于壓縮的全連接層(FCL) : 當(dāng)檢測小而遙遠(yuǎn)的物體時(shí),圖像的大部分是冗余的上下文。
此外,行人等物體往往部分被車輛擋住。在這種情況下,全連接層將傾向于忽略行人,而是保持車輛的語義。在這里,注意力方法展示出了它的優(yōu)勢,因?yàn)槊總€(gè)徑向深度都可以獨(dú)立地注意到圖像ーー如此,更深的深度可以使行人的身體可見,而此前的深度只可以注意到車輛。
下表 3 中 Argoverse 數(shù)據(jù)集上的結(jié)果展示了類似的模式,其中本文方法對(duì)比 PON [8]提高了 30% 。
如下表 4 所示,本文方法在 nuScenes 和 Lyft 上的表現(xiàn)優(yōu)于 LSS [9]和 FIERY [20]。在 Lyft 上進(jìn)行真正的對(duì)比是不可能的,因?yàn)樗鼪]有規(guī)范的 train/val 分割,而且無法獲得 LSS 所使用的分割。
更多研究細(xì)節(jié),可參考原論文。