毛片免费全部完整播放,天堂网在线最新版www中文网

對于自動駕駛中的許多任務(wù)來說，從自上而下、地圖或鳥瞰 (BEV) 幾個角度去看會更容易完成。由于許多自動駕駛主題被限制在地平面，所以俯視圖是一種更實用的低維表征，對于導航也更加理想，能夠捕獲相關(guān)障礙和危險。對于像自主駕駛這樣的場景，語義分割的 BEV 地圖必須作為瞬時估計生成，以處理自由移動的對象和只訪問一次的場景。

要想從圖像推斷 BEV 地圖，就需要確定圖像元素與它們在環(huán)境中的位置之間的對應(yīng)關(guān)系。此前的一些研究以稠密深度圖和圖像分割地圖指導這種轉(zhuǎn)換過程，還有研究延展了隱式解析深度和語義的方法。一些研究則利用了相機的幾何先驗，但并沒有明確地學習圖像元素和 BEV 平面之間的相互作用。

在近期一篇論文中，來自薩里大學的研究者引入了注意力機制，將自動駕駛的 2D 圖像轉(zhuǎn)換為鳥瞰圖，使得模型的識別準確率提升了 15%。這項研究在不久前落幕的 ICRA 2022 會議上獲得了杰出論文獎。

與以往的方法不同，這項研究將 BEV 的轉(zhuǎn)換視為一個「Image-to-World」的轉(zhuǎn)換問題，其目標是學習圖像中的垂直掃描線（vertical scan lines）和 BEV 中的極射線（polar ray）之間的對齊。因此，這種射影幾何對網(wǎng)絡(luò)來說是隱式的。

在對齊模型上，研究者采用了 Transformer 這種基于注意力的序列預測結(jié)構(gòu)。利用其注意力機制，研究者明確地建模了圖像中垂直掃描線與其極性 BEV 投影之間的成對相互作用。Transformer 非常適合圖像到 BEV 的轉(zhuǎn)換問題，因為它們可以推理出物體、深度和場景照明之間的相互依賴關(guān)系，以實現(xiàn)全局一致的表征。

研究者將基于 Transformer 的對齊模型嵌入到一個端到端學習公式中，該公式以單目圖像及其固有矩陣為輸入，然后預測靜態(tài)和動態(tài)類的語義 BEV 映射。

本文構(gòu)建了一個體系結(jié)構(gòu)，有助于從對齊模型周圍的單目圖像預測語義 BEV 映射。如下圖 1 所示，它包含三個主要組成部分：一個標準的 CNN 骨干，用于提取圖像平面上的空間特征；編碼器 - 解碼器 Transformer 將圖像平面上的特征轉(zhuǎn)換為 BEV；最后一個分割網(wǎng)絡(luò)將 BEV 特征解碼為語義地圖。

具體而言，這項研究的主要貢獻在于：

(1)用一組 1D 序列 - 序列的轉(zhuǎn)換從一幅圖像中生成一個 BEV 圖；(2)構(gòu)建了一個受限制的數(shù)據(jù)高效的 Transformer 網(wǎng)絡(luò)，具備空間感知能力；(3)公式和語言領(lǐng)域單調(diào)注意力的結(jié)合表明，對于精確的映射來說，知道圖像中一個點下面是什么比知道它上面是什么更重要，盡管兩者都使用會導致最佳性能；(4)展示了軸向注意力如何通過提供時間意識來提高性能，并在三個大規(guī)模數(shù)據(jù)集上展示了最新的結(jié)果。實驗結(jié)果

在實驗中，研究者做了幾項評估：將圖像到 BEV 的轉(zhuǎn)換作為 nuScenes 數(shù)據(jù)集上的轉(zhuǎn)換問題評估其效用；在單調(diào)注意力中消融回溯方向，評估長序列水平上下文的效用和極位置信息（polar positional information）的影響。最后，將該方法與 nuScenes 、Argoverse 和 Lyft 數(shù)據(jù)集的 SOTA 方法進行比較。

消融實驗

如下表 2 的第一部分所示，研究者比較了軟注意力 (looking both ways)、圖像底部回溯(looking down) 的單調(diào)注意力、圖像頂部回溯 (looking up) 的單調(diào)注意力。結(jié)果表明，從圖像中的一個點向下看比向上看要好。

沿著局部的紋理線索——這與人類在城市環(huán)境中試圖確定物體距離的方法是一致的，我們會利用物體與地平面相交的位置。結(jié)果還表明，兩個方向的觀察都進一步提高了精度，使深度推理更具有識別力。

長序列水平上下文的效用。此處的圖像 - BEV 轉(zhuǎn)換是作為一組 1D 序列 - 序列轉(zhuǎn)換進行的，因此一個問題是，當整個圖像被轉(zhuǎn)換成 BEV 時會發(fā)生什么?？紤]到生成注意力地圖所需的二次計算時間和記憶力，這種方法的成本高得令人望而卻步。然而，可以通過在圖像平面特征上應(yīng)用水平軸向注意力，取得近似使用整個圖像的上下文效益。借助通過圖像行的軸向注意力，垂直掃描線中的像素現(xiàn)在具備了長距離的水平上下文，之后像以前一樣，通過在 1D 序列之間轉(zhuǎn)換來提供長距離的垂直上下文。

如表 2 中間部分所示，合并長序列水平上下文并不會使模型受益，甚至略有不利影響。這說明了兩點：首先，每個轉(zhuǎn)換后的射線并不需要輸入圖像整個寬度的信息，或者更確切地說，比起已經(jīng)通過前端卷積聚合的上下文，長序列上下文并沒有提供任何額外的好處。這表明，使用整個圖像執(zhí)行轉(zhuǎn)換，不會讓模型精度提高以至超過 baseline 約束公式；此外，引入水平軸向注意力導致的性能下降意味著使用注意力訓練圖像寬度的序列的困難，可以看出，使用整個圖像作為輸入序列的話，會更難訓練。

Polar-agnostic vs polar-adaptive Transformers：表 2 最后一部分比較了 Po-Ag 與 Po-Ad 的變體。一個 Po-Ag 模型沒有極化位置信息，圖像平面的 Po-Ad 包括添加到 Transformer 編碼器中的 polar encodings，而對于 BEV 平面，這些信息會加入到解碼器中。在任何一個平面上添加 polar encodings 都比在不可知模型上添加更有益處，其中動態(tài)類的增加最多。將它添加到兩個平面會進一步強化這一點，但對靜態(tài)類的影響最大。

和 SOTA 方法的對比

研究者將本文方法與一些 SOTA 方法進行了比較。如下表 1 所示，空間模型的表現(xiàn)優(yōu)于目前壓縮的 SOTA 方法 STA-S ，平均相對改善 15% 。在更小的動態(tài)類上，改善更加顯著，公共汽車、卡車、拖車和障礙物的檢測準確度都增加了相對 35-45% 。

下圖 2 中得到的定性結(jié)果也支持了這一結(jié)論，本文模型顯示出更大的結(jié)構(gòu)相似性和更好的形狀感。這種差異可以部分歸因于用于壓縮的全連接層(FCL) : 當檢測小而遙遠的物體時，圖像的大部分是冗余的上下文。