DiffMap：首個利用LDM來增強高精地圖建構的網絡

2024.05.27

01 背景簡介

對自動駕駛車輛來說，高清（HD）地圖能夠幫助其提高對環境理解（感知）的準確度和導航的精確度。然而，人工建圖面臨繁雜和高成本的問題。為此，目前研究將地圖建構整合到BEV（鳥瞰視角）感知任務中，在BEV空間中建構柵格化HD地圖視為分割任務，可以理解為獲得BEV特徵後增加使用類似於FCN（全卷積網）的分割頭。例如，HDMapNet透過LSS（Lift，Splat，Shoot）編碼感測器特徵，然後採用多分支FCN進行語意分割、實例偵測和方向預測來建構地圖。

但目前此類方法（基於像素的分類方法）仍存在固有局限性，包括可能忽略特定類別屬性，這可能導致分隔帶扭曲和中斷、行人橫道模糊以及其他類型的偽影和噪聲，如圖1（ a）所示。這些問題不僅影響地圖的結構精度，也可能直接影響自動駕駛系統的下游路徑規劃模組。

▲圖1｜HDMapNet，DiffMap與GroundTruth效果對比

因此，模型最好能考慮HD地圖的結構先驗訊息，如車道線的平行和筆直特性。一些生成模型在捕捉影像真實性和固有特性具備這樣的能力。例如，LDM（潛在擴散模型）在高保真影像生成方面展現了巨大潛力，並在與分割增強相關的任務中證明了其有效性。另外，還可以透過引入控制變量，進一步指導影像的生成以滿足特定的控制要求。因此，將生成模型應用於捕捉地圖結構先驗，可望減少分割偽影並提高地圖建構效能。

在本文中，作者提出DiffMap網路。該網路首次透過使用改進的LDM作為增強模組，對現有的分割模型進行地圖結構化先驗建模並支援即插即用。 DiffMap不僅能透過新增和刪除雜訊的過程學習地圖先驗，還可以將BEV特徵集成為控制訊號，以確保輸出與目前幀觀測相符。實驗結果表明，DiffMap能夠有效地產生更平滑合理的地圖分割結果，同時大大減少了偽影，提高了整體的地圖建構效能。

02 相關工作

2.1 語意地圖構建

在傳統的高清（HD）地圖建構中，語義地圖通常是基於雷射雷達點雲手動或半自動標註的。一般基於SLAM的演算法來建立全域一致的地圖，並手動為地圖添加語意標註。然而，這種方法費時費力，同時在更新地圖方面也存在極大挑戰，這限制了其可擴展性和即時效能。

HDMapNet提出了一種使用車載感測器動態建立局部語意地圖的方法。它將雷射雷達點雲和全景圖像特徵編碼到鳥瞰視圖（BEV）空間，並使用三個不同的頭部進行解碼，最終產生一個向量化的局部語義地圖。 SuperFusion專注於建立遠程高精度語義地圖，利用光達深度資訊增強影像深度估計，並使用影像特徵引導遠端雷射雷達特徵預測。接著採用類似HDMapNet的地圖偵測頭獲得語意地圖。 MachMap將任務劃分為折線檢測和多邊形實例分割，並使用後處理來細化遮罩以獲得最終結果。後續的研究聚焦在端到端線上建圖，直接獲得向量化的高清地圖。無需手動標註的語義地圖動態構建有效地降低了構建成本。

2.2 擴散模型應用於分割與檢測

去噪擴散機率模型（DDPMs）是基於馬可夫鏈的一類生成模型，在影像生成等領域展現出優異的效能，並逐步擴展到分割和偵測等各種任務。 SegDiff將擴散模型應用於影像分割任務，其中使用的UNet編碼器進一步解耦為三個模組：E、F和G。模組G和F分別編碼輸入影像I和分割圖，然後在E中透過加法合併，以迭代地細化分割圖。 DDPMS使用基礎分割模型產生初始預測先驗，並利用擴散模型對先驗進行細化。 DiffusionDet將擴散模型擴展到目標偵測框架，將目標偵測建模為從雜訊框到目標框的去雜訊擴散過程。

擴散模型也應用於自動駕駛領域，如MagicDrive利用幾何約束合成街景，以及Motiondiffuser將擴散模型擴展到多智能體運動預測問題。

2.3 地圖先驗

目前有幾種方法透過利用先驗資訊（包括明確的標準地圖資訊和隱式的時間資訊）來增強模型穩健性，減少車載感測器的不確定性。 MapLite2.0以標準定義（SD）先驗地圖為起點，並結合車載感測器即時推斷局部高清地圖。 MapEx和SMERF利用標準地圖資料改善車道感知和拓樸理解。 SMERF採用基於Transformer的標準地圖編碼器編碼車道線和車道類型，然後計算標準地圖資訊與基於感測器的鳥瞰視圖（BEV）特徵之間的交叉注意力，以整合標準地圖資訊。 NMP透過將過去的地圖先驗數據與當前感知數據相結合，為自動駕駛汽車提供長期記憶能力。 MapPrior結合判別式和生成式模型，在預測階段將基於現有模型產生的初步預測編碼為先驗，注入生成模型的離散潛在空間，然後使用生成模型進行細化預測。 PreSight利用先前行程的資料優化城市尺度的神經輻射場，產生神經先驗，增強後續導航中的線上感知。

03 方法精析

3.1 準備工作

3.2 整體架構

如圖2所示。 DiffMap作為解碼器，將擴散模型納入語義地圖分割模型，該模型以周圍多視角影像和LiDAR點雲作為輸入，將其編碼為BEV空間並獲得融合的BEV特徵。再採用DiffMap作為解碼器產生分割圖。在DiffMap模組中，將BEV特徵作為條件來引導去噪過程。

▲圖2｜DiffMap架構©️【深藍AI】編譯

◆語意地圖建構的基線：基線主要遵循BEV編碼器-解碼器範式。編碼器部分負責從輸入資料（LiDAR和/或相機資料）中提取特徵，將其轉換為高維表示。同時，解碼器通常作為分割頭，將高維特徵表示映射到相應的分割圖。基線在整個框架中起兩個主要作用：監督者和控制器。作為監督者，基線產生分割結果作為輔助監督。同時，作為控制器，它提供中間BEV特徵作為條件控制變量，以引導擴散模型的生成過程。

◆DiffMap模組：沿襲LDM，作者在基線框架中引入DiffMap模組作為解碼器。 LDM主要由兩部分組成：一個影像感知壓縮模組（如VQVAE）和一個使用UNet建構的擴散模型。首先，編碼器將地圖分割ground truth 編碼為潛在空間中的，其中表示潛在空間的低維度。隨後，在低維潛在變數空間中執行擴散和去噪，然後使用解碼器將潛在空間恢復到原始像素空間。

首先透過擴散過程添加噪聲，在每個時間步獲得噪聲潛在圖，其中。然後在去噪過程中，UNet作為噪音預測的主幹網路。為了增強分割結果的監督部分，並希望DiffMap模型在訓練期間直接為實例相關預測提供語意特徵。因此，作者將UNet網路結構分為兩個分支，一個分支用於預測噪聲，如傳統擴散模型，另一個分支用於預測潛在空間中的。

如圖3所示。獲得潛在圖預測後，將其解碼到原始像素空間，作為語義特徵圖。接著就可以依照HDMapNet提出的方法從中獲得實例預測，輸出三種不同頭的預測：語意分割、實例嵌入和車道方向。這些預測隨後用於後處理步驟以向量化地圖。

▲圖3｜去雜訊模組

整個過程是一個有條件的生成過程，根據當前感測器輸入下獲得地圖分割結果。其結果的機率分佈可以建模為，其中表示地圖分割結果，表示條件控制變量，即BEV特徵。作者這裡用了兩種方式融合控制變因。首先，由於和BEV特徵在空間域上具有相同的類別和尺度，將調整為潛在空間大小，然後將它們串聯作為去噪過程的輸入，如公式5所示。

其次，將交叉注意力機制融入UNet網路的每一層，其中作為key/value，作為query。交叉注意力模組的公式如下：

3.3 具體實現

◆訓練：

◆推理：

04 實驗

4.1 實驗細節

◆資料集：在nuScenes資料集上驗證DiffMap。 nuScenes資料集包含1000個場景的多視角影像和點雲，其中700個場景用於訓練，150個用於驗證，150個用於測試。 nuScenes資料集還包含註釋的高清地圖語義標籤。

◆架構：使用ResNet-101作為相機分支的主幹網絡，使用PointPillars作為模型的LiDAR分支主幹網路。基準模型中的分割頭是基於ResNet-18的FCN網路。對於自編碼器，採用VQVAE，該模型在nuScenes分割地圖資料集上進行了預訓練，以提取地圖特徵並將地圖壓縮為基本潛在空間。最後使用UNet來建構擴散網路。

◆訓練細節：使用AdamW優化器訓練VQVAE模型30個epoch。使用的學習率調度器是LambdaLR，它以指數衰減模式逐漸降低學習率，衰減因子為0.95。初始學習率設定為，批次大小為8。然後，使用AdamW優化器從頭開始訓練擴散模型30個epoch，初始學習率為2e-4。採用MultiStepLR調度器，該調度器根據指定的里程碑時間點（0.7、0.9、1.0）和在不同訓練階段的縮放因子1/3來調整學習率。最後將BEV分割結果設定為0.15m的分辨率，並將LiDAR點雲體素化。 HDMapNet的偵測範圍為[-30m，30m]×[-15m，15m]m，因此對應的BEV地圖大小為400×200，而Superfusion使用[0m，90m]×[-15m，15m]並得到600× 200的結果。由於LDM的維度限制（在VAE和UNet中下取樣8倍），需要將語意地面實況地圖的大小填入64的倍數。

◆推理細節：透過在目前BEV特徵條件下對雜訊地圖執行去雜訊過程20次來獲得預測結果。使用3次採樣的平均值作為最終的預測結果。

4.2 評估指標

主要針對地圖語意分割和實例偵測任務進行平評估。且主要集中在三個靜態地圖元素：車道邊界、車道分隔線和行人橫道。

4.3 評估結果

表1显示了语义地图分割的 IoU 得分比较。DiffMap 在所有区间都显示出显著的改善，尤其在车道分隔线和行人横道上取得了最佳结果。

▲表1｜IoU分數比較

如表2所示，DiffMap方法在平均精度（AP）方面也有显著提升，验证了 DiffMap 的有效性。

▲表2｜MAP分數比較

如表3所示，將DiffMap範式整合到HDMapNet中時，可以觀察到，無論是僅使用相機或相機-雷射雷達融合方法，DiffMap都能提升HDMapNet的效能。這說明DiffMap方法在各類分割任務上都很有效，包括遠距離和近距離檢測。然而對於邊界，DiffMap的表現並不出色，這是因為邊界的形狀結構不固定，而存在許多難以預測的扭曲，從而使捕捉先驗結構特徵變得困難。

▲表3｜定量分析結果

4.4 消融實驗

表4顯示了VQVAE中不同下採樣因子對檢測結果的影響。透過分析DiffMap在下採樣因子為4、8、16時的行為可以看到，當下採樣因子設定為8x時，結果最佳。

▲表4｜消融實驗結果

此外，作者也測量了刪除與實例相關的預測模組對模型的影響，如表5所示。實驗表明，添加此預測進一步提高了IOU。

▲表5｜消融實驗結果（是否包含預測模組）

4.5 可視化

圖4展示了DiffMap和基線（HDMapNet-fusion）在複雜場景中的比較。很明顯，基線的分割結果忽略了元素內部的形狀屬性和一致性。相較之下，DiffMap展現了能夠修正這些問題的能力，產生與地圖規格很好對齊的分割輸出。具體而言，在案例（a）、（b）、（d）、（e）、（h）和（l）中，DiffMap有效地修正了不準確預測的人行橫道。在案例（c）、（d）、（h）、（i）、（j）和（l）中，DiffMap完成或刪除了不準確的邊界，使結果更接近現實的邊界幾何。此外，在案例（b）、（f）、（g）、（h）、（k）和（l）中，DiffMap解決了分隔線斷裂的問題，確保了鄰近元素的平行性。

▲圖4｜定性分析結果

05 總結與未來展望

在本文中，作者设计的DiffMap网络是一种利用潜在扩散模型学习地图结构先验的新方法，从而增强了传统的地图分割模型。该方法可以作为任何地图分割模型的辅助工具，其预测结果在远近距离检测场景中都有显著改善。由于该方法具有很强的扩展性，适合研究其他类型的先验信息，例如可以将SD地图先验集成到DiffMap的第二模块中，从增强其性能表现。将来有望在矢量化地图构建中继续有所进步。

新聞