国产精品夜色视频一级区_hh99m福利毛片_国产一区二区成人久久免费影院_伊人久久大香线蕉综合影院75_国产精品久久果冻传媒

您的位置:首頁 >聚焦 >

今日熱文:60項基于深度學(xué)習(xí)的SLAM頂會開源方案匯總(下篇)

2022-12-30 18:50:19    來源:程序員客棧
點擊進(jìn)入—>3D視覺工坊學(xué)習(xí)交流群60項基于深度學(xué)習(xí)的SLAM頂會開源方案匯總(上篇)0. 筆者個人體會深度學(xué)習(xí)結(jié)合SLAM是近年來很熱門的研究方向,也因此誕生了很多開源方案。筆者最近在閱讀SLAM綜述論文“A Survey on Deep Learning for Localization and Mapping: Towards the Age of Spatial Machine Intelligence”,該綜述參考了255篇SLAM領(lǐng)域的頂會頂刊論文,并且涵蓋了VO、建圖、特征提取、定位、描述子提取、BA優(yōu)化、回環(huán)、數(shù)據(jù)集等多個方向,非常全面。本文將對該綜述中出現(xiàn)的開源方案進(jìn)行整理(2018年以后),并附上摘要和論文信息。雖然可能文章并不是最新的,但每項開源工作都是頂會頂刊,參考價值很高。由于方案較多,因此將分上下兩篇文章進(jìn)行介紹。上一節(jié)我們介紹了里程計、建圖、特征提取、SLAM、閉環(huán)檢測、數(shù)據(jù)集相關(guān)的開源項目,本節(jié)我們將繼續(xù)介紹定位、描述子提取、BA優(yōu)化相關(guān)的開源項目。一、定位全局定位在具有先驗知識的已知場景中檢索移動代理的全局位姿。這是通過將查詢輸入數(shù)據(jù)與預(yù)先構(gòu)建的2D或3D地圖、其他空間參考或之前訪問過的場景進(jìn)行匹配來實現(xiàn)的。它可以用來減少航位推算系統(tǒng)的位姿漂移或解決“被綁架機器人”問題。深度學(xué)習(xí)用于解決因視圖、光照、天氣和場景動態(tài)、查詢數(shù)據(jù)和地圖之間的變化而變得復(fù)雜的棘手?jǐn)?shù)據(jù)關(guān)聯(lián)問題。31、DeLS-3D標(biāo)題:DeLS-3D: Deep Localization and Segmentation with a 3D Semantic Map作者:Peng Wang, Ruigang Yang, Binbin Cao, Wei Xu, Yuanqing Lin單位:百度來源:2018 CVPR原文鏈接:https://arxiv.org/abs/1805.04949代碼鏈接:https://github.com/pengwangucla/DeLS-3D摘要:對于自動駕駛等應(yīng)用,自定位/相機姿態(tài)估計和場景解析是至關(guān)重要的技術(shù)。在本文中,我們提出了一個統(tǒng)一的框架來同時解決這兩個問題。我們設(shè)計的獨特之處在于傳感器融合方案,該方案集成了攝像機視頻、運動傳感器(GPS/IMU)和3D語義地圖,以實現(xiàn)系統(tǒng)的魯棒性和效率。具體來說,我們首先從消費級GPS/IMU獲得初始粗略相機姿態(tài),基于此,可以從3D語義地圖渲染標(biāo)簽地圖。然后,渲染的標(biāo)簽圖和RGB圖像被共同饋送到姿態(tài)CNN,產(chǎn)生校正的相機姿態(tài)。此外,結(jié)合時間信息,多層遞歸神經(jīng)網(wǎng)絡(luò)(RNN)進(jìn)一步部署,以提高姿態(tài)精度。最后,基于來自RNN的姿態(tài),我們繪制了一個新的標(biāo)簽圖,它與RGB圖像一起被饋送到一個產(chǎn)生每個像素語義標(biāo)簽的分段CNN中。為了驗證我們的方法,我們建立了一個配準(zhǔn)的三維點云和攝像機圖像數(shù)據(jù)集。點云和圖像都被語義標(biāo)注。每個視頻幀都有來自高精度運動傳感器的地面真實姿態(tài)。我們表明,實際上,僅依靠像PoseNet這樣的圖像進(jìn)行姿態(tài)估計可能會由于街景混亂而失敗,因此融合多個傳感器是重要的。最后,進(jìn)行了各種消融研究,證明了所提出系統(tǒng)的有效性。特別地,我們表明場景解析和姿態(tài)估計對于實現(xiàn)更健壯和更精確的系統(tǒng)是相互有益的。32、VLocNet標(biāo)題:Deep Auxiliary Learning for Visual Localization and Odometry作者:Abhinav Valada, Noha Radwan, Wolfram Burgard單位:弗賴堡大學(xué)來源:2018 ICRA原文鏈接:https://arxiv.org/abs/1803.03642代碼鏈接:https://github.com/decayale/vlocnet摘要:定位是機器人自主堆棧中不可或缺的組成部分,使其能夠確定自己在環(huán)境中的位置,本質(zhì)上使其成為任何動作執(zhí)行或規(guī)劃的先驅(qū)。盡管卷積神經(jīng)網(wǎng)絡(luò)在視覺定位方面已經(jīng)顯示出有希望的結(jié)果,但是它們?nèi)匀贿h(yuǎn)遠(yuǎn)優(yōu)于最新的基于局部特征的技術(shù)。在這項工作中,我們提出了VLocNet,一種新的卷積神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu),用于從連續(xù)的單目圖像進(jìn)行6自由度全局姿態(tài)回歸和里程計估計。我們的多任務(wù)模型結(jié)合了硬參數(shù)共享,因此除了端到端可訓(xùn)練性之外,還很緊湊并支持實時推理。我們提出了一種新的損失函數(shù),它利用輔助學(xué)習(xí)在訓(xùn)練過程中利用相對姿態(tài)信息,從而限制搜索空間以獲得一致的姿態(tài)估計。我們在室內(nèi)和室外數(shù)據(jù)集上評估了我們提出的VLocNet,并表明即使我們的單任務(wù)模型也超過了用于全球定位的最新深度架構(gòu)的性能,同時實現(xiàn)了視覺里程計估計的競爭性能。此外,我們利用我們提出的幾何一致性損失進(jìn)行了廣泛的實驗評估,這些評估顯示了多任務(wù)學(xué)習(xí)的有效性,并證明了我們的模型是第一個與基于SIFT的方法不相上下的深度學(xué)習(xí)技術(shù),在某些情況下甚至優(yōu)于基于SIFT的方法。33、AtLoc標(biāo)題:AtLoc: Attention Guided Camera Localization作者:Bing Wang, Changhao Chen, Chris Xiaoxuan Lu, Peijun Zhao, Niki Trigoni, Andrew Markham單位:牛津大學(xué)來源:2019 AAAI原文鏈接:https://arxiv.org/abs/1909.03557代碼鏈接:https://github.com/BingCS/AtLoc摘要:深度學(xué)習(xí)在相機定位方面取得了令人印象深刻的成果,但目前的單幅圖像技術(shù)通常缺乏魯棒性,導(dǎo)致較大的異常值。在某種程度上,這已經(jīng)通過序列(多圖像)或幾何約束方法來解決,這些方法可以學(xué)習(xí)拒絕動態(tài)對象和光照條件,以獲得更好的性能。在這項工作中,我們表明注意力可以用來迫使網(wǎng)絡(luò)專注于更具幾何魯棒性的對象和特征,即使只使用單張圖像作為輸入,也能在通用基準(zhǔn)測試中達(dá)到最先進(jìn)的性能。通過公開的室內(nèi)和室外數(shù)據(jù)集提供了廣泛的實驗證據(jù)。通過對顯著圖的可視化,我們展示了網(wǎng)絡(luò)如何學(xué)習(xí)拒絕動態(tài)對象,從而產(chǎn)生優(yōu)越的全局相機位姿回歸性能。34、Pyslam標(biāo)題:To Learn or Not to Learn: Visual Localization from Essential Matrices作者:Qunjie Zhou, Torsten Sattler, Marc Pollefeys, Laura Leal-Taixe單位:慕尼黑工業(yè)大學(xué)、查爾姆斯理工大學(xué)、蘇黎世聯(lián)邦理工學(xué)院計算機科學(xué)系、微軟蘇黎世來源:2020 ICRA原文鏈接:https://arxiv.org/abs/1908.01293代碼鏈接:https://github.com/luigifreda/pyslam摘要:視覺定位是對場景中的攝像機進(jìn)行估計的問題,是自動駕駛汽車和混合現(xiàn)實等計算機視覺應(yīng)用的關(guān)鍵組成部分。用于精確視覺定位的最新方法使用特定于場景的表示,導(dǎo)致在將該技術(shù)應(yīng)用于新場景時構(gòu)建這些模型的開銷。最近,已經(jīng)提出了基于相對姿態(tài)估計的基于深度學(xué)習(xí)的方法,具有容易適應(yīng)新場景的承諾。然而,已經(jīng)表明這種方法目前遠(yuǎn)不如現(xiàn)有技術(shù)的方法準(zhǔn)確。在本文中,我們有興趣分析這種行為。為此,我們提出了一個新的框架,視覺定位從相對姿態(tài)。在這個框架內(nèi)使用一個經(jīng)典的基于特征的方法,我們展示了最先進(jìn)的性能。用不同層次的學(xué)習(xí)方法代替經(jīng)典方法,我們?nèi)缓笳页錾疃葘W(xué)習(xí)方法表現(xiàn)不佳的原因。基于我們的分析,我們對未來的工作提出了建議。35、DFNet標(biāo)題:DFNet: Enhance Absolute Pose Regression with Direct Feature Matching作者:Shuai Chen, Xinghui Li, Zirui Wang, Victor Adrian Prisacariu單位:牛津大學(xué)來源:2022 ECCV原文鏈接:https://arxiv.org/abs/2204.00559代碼鏈接:https://github.com/activevisionlab/dfnet摘要:我們介紹了一個結(jié)合絕對姿態(tài)回歸(APR)和直接特征匹配的攝像機重定位流水線。通過結(jié)合曝光自適應(yīng)的新視圖合成,我們的方法成功地解決了現(xiàn)有的基于光度的方法無法處理的室外環(huán)境中的光度失真。通過域不變特征匹配,我們的解決方案使用無標(biāo)簽數(shù)據(jù)上的半監(jiān)督學(xué)習(xí)來提高姿態(tài)回歸精度。特別地,流水線由兩個組件組成:新穎的視圖合成器和DFNet。前者合成補償曝光變化的新視圖,后者回歸相機姿態(tài)并提取魯棒特征,以縮小真實圖像和合成圖像之間的域差距。此外,我們介紹了一個在線合成數(shù)據(jù)生成方案。我們表明,這些方法有效地提高了室內(nèi)和室外場景中的相機姿態(tài)估計。因此,與基于3D結(jié)構(gòu)的方法相比,我們的方法通過超過現(xiàn)有的單圖像APR方法多達(dá)56%而實現(xiàn)了最先進(jìn)的精度。36、DGCNet標(biāo)題:DGC-Net: Dense Geometric Correspondence Network作者:Iaroslav Melekhov, Aleksei Tiulpin, Torsten Sattler, Marc Pollefeys, Esa Rahtu, Juho Kannala單位:阿爾托大學(xué)、奧盧大學(xué)、蘇黎世聯(lián)邦理工學(xué)院、坦桑尼亞科技大學(xué)、微軟來源:2019 WACV原文鏈接:https://arxiv.org/abs/1810.08393代碼鏈接:https://github.com/AaltoVision/DGC-Net摘要:本文提出了兩個圖像之間的密集像素對應(yīng)估計的挑戰(zhàn)。這個問題與光流估計任務(wù)密切相關(guān),在光流估計任務(wù)中,CNN最近取得了重大進(jìn)展。雖然光流方法對于小像素平移和有限的外觀變化場景產(chǎn)生非常精確的結(jié)果,但是它們很難處理我們在這項工作中考慮的強幾何變換。在本文中,我們提出了一個由粗到細(xì)的基于CNN的框架,該框架可以利用光流方法的優(yōu)勢,并將其擴展到大型變換的情況,提供密集和亞像素精度的估計。它經(jīng)過合成變換訓(xùn)練,對看不見的真實數(shù)據(jù)表現(xiàn)出非常好的性能。此外,我們將我們的方法應(yīng)用于相對相機姿態(tài)估計問題,并證明該模型優(yōu)于現(xiàn)有的密集方法。37、Long-Term Visual Localization標(biāo)題:Fine-Grained Segmentation Networks: Self-Supervised Segmentation for Improved Long-Term Visual Localization作者:M?ns Larsson, Erik Stenborg, Carl Toft, Lars Hammarstrand, Torsten Sattler, Fredrik Kahl單位:查爾姆斯理工大學(xué)來源:2019 ICCV原文鏈接:https://arxiv.org/abs/1908.06387代碼鏈接:https://github.com/maunzzz/fine-grained-segmentation-networks摘要:長期視覺定位是估計給定查詢圖像在外觀隨時間變化的場景中的相機姿態(tài)的問題。它是實踐中的一個重要問題,例如,在自動駕駛中遇到的問題。為了獲得對這種變化的魯棒性,長期定位方法經(jīng)常使用分段的分割作為不變的場景表示,因為每個場景部分的語義不應(yīng)受季節(jié)和其他變化的影響。然而,由于可用類別的數(shù)量有限,這些表示通常不太容易區(qū)分。在本文中,我們提出了一種新的神經(jīng)網(wǎng)絡(luò),細(xì)粒度分割網(wǎng)絡(luò)(FGSN),它可以用于提供具有大量標(biāo)簽的圖像分割,并可以以自我監(jiān)督的方式進(jìn)行訓(xùn)練。此外,我們還展示了如何訓(xùn)練FGSNs在季節(jié)變化時輸出一致的標(biāo)簽。我們通過大量的實驗證明,將我們的FGSNs產(chǎn)生的細(xì)粒度分割集成到現(xiàn)有的定位算法中會導(dǎo)致定位性能的實質(zhì)性改善。38、Understanding_apr標(biāo)題:Understanding the Limitations of CNN-based Absolute Camera Pose Regression作者:Torsten Sattler, Qunjie Zhou, Marc Pollefeys, Laura Leal-Taixe單位:查爾姆斯理工大學(xué)、慕尼黑大學(xué)、蘇黎世聯(lián)邦理工學(xué)院、微軟來源:2019 CVPR原文鏈接:https://arxiv.org/abs/1903.07504代碼鏈接:https://github.com/tsattler/understanding_apr摘要:視覺定位是在已知場景中精確估計攝像機姿態(tài)的任務(wù)。這是計算機視覺和機器人技術(shù)中的一個關(guān)鍵問題,應(yīng)用包括自動駕駛汽車、運動結(jié)構(gòu)、SLAM和混合現(xiàn)實。傳統(tǒng)上,定位問題是使用3D幾何來解決的。最近,基于卷積神經(jīng)網(wǎng)絡(luò)的端到端方法變得流行起來。這些方法學(xué)習(xí)從輸入圖像直接回歸相機姿態(tài)。然而,它們不能達(dá)到與基于3D結(jié)構(gòu)的方法相同水平的姿態(tài)精度。為了理解這種行為,我們開發(fā)了一個相機姿態(tài)回歸的理論模型。我們使用我們的模型來預(yù)測姿態(tài)回歸技術(shù)的失敗案例,并通過實驗來驗證我們的預(yù)測。此外,我們使用我們的模型來表明姿態(tài)回歸與通過圖像檢索的姿態(tài)近似更密切相關(guān),而不是與通過3D結(jié)構(gòu)的精確姿態(tài)估計更密切相關(guān)。一個關(guān)鍵的結(jié)果是,目前的方法并不總是優(yōu)于手工制作的圖像檢索基線。這清楚地表明,在姿勢回歸算法準(zhǔn)備好與基于結(jié)構(gòu)的方法競爭之前,需要額外的研究。39、HFNet標(biāo)題:From Coarse to Fine: Robust Hierarchical Localization at Large Scale作者:Paul-Edouard Sarlin, Cesar Cadena, Roland Siegwart, Marcin Dymczyk單位:蘇黎世聯(lián)邦理工學(xué)院自主系統(tǒng)實驗室、Sevensense機器人股份公司來源:2019 CVPR原文鏈接:https://arxiv.org/abs/1812.03506代碼鏈接:https://github.com/ethz-asl/hfnet摘要:魯棒且準(zhǔn)確的視覺定位是許多應(yīng)用的基本能力,例如自動駕駛、移動機器人或增強現(xiàn)實。然而,這仍然是一項具有挑戰(zhàn)性的任務(wù),特別是對于大規(guī)模的環(huán)境和存在顯著外觀變化的情況。最先進(jìn)的方法不僅難以應(yīng)對這種情況,而且對于某些實時應(yīng)用程序來說,通常過于耗費資源。在本文中,我們提出了HF-Net,一種基于單片CNN的分層定位方法,它同時預(yù)測局部特征和全局描述符,用于精確的6自由度定位。我們利用由粗到精的定位范例:我們首先執(zhí)行全局檢索以獲得位置假設(shè),然后才在這些候選地點內(nèi)匹配局部特征。這種分層方法節(jié)省了大量的運行時間,并使我們的系統(tǒng)適合實時操作。通過利用學(xué)習(xí)的描述符,我們的方法在外觀的大變化上實現(xiàn)了顯著的定位魯棒性,并在兩個具有挑戰(zhàn)性的大規(guī)模定位基準(zhǔn)上建立了新的藝術(shù)狀態(tài)。40、InLoc標(biāo)題:InLoc: Indoor Visual Localization with Dense Matching and View Synthesis作者:Hajime Taira, Masatoshi Okutomi, Torsten Sattler, Mircea Cimpoi, Marc Pollefeys, Josef Sivic, Tomas Pajdla, Akihiko Torii單位:東京工業(yè)大學(xué)、蘇黎世聯(lián)邦理工學(xué)院計算機科學(xué)系來源:2018 CVPR原文鏈接:https://arxiv.org/abs/1803.10368代碼鏈接:https://github.com/HajimeTaira/InLoc_demo摘要:我們試圖預(yù)測查詢照片相對于大型室內(nèi)3D地圖的6自由度(6DoF)姿態(tài)。這項工作的貢獻(xiàn)有三個方面。首先,我們發(fā)展了一種新的針對室內(nèi)環(huán)境的大規(guī)模視覺定位方法。該方法沿著三個步驟進(jìn)行:(I)候選姿態(tài)的有效檢索,其確保大規(guī)模環(huán)境的可伸縮性,(ii)使用密集匹配而不是局部特征來處理無紋理室內(nèi)場景的姿態(tài)估計,以及(iii)通過虛擬視圖合成來處理視點、場景布局和遮擋器的顯著變化的姿態(tài)驗證。第二,我們收集一個新的數(shù)據(jù)集,該數(shù)據(jù)集具有用于大規(guī)模室內(nèi)定位的參考6自由度姿態(tài)。查詢照片由移動電話在不同于參考3D地圖的時間捕獲,從而呈現(xiàn)真實的室內(nèi)定位場景。第三,在這個新的挑戰(zhàn)性數(shù)據(jù)上,我們證明了我們的方法明顯優(yōu)于當(dāng)前最先進(jìn)的室內(nèi)定位方法。41、CPF_Localization標(biāo)題:Cascaded Parallel Filtering for Memory-Efficient Image-Based Localization作者:Wentao Cheng, Weisi Lin, Kan Chen, Xinfeng Zhang單位:南洋理工大學(xué)、中國科學(xué)院大學(xué)來源:2019 ICCV原文鏈接:https://arxiv.org/abs/1908.06141代碼鏈接:https://github.com/wentaocheng-cv/cpf_localization摘要:基于圖像的定位(IBL)旨在估計給定查詢圖像的6自由度相機姿態(tài)??梢詮牟樵儓D像和運動結(jié)構(gòu)(SfM)模型之間的2D-3D匹配來計算相機姿態(tài)。盡管最近在IBL方面取得了進(jìn)展,但仍然很難同時解決大型SfM模型的內(nèi)存消耗和匹配模糊性問題。在本文中,我們提出了一種級聯(lián)并行過濾方法,該方法利用特征、可見性和幾何信息來過濾二值特征表示下的錯誤匹配。核心思想是,我們將具有挑戰(zhàn)性的過濾任務(wù)分成兩個并行任務(wù),然后為最終過濾導(dǎo)出輔助相機姿態(tài)。一個任務(wù)集中于保留潛在的正確匹配,而另一個任務(wù)集中于獲得高質(zhì)量的匹配,以便于隨后更強大的過濾。此外,我們提出的方法通過引入質(zhì)量感知的空間重構(gòu)方法和主焦距增強的姿態(tài)估計方法來提高定位精度。在真實數(shù)據(jù)集上的實驗結(jié)果表明,我們的方法在節(jié)省內(nèi)存的情況下獲得了極具競爭力的定位性能。42、LessMore標(biāo)題:Learning Less is More - 6D Camera Localization via 3D Surface Regression作者:Eric Brachmann, Carsten Rother單位:海德堡大學(xué)來源:2018 CVPR原文鏈接:https://arxiv.org/abs/1711.10228代碼鏈接:https://github.com/vislearn/LessMore摘要:自動駕駛和增強現(xiàn)實等熱門研究領(lǐng)域重新引起了人們對基于圖像的攝像機定位的興趣。在這項工作中,我們解決的任務(wù)是在一個給定的三維環(huán)境中從一個單一的RGB圖像預(yù)測6D相機的姿態(tài)。隨著神經(jīng)網(wǎng)絡(luò)的出現(xiàn),以前的工作要么學(xué)習(xí)了整個相機定位過程,要么學(xué)習(xí)了相機定位流水線的多個組件。我們的主要貢獻(xiàn)是證明和解釋學(xué)習(xí)這個管道的單個組件就足夠了。該組件是用于密集回歸所謂場景坐標(biāo)的全卷積神經(jīng)網(wǎng)絡(luò),定義了輸入圖像和3D場景空間之間的對應(yīng)關(guān)系。神經(jīng)網(wǎng)絡(luò)被預(yù)加到新的端到端可訓(xùn)練流水線上。我們的系統(tǒng)是高效的、高度準(zhǔn)確的、訓(xùn)練健壯的,并且展示出杰出的泛化能力。在室內(nèi)和室外數(shù)據(jù)集上,它始終超越了最先進(jìn)的水平。有趣的是,我們的方法甚至在訓(xùn)練期間不利用場景的3D模型也超過了現(xiàn)有技術(shù),因為網(wǎng)絡(luò)能夠僅從單視圖約束中自動發(fā)現(xiàn)3D場景幾何形狀。43、ESAC標(biāo)題:Expert Sample Consensus Applied to Camera Re-Localization作者:Eric Brachmann, Carsten Rother單位:海德堡大學(xué)來源:2019 ICCV原文鏈接:https://arxiv.org/abs/1908.02484代碼鏈接:https://github.com/vislearn/esac摘要:將模型參數(shù)擬合到一組噪聲數(shù)據(jù)點是計算機視覺中的常見問題。在這項工作中,我們將6D相機姿態(tài)擬合到2D輸入圖像和已知3D環(huán)境之間的一組噪聲對應(yīng)關(guān)系。我們使用神經(jīng)網(wǎng)絡(luò)從圖像中估計這些對應(yīng)關(guān)系。由于對應(yīng)關(guān)系通常包含異常值,我們利用穩(wěn)健的估計器,如隨機樣本一致性(RANSAC)或可微分RANSAC (DSAC)來擬合姿態(tài)參數(shù)。當(dāng)問題域,例如所有2D-3D對應(yīng)的空間很大或不明確時,單個網(wǎng)絡(luò)不能很好地覆蓋該域。專家混合(MoE)是一種流行的策略,用于在一組專門的網(wǎng)絡(luò)(即所謂的專家)之間劃分問題域,其中門控網(wǎng)絡(luò)決定哪個專家負(fù)責(zé)給定的輸入。在這項工作中,我們介紹了專家樣本共識(ESAC),整合了DSAC在一個MoE。我們的主要技術(shù)貢獻(xiàn)是一個有效的方法來訓(xùn)練ESAC聯(lián)合和端到端。我們通過實驗證明,ESAC比競爭方法更好地處理了兩個現(xiàn)實世界的問題,即可伸縮性和模糊性。我們將ESAC應(yīng)用于將簡單的幾何模型擬合到合成圖像中,以及用于困難的真實數(shù)據(jù)集的攝像機重新定位。44、KFNet標(biāo)題:KFNet: Learning Temporal Camera Relocalization using Kalman Filtering作者:Lei Zhou, Zixin Luo, Tianwei Shen, Jiahui Zhang, Mingmin Zhen, Yao Yao, Tian Fang, Long Quan單位:香港科技大學(xué)、清華大學(xué)、珠峰創(chuàng)新科技來源:2020 CVPR oral原文鏈接:https://arxiv.org/abs/2003.10629代碼鏈接:https://github.com/zlthinker/KFNet摘要:與聚焦于靜止圖像的一次性重新定位相反,時間相機重新定位估計相對于序列中每個視頻幀的姿態(tài)。即使已經(jīng)考慮了時間依賴性,當(dāng)前的時間重定位方法在準(zhǔn)確性方面仍然普遍不如最先進(jìn)的一次性方法。在這項工作中,我們改進(jìn)了時間重定位方法,使用一種網(wǎng)絡(luò)結(jié)構(gòu),結(jié)合卡爾曼濾波(KFNet)進(jìn)行在線攝像機重定位。特別地,KFNet將場景坐標(biāo)回歸問題擴展到時域,以便遞歸地建立用于姿態(tài)確定的2D和3D對應(yīng)。網(wǎng)絡(luò)架構(gòu)設(shè)計和損耗公式是基于貝葉斯學(xué)習(xí)環(huán)境中的卡爾曼濾波。在多個重定位基準(zhǔn)上的大量實驗表明,KFNet的高精度在一次性重定位和時態(tài)重定位方法中均處于領(lǐng)先地位。45、Dense-Scene-Matching標(biāo)題:Learning Camera Localization via Dense Scene Matching作者:Shitao Tang, Chengzhou Tang, Rui Huang, Siyu Zhu, Ping Tan單位:西蒙·弗雷澤大學(xué)、阿里巴巴人工智能實驗室來源:2021 CVPR原文鏈接:https://arxiv.org/abs/2103.16792代碼鏈接:https://github.com/Tangshitao/Dense-Scene-Matching摘要:攝像機定位旨在從RGB圖像中估計6自由度攝像機姿態(tài)。傳統(tǒng)方法檢測和匹配查詢圖像和預(yù)先構(gòu)建的3D模型之間的興趣點。最近基于學(xué)習(xí)的方法將場景結(jié)構(gòu)編碼到特定的卷積神經(jīng)網(wǎng)絡(luò)(CNN)中,因此能夠從RGB圖像中預(yù)測密集坐標(biāo)。然而,由于網(wǎng)絡(luò)容量有限,它們中的大多數(shù)需要重新訓(xùn)練或重新適應(yīng)新的場景,并且難以處理大規(guī)模場景。我們提出了一種使用密集場景匹配(DSM)的場景不可知攝像機定位的新方法,其中在查詢圖像和場景之間構(gòu)建了代價體積。成本體積和相應(yīng)的坐標(biāo)由CNN處理以預(yù)測密集坐標(biāo)。相機姿態(tài)可以通過PnP算法求解。此外,我們的方法可以擴展到時間域,這導(dǎo)致在測試期間額外的性能提升。在7scenes和Cambridge benchmark上,我們的場景無關(guān)方法獲得了與現(xiàn)有場景相關(guān)方法(如KFNet)相當(dāng)?shù)臏?zhǔn)確性。這種方法也明顯優(yōu)于最先進(jìn)的場景不可知的密集坐標(biāo)回歸網(wǎng)絡(luò)SANet。二、描述子提取描述子提取其實也是定位問題,主要是用于在圖像中進(jìn)行信息檢索和匹配。傳統(tǒng)手工描述子的問題同樣在于對光照和視角變化不魯棒,集中于學(xué)習(xí)用于關(guān)鍵點檢測的可重復(fù)顯著圖和在檢測到的關(guān)鍵點位置學(xué)習(xí)描述子,可以在很大程度上提高魯棒性。46、Hierarchical_Loc標(biāo)題:Leveraging Deep Visual Descriptors for Hierarchical Efficient Localization作者:Paul-Edouard Sarlin, Frédéric Debraine, Marcin Dymczyk, Roland Siegwart, Cesar Cadena單位:蘇黎世聯(lián)邦理工學(xué)院自主系統(tǒng)實驗室來源:2018 CoRL原文鏈接:https://arxiv.org/abs/1809.01019代碼鏈接:https://github.com/ethz-asl/hierarchical_loc摘要:許多機器人應(yīng)用需要精確的姿態(tài)估計,盡管在大的和變化的環(huán)境中操作。這可以通過視覺定位來解決,使用預(yù)先計算的周圍環(huán)境的3D模型。然后,姿態(tài)估計相當(dāng)于使用局部描述符來尋找查詢圖像中的2D關(guān)鍵點和模型中的3D點之間的對應(yīng)關(guān)系。然而,機器人平臺的計算能力通常有限,這使得這項任務(wù)在大規(guī)模環(huán)境中具有挑戰(zhàn)性。二進(jìn)制特征描述符顯著加速了這種2D-3D匹配,并且已經(jīng)在機器人社區(qū)中變得流行,但是也嚴(yán)重削弱了對感知混疊以及視點、照明和場景結(jié)構(gòu)的變化的魯棒性。在這項工作中,我們建議利用深度學(xué)習(xí)的最新進(jìn)展來執(zhí)行有效的分層定位。我們首先使用學(xué)習(xí)到的圖像范圍的全局描述符在地圖級別進(jìn)行定位,然后根據(jù)僅在候選位置計算的2D-3D匹配來估計精確的姿態(tài)。這限制了定位搜索,從而允許有效地利用通常在資源受限的設(shè)備上被忽略的強大的非二進(jìn)制描述符。我們的方法在流行的移動平臺上實時運行的同時,帶來了最先進(jìn)的定位性能,為機器人研究開辟了新的前景。47、Neighbourhood Consensus Networks標(biāo)題:Neighbourhood Consensus Networks作者:Ignacio Rocco, Mircea Cimpoi, Relja Arandjelovi?, Akihiko Torii, Tomas Pajdla, Josef Sivic單位:東京工業(yè)大學(xué)來源:2018 NeurIPS原文鏈接:https://arxiv.org/abs/1810.10510代碼鏈接:https://github.com/ignacio-rocco/ncnet摘要:我們解決了在一對圖像之間尋找可靠的密集對應(yīng)的問題。這是一項具有挑戰(zhàn)性的任務(wù),因為相應(yīng)的場景元素之間存在明顯的外觀差異,并且重復(fù)模式會產(chǎn)生歧義。這項工作的貢獻(xiàn)有三個方面。首先,受使用半局部約束消除特征匹配歧義的經(jīng)典思想的啟發(fā),我們開發(fā)了端到端可訓(xùn)練卷積神經(jīng)網(wǎng)絡(luò)架構(gòu),該架構(gòu)通過分析一對圖像之間所有可能對應(yīng)的4D空間中的鄰域一致性模式來識別空間一致匹配的集合,而不需要全局幾何模型。其次,我們證明了該模型可以在弱監(jiān)督下以匹配和非匹配圖像對的形式被有效地訓(xùn)練,而不需要昂貴的點對點對應(yīng)的手動注釋。第三,我們展示了所提出的鄰域一致性網(wǎng)絡(luò)可以應(yīng)用于一系列匹配任務(wù),包括類別級和實例級匹配,在PF Pascal數(shù)據(jù)集和InLoc室內(nèi)視覺定位基準(zhǔn)上獲得了最先進(jìn)的結(jié)果。48、R2D2標(biāo)題:R2D2: Repeatable and Reliable Detector and Descriptor作者:Jerome Revaud, Philippe Weinzaepfel, César De Souza, Noe Pion, Gabriela Csurka, Yohann Cabon, Martin Humenberger單位:NAVER LABS Europe來源:2019 arXiv原文鏈接:https://arxiv.org/abs/1906.06195代碼鏈接:https://github.com/naver/kapture摘要:興趣點檢測和局部特征描述是許多計算機視覺應(yīng)用中的基本步驟。這些任務(wù)的經(jīng)典方法是基于檢測然后描述的范例,其中使用單獨的手工方法首先識別可重復(fù)的關(guān)鍵點,然后用局部描述符來表示它們。用度量學(xué)習(xí)損失訓(xùn)練的神經(jīng)網(wǎng)絡(luò)最近趕上了這些技術(shù),集中于學(xué)習(xí)用于關(guān)鍵點檢測的可重復(fù)顯著圖和在檢測到的關(guān)鍵點位置學(xué)習(xí)描述符。在這項工作中,我們認(rèn)為顯著區(qū)域不一定是有區(qū)別的,因此會損害描述的性能。此外,我們認(rèn)為,描述符應(yīng)該只在能夠以高置信度執(zhí)行匹配的區(qū)域中學(xué)習(xí)。因此,我們建議聯(lián)合學(xué)習(xí)關(guān)鍵點檢測和描述以及局部描述符區(qū)分度的預(yù)測器。這使我們能夠避免模糊的區(qū)域,并導(dǎo)致可靠的關(guān)鍵點檢測和描述。我們的檢測和描述方法經(jīng)過自我監(jiān)督訓(xùn)練,可以同時輸出稀疏、可重復(fù)和可靠的關(guān)鍵點,在HPatches數(shù)據(jù)集上優(yōu)于最先進(jìn)的檢測器和描述符。它還在最近發(fā)布的亞琛日夜定位數(shù)據(jù)集上創(chuàng)造了一項記錄。49、ASLFeat標(biāo)題:ASLFeat: Learning Local Features of Accurate Shape and Localization作者:Zixin Luo, Lei Zhou, Xuyang Bai, Hongkai Chen, Jiahui Zhang, Yao Yao, Shiwei Li, Tian Fang, Long Quan單位:香港科技大學(xué)、清華大學(xué)、珠峰創(chuàng)新科技來源:2020 CVPR原文鏈接:https://arxiv.org/abs/2003.10071代碼鏈接:https://github.com/lzx551402/ASLFeat摘要:這項工作的重點是減輕局部特征檢測器和描述符的聯(lián)合學(xué)習(xí)的兩個限制。第一,估計局部形狀(比例、方向等)的能力在密集特征提取過程中經(jīng)常被忽略,而形狀感知對于獲得更強的幾何不變性至關(guān)重要。第二,檢測到的關(guān)鍵點的定位精度不足以可靠地恢復(fù)相機幾何形狀,這已經(jīng)成為諸如3D重建等任務(wù)中的瓶頸。在本文中,我們提出了一個難題,通過三個輕量級但有效的修改來緩解上述問題。首先,我們求助于可變形卷積網(wǎng)絡(luò)來密集地估計和應(yīng)用局部變換。其次,我們利用固有的特征層次來恢復(fù)空間分辨率和低層細(xì)節(jié),以實現(xiàn)精確的關(guān)鍵點定位。最后,我們使用峰值測量來關(guān)聯(lián)特征響應(yīng),并得出更具指示性的檢測分?jǐn)?shù)。每項修改的效果都經(jīng)過了徹底的研究,并且在各種實際場景中進(jìn)行了廣泛的評估。最新的結(jié)果表明了我們方法的優(yōu)越性。50、NGRANSAC標(biāo)題:Neural-Guided RANSAC: Learning Where to Sample Model Hypotheses作者:Eric Brachmann, Carsten Rother單位:海德堡大學(xué)來源:2019 ICCV原文鏈接:https://arxiv.org/abs/1905.04132代碼鏈接:https://github.com/vislearn/ngransac摘要:我們提出了神經(jīng)引導(dǎo)的RANSAC (NG-RANSAC ),它是經(jīng)典RANSAC算法的一個擴展。NG-RANSAC使用先驗信息來改進(jìn)模型假設(shè)搜索,增加找到無離群點最小集的機會。以前的工作使用啟發(fā)式邊信息,如手工制作的描述符距離來指導(dǎo)假設(shè)搜索。相比之下,我們以有原則的方式學(xué)習(xí)假設(shè)搜索,這讓我們在訓(xùn)練期間優(yōu)化任意的任務(wù)損失,導(dǎo)致經(jīng)典計算機視覺任務(wù)的巨大改進(jìn)。我們提出了NG-RANSAC的兩個進(jìn)一步的擴展。首先,使用內(nèi)部計數(shù)本身作為訓(xùn)練信號允許我們以自我監(jiān)督的方式訓(xùn)練神經(jīng)引導(dǎo)。其次,我們將神經(jīng)引導(dǎo)與可微RANSAC相結(jié)合來構(gòu)建神經(jīng)網(wǎng)絡(luò),該網(wǎng)絡(luò)集中于輸入數(shù)據(jù)的某些部分,并使輸出預(yù)測盡可能好。我們在一系列計算機視覺任務(wù)上評估了NG-RANSAC,即極線幾何估計、水平線估計和相機重新定位。與最先進(jìn)的穩(wěn)健估計器(包括最近學(xué)習(xí)的估計器)相比,我們獲得了更好或更具競爭力的結(jié)果。51、Image-Matching-Benchmark標(biāo)題:Learning to Find Good Correspondences作者:Kwang Moo Yi, Eduard Trulls, Yuki Ono, Vincent Lepetit, Mathieu Salzmann, Pascal Fua單位:維多利亞大學(xué)視覺計算組、洛桑聯(lián)邦理工學(xué)院計算機視覺實驗室來源:2018 CVPR oral原文鏈接:https://arxiv.org/abs/1711.05971代碼鏈接:https://github.com/ubc-vision/image-matching-benchmark摘要:我們開發(fā)了一個深度架構(gòu)來學(xué)習(xí)尋找寬基線雙目的良好對應(yīng)。給定一組假定的稀疏匹配和相機固有特性,我們以端到端的方式訓(xùn)練我們的網(wǎng)絡(luò),以將對應(yīng)標(biāo)記為內(nèi)點或外點,同時使用它們來恢復(fù)由本質(zhì)矩陣編碼的相對姿態(tài)。我們的架構(gòu)是基于一個多層感知器在像素坐標(biāo)上操作,而不是直接在圖像上操作,因此簡單而小巧。我們引入了一種新的歸一化技術(shù),稱為上下文歸一化,它允許我們在向每個數(shù)據(jù)點注入全局信息的同時單獨處理每個數(shù)據(jù)點,并且還使網(wǎng)絡(luò)對于對應(yīng)關(guān)系的順序不變。我們在多個具有挑戰(zhàn)性的數(shù)據(jù)集上的實驗表明,我們的方法能夠在很少的訓(xùn)練數(shù)據(jù)的情況下大幅提高技術(shù)水平。52、Log-Polar-Descriptors標(biāo)題:Beyond Cartesian Representations for Local Descriptors作者:Patrick Ebel, Anastasiia Mishchuk, Kwang Moo Yi, Pascal Fua, Eduard Trulls單位:洛桑聯(lián)邦理工學(xué)院計算機視覺實驗室、維多利亞大學(xué)視覺計算小組、谷歌瑞士來源:2019 ICCV原文鏈接:https://arxiv.org/abs/1908.05547代碼鏈接:https://github.com/cvlab-epfl/log-polar-descriptors摘要:用于學(xué)習(xí)局部面片描述符的主要方法依賴于小圖像區(qū)域,其尺度必須由關(guān)鍵點檢測器先驗地正確估計。換句話說,如果兩個補片不一致,它們的描述符就不匹配。經(jīng)常用來緩解這個問題的策略是在對數(shù)極坐標(biāo)區(qū)域上“匯集”像素特征,而不是規(guī)則間隔的區(qū)域。相比之下,我們建議用對數(shù)極坐標(biāo)采樣方案直接提取“支持區(qū)域”。我們表明,通過同時對該點的鄰近區(qū)域進(jìn)行過采樣和對遠(yuǎn)離該點的區(qū)域進(jìn)行欠采樣,這為我們提供了更好的表示。我們證明了這種表示特別適合于學(xué)習(xí)具有深度網(wǎng)絡(luò)的描述符。與以前相比,我們的模型可以在更廣的范圍內(nèi)匹配描述符,還可以利用更大的支持區(qū)域,而不會受到遮擋的影響。我們在三個不同的數(shù)據(jù)集上報告了最新的結(jié)果。53、LF-Net標(biāo)題:LF-Net: Learning Local Features from Images作者:Yuki Ono, Eduard Trulls, Pascal Fua, Kwang Moo Yi單位:索尼來源:2018 NIPS原文鏈接:https://arxiv.org/abs/1805.09662代碼鏈接:https://github.com/vcg-uvic/lf-net-release摘要:我們提出了一種新穎的深度架構(gòu)和訓(xùn)練策略,使用圖像集合從零開始學(xué)習(xí)局部特征管道,而不需要人工監(jiān)督。為此,我們利用深度和相對相機姿態(tài)線索來創(chuàng)建網(wǎng)絡(luò)應(yīng)該在一幅圖像上實現(xiàn)的虛擬目標(biāo),為另一幅圖像提供網(wǎng)絡(luò)的輸出。雖然這個過程本質(zhì)上是不可微的,但我們證明了我們可以通過將網(wǎng)絡(luò)限制在一個分支來優(yōu)化兩個分支的設(shè)置,同時保持另一個分支的可微性。我們在室內(nèi)和室外數(shù)據(jù)集上訓(xùn)練我們的方法,前者使用來自3D傳感器的深度數(shù)據(jù),后者使用來自現(xiàn)成的運動結(jié)構(gòu)解決方案的深度估計。我們的模型在兩個數(shù)據(jù)集上的稀疏特征匹配方面都優(yōu)于最先進(jìn)的技術(shù),同時對于QVGA圖像以60+ fps運行。54、LCD標(biāo)題:LCD: Learned Cross-Domain Descriptors for 2D-3D Matching作者:Quang-Hieu Pham, Mikaela Angelina Uy, Binh-Son Hua, Duc Thanh Nguyen, Gemma Roig, Sai-Kit Yeung單位:新加坡技術(shù)與設(shè)計大學(xué)、斯坦福大學(xué)、東京大學(xué)來源:2020 AAAI Oral原文鏈接:https://arxiv.org/abs/1911.09326代碼鏈接:https://github.com/hkust-vgd/lcd摘要:在這項工作中,我們提出了一種新的方法來學(xué)習(xí)局部跨領(lǐng)域的2D圖像和三維點云匹配描述符。我們提出的方法是一種雙自動編碼器神經(jīng)網(wǎng)絡(luò),它將2D和3D輸入映射到一個共享的潛在空間表示中。我們表明,共享嵌入中的這種局部跨域描述符比那些從2D和3D域中的單獨訓(xùn)練中獲得的描述符更具區(qū)分性。為了促進(jìn)訓(xùn)練過程,我們通過從公開可用的RGB-D場景中收集大約140萬個具有各種照明條件和設(shè)置的2D-3D對應(yīng)來建立新的數(shù)據(jù)集。我們的描述符在三個主要實驗中進(jìn)行評估:2D-3D匹配、跨域檢索和稀疏到密集深度估計。實驗結(jié)果證實了我們的方法的魯棒性以及它的競爭性能,不僅在解決跨領(lǐng)域的任務(wù),而且能夠推廣到解決單獨的2D和3D任務(wù)。55、PointNetVLAD標(biāo)題:PointNetVLAD: Deep Point Cloud Based Retrieval for Large-Scale Place Recognition作者:Mikaela Angelina Uy, Gim Hee Lee單位:新加坡國立大學(xué)來源:2018 CVPR原文鏈接:https://arxiv.org/abs/1804.03492代碼鏈接:https://github.com/mikacuy/pointnetvlad摘要:與基于圖像的檢索不同,基于點云的檢索仍然是一個未被探索和解決的問題。這很大程度上是由于從點云中提取局部特征描述符的困難,這些局部特征描述符隨后可以被編碼成用于檢索任務(wù)的全局描述符。在本文中,我們提出了PointNetVLAD,其中我們利用深度網(wǎng)絡(luò)最近的成功來解決用于地點識別的基于點云的檢索。具體來說,我們的PointNetVLAD是現(xiàn)有PointNet和NetVLAD的組合/修改,它允許端到端的訓(xùn)練和推理,以從給定的3D點云中提取全局描述符。此外,我們提出了“惰性三元組和四元組”損失函數(shù),可以實現(xiàn)更具區(qū)分性和可推廣性的全局描述符來處理檢索任務(wù)。我們?yōu)榛邳c云檢索的地點識別創(chuàng)建了基準(zhǔn)數(shù)據(jù)集,在這些數(shù)據(jù)集上的實驗結(jié)果表明了我們的PointNetVLAD的可行性。56、PCAN標(biāo)題:PCAN: 3D Attention Map Learning Using Contextual Information for Point Cloud Based Retrieval作者:Wenxiao Zhang, Chunxia Xiao單位:武漢大學(xué)來源:2019 CVPR原文鏈接:https://arxiv.org/abs/1904.09793代碼鏈接:https://github.com/XLechter/PCAN摘要:基于點云檢索的地點識別是視覺領(lǐng)域的一個新興問題。主要的挑戰(zhàn)是如何找到一種有效的方法將局部特征編碼成一個有區(qū)別的全局描述符。本文提出了一種點上下文注意網(wǎng)絡(luò)(PCN ),它可以基于點上下文預(yù)測每個局部點特征的重要性。我們的網(wǎng)絡(luò)使得在聚集本地特征時能夠更加關(guān)注與任務(wù)相關(guān)的特征。在各種基準(zhǔn)數(shù)據(jù)集上的實驗表明,所提出的網(wǎng)絡(luò)可以提供比當(dāng)前最先進(jìn)的方法更好的性能。57、D3Feat標(biāo)題:D3Feat: Joint Learning of Dense Detection and Description of 3D Local Features作者:Xuyang Bai, Zixin Luo, Lei Zhou, Hongbo Fu, Long Quan, Chiew-Lan Tai單位:香港科技大學(xué)、香港城市大學(xué)來源:2020 CVPR原文鏈接:https://arxiv.org/abs/2003.03164代碼鏈接:https://github.com/XuyangBai/D3Feat摘要:成功的點云配準(zhǔn)通常依賴于通過區(qū)別性3D局部特征穩(wěn)健地建立稀疏匹配。盡管基于學(xué)習(xí)的3D特征描述符發(fā)展很快,但是很少關(guān)注3D特征檢測器的學(xué)習(xí),更少關(guān)注兩個任務(wù)的聯(lián)合學(xué)習(xí)。在本文中,我們利用3D點云的3D完全卷積網(wǎng)絡(luò),并提出了一種新穎實用的學(xué)習(xí)機制,該機制密集地預(yù)測每個3D點的檢測分?jǐn)?shù)和描述特征。特別地,我們提出了一種關(guān)鍵點選擇策略,該策略克服了三維點云的固有密度變化,并進(jìn)一步提出了一種在訓(xùn)練期間由動態(tài)特征匹配結(jié)果指導(dǎo)的自監(jiān)督檢測器損失。最后,通過在3DMatch和KITTI數(shù)據(jù)集上的測試,我們的方法在室內(nèi)和室外場景上都取得了很好的效果,并且在ETH數(shù)據(jù)集上表現(xiàn)出了很強的泛化能力。對于實際應(yīng)用,我們表明,通過采用可靠的特征檢測器,采樣較少數(shù)量的特征就足以實現(xiàn)精確和快速的點云對齊。三、 優(yōu)化SLAM估計在長期運行過程中會受到累積誤差漂移的影響。為了解決這個問題,傳統(tǒng)SLAM算法構(gòu)建位姿圖,將相機姿勢或場景特征表示為圖節(jié)點,這些節(jié)點通過邊(由傳感器測量)連接以約束姿勢。這種基于圖的公式可以進(jìn)行優(yōu)化,以確保圖節(jié)點和邊緣的全局一致性。在深度學(xué)習(xí)時代,深度神經(jīng)網(wǎng)絡(luò)擅長提取特征,構(gòu)建從觀察到姿勢和場景表示的函數(shù)。但與經(jīng)典SLAM中各種經(jīng)過充分研究的解決方案相比,全局優(yōu)化深度預(yù)測的探索不足。58、BA-Net標(biāo)題:BA-Net: Dense Bundle Adjustment Network作者:Chengzhou Tang, Ping Tan單位:西蒙·弗雷澤大學(xué)來源:2019 ICLR原文鏈接:https://arxiv.org/abs/1806.04807代碼鏈接:https://github.com/frobelbest/BANet摘要:介紹了一種通過特征度量束平差(BA)解決運動結(jié)構(gòu)(SfM)問題的網(wǎng)絡(luò)體系結(jié)構(gòu),該網(wǎng)絡(luò)體系結(jié)構(gòu)以特征度量誤差的形式明確地實施多視圖幾何約束。整個流水線是可微分的,因此網(wǎng)絡(luò)可以學(xué)習(xí)使BA問題更易處理的適當(dāng)特征。此外,這項工作介紹了一種新的深度參數(shù)化恢復(fù)密集的每像素深度。該網(wǎng)絡(luò)首先根據(jù)輸入圖像生成幾個基本深度圖,并通過特征度量BA將最終深度優(yōu)化為這些基本深度圖的線性組合?;A(chǔ)深度圖生成器也是通過端到端訓(xùn)練來學(xué)習(xí)的。整個系統(tǒng)很好地結(jié)合了領(lǐng)域知識(即硬編碼的多視圖幾何約束)和深度學(xué)習(xí)(即特征學(xué)習(xí)和基礎(chǔ)深度圖學(xué)習(xí)),以解決具有挑戰(zhàn)性的密集SfM問題。大規(guī)模真實數(shù)據(jù)上的實驗證明了該方法的有效性。59、DCP標(biāo)題:Deep Closest Point: Learning Representations for Point Cloud Registration作者:Yue Wang, Justin M. Solomon單位:麻省理工學(xué)院來源:2019 ICCV原文鏈接:https://arxiv.org/abs/1905.03304代碼鏈接:https://github.com/WangYueFt/dcp摘要:點云配準(zhǔn)是計算機視覺應(yīng)用于機器人、醫(yī)學(xué)成像等領(lǐng)域的一個關(guān)鍵問題。這個問題涉及到從一個點云到另一個點云的剛性轉(zhuǎn)換,以便它們對齊。迭代最近點(ICP)及其變體為此任務(wù)提供了簡單且易于實現(xiàn)的迭代方法,但是這些算法可能收斂到虛假的局部最優(yōu)。為了解決ICP流水線中的局部最優(yōu)和其他困難,我們受計算機視覺和自然語言處理中的最新技術(shù)的啟發(fā),提出了一種基于學(xué)習(xí)的方法,名為深度最近點(DCP)。我們的模型由三部分組成:一個點云嵌入網(wǎng)絡(luò),一個與指針生成層相結(jié)合的基于注意力的模塊,用于近似組合匹配,以及一個可微奇異值分解(SVD)層,用于提取最終的剛性變換。我們在ModelNet40數(shù)據(jù)集上端到端地訓(xùn)練我們的模型,并在幾個設(shè)置中顯示它比ICP、其變體(例如,Go-ICP、FGR)和最近提出的基于學(xué)習(xí)的方法PointNetLK執(zhí)行得更好。除了提供最先進(jìn)的注冊技術(shù),我們還評估了我們學(xué)習(xí)的特征轉(zhuǎn)移到看不見的物體的適用性。我們還提供了我們的學(xué)習(xí)模型的初步分析,以幫助理解特定領(lǐng)域和/或全局特征是否有助于剛性注冊。60、DeepTAM標(biāo)題:DeepTAM: Deep Tracking and Mapping with Convolutional Neural Networks作者:Huizhong Zhou; Benjamin Ummenhofer; Thomas Brox單位:弗賴堡大學(xué)來源:2020 IJCV原文鏈接:https://lmb.informatik.uni-freiburg.de/Publications/2019/ZUB19a/代碼鏈接:https://github.com/lmb-freiburg/deeptam摘要:我們提出了一個基于密集關(guān)鍵幀的攝像機跟蹤和深度圖估計的系統(tǒng),它是完全學(xué)習(xí)的。對于跟蹤,我們估計當(dāng)前相機圖像和合成視點之間的小姿態(tài)增量。這個公式大大簡化了學(xué)習(xí)問題,并減輕了相機運動的數(shù)據(jù)集偏差。此外,我們表明,產(chǎn)生大量的姿態(tài)假設(shè)導(dǎo)致更準(zhǔn)確的預(yù)測。對于制圖,我們在以當(dāng)前深度估計為中心的成本體積中積累信息。然后,映射網(wǎng)絡(luò)結(jié)合成本體和關(guān)鍵幀圖像來更新深度預(yù)測,從而有效地利用深度測量和基于圖像的先驗。我們的方法用很少的圖像產(chǎn)生最先進(jìn)的結(jié)果,并且對于有噪聲的相機姿態(tài)是魯棒的。我們證明了我們的6自由度跟蹤的性能與RGB-D跟蹤算法相競爭。我們優(yōu)于強經(jīng)典和深度學(xué)習(xí)驅(qū)動的密集深度算法。四、 總結(jié)到這里,SLAM綜述論文“A Survey on Deep Learning for Localization and Mapping: Towards the Age of Spatial Machine Intelligence”中的開源方案就整理結(jié)束了,60項開源項目基本都是頂會頂刊。由于SLAM領(lǐng)域下沉速度非???,因此筆者并沒有總結(jié)2017年以前的方案。同時,也沒有整理單目深度估計方向的方案(SC-Depth是因為它設(shè)計了偽RGBD),原因主要是單目深度估計本身就是一個非常龐大的課題,與SLAM的關(guān)系又是那么的若即若離。其實看完這些開源方案,感覺深度學(xué)習(xí)在SLAM的各個領(lǐng)域都已經(jīng)有很大進(jìn)展了。但每種方案又有其各自的應(yīng)用場景和限制,因此讀者需要根據(jù)自己的實際應(yīng)用場景,有針對的選擇、復(fù)現(xiàn)、優(yōu)化開源方案。

本文僅做學(xué)術(shù)分享,如有侵權(quán),請聯(lián)系刪文。

點擊進(jìn)入—>3D視覺工坊學(xué)習(xí)交流群


(資料圖片)

干貨下載與學(xué)習(xí)

后臺回復(fù):巴塞羅那自治大學(xué)課件,即可下載國外大學(xué)沉淀數(shù)年3D Vison精品課件

后臺回復(fù):計算機視覺書籍,即可下載3D視覺領(lǐng)域經(jīng)典書籍pdf

后臺回復(fù):3D視覺課程,即可學(xué)習(xí)3D視覺領(lǐng)域精品課程

3D視覺工坊精品課程官網(wǎng):3dcver.com

1.面向自動駕駛領(lǐng)域的3D點云目標(biāo)檢測全棧學(xué)習(xí)路線!(單模態(tài)+多模態(tài)/數(shù)據(jù)+代碼)2.徹底搞透視覺三維重建:原理剖析、代碼講解、及優(yōu)化改進(jìn)3.國內(nèi)首個面向工業(yè)級實戰(zhàn)的點云處理課程4.激光-視覺-IMU-GPS融合SLAM算法梳理和代碼講解5.徹底搞懂視覺-慣性SLAM:基于VINS-Fusion正式開課啦6.徹底搞懂基于LOAM框架的3D激光SLAM: 源碼剖析到算法優(yōu)化7.徹底剖析室內(nèi)、室外激光SLAM關(guān)鍵算法原理、代碼和實戰(zhàn)(cartographer+LOAM +LIO-SAM)

8.從零搭建一套結(jié)構(gòu)光3D重建系統(tǒng)[理論+源碼+實踐]

9.單目深度估計方法:算法梳理與代碼實現(xiàn)10.自動駕駛中的深度學(xué)習(xí)模型部署實戰(zhàn)11.相機模型與標(biāo)定(單目+雙目+魚眼)12.重磅!四旋翼飛行器:算法與實戰(zhàn)13.ROS2從入門到精通:理論與實戰(zhàn)14.國內(nèi)首個3D缺陷檢測教程:理論、源碼與實戰(zhàn)15.基于Open3D的點云處理入門與實戰(zhàn)教程16.透徹理解視覺ORB-SLAM3:理論基礎(chǔ)+代碼解析+算法改進(jìn)

重磅!粉絲學(xué)習(xí)交流群已成立

交流群主要有3D視覺、CV&深度學(xué)習(xí)、SLAM、三維重建、點云后處理、自動駕駛、多傳感器融合、CV入門、三維測量、VR/AR、3D人臉識別、醫(yī)療影像、缺陷檢測、行人重識別、目標(biāo)跟蹤、視覺產(chǎn)品落地、視覺競賽、車牌識別、硬件選型、ORB-SLAM系列源碼交流、深度估計、TOF、求職交流等方向。掃描以下二維碼,添加小助理微信(dddvisiona),一定要備注:研究方向+學(xué)校/公司+昵稱,例如:”3D視覺+ 上海交大 + 靜靜“。請按照格式備注,可快速被通過且邀請進(jìn)群。原創(chuàng)投稿也請聯(lián)系。▲長按加微信群或投稿,微信號:dddvisiona

3D視覺從入門到精通知識星球:針對3D視覺領(lǐng)域的視頻課程(三維重建系列、三維點云系列、結(jié)構(gòu)光系列、手眼標(biāo)定、相機標(biāo)定、激光/視覺SLAM、自動駕駛等)、源碼分享、知識點匯總、入門進(jìn)階學(xué)習(xí)路線、最新paper分享、疑問解答等進(jìn)行深耕,更有各類大廠的算法工程人員進(jìn)行技術(shù)指導(dǎo)。與此同時,星球?qū)⒙?lián)合知名企業(yè)發(fā)布3D視覺相關(guān)算法開發(fā)崗位以及項目對接信息,打造成集技術(shù)與就業(yè)為一體的鐵桿粉絲聚集區(qū),6000+星球成員為創(chuàng)造更好的AI世界共同進(jìn)步,知識星球入口:

學(xué)習(xí)3D視覺核心技術(shù),掃描查看,3天內(nèi)無條件退款高質(zhì)量教程資料、答疑解惑、助你高效解決問題覺得有用,麻煩給個贊和在看~

關(guān)鍵詞: 最先進(jìn)的 神經(jīng)網(wǎng)絡(luò) 計算機視覺

相關(guān)閱讀