近日,英偉達與多倫多大學、向量研究所及德克薩斯大學奧斯汀分校的研究團隊聯(lián)合發(fā)布了一項名為 **ViPE(視頻姿勢引擎)**的突破性技術。ViPE 旨在解決3D幾何感知領域的關鍵挑戰(zhàn),即如何從復雜的自然視頻中高效且精準地提取3D信息。
技術核心與應用
3D幾何感知是自動駕駛、虛擬現(xiàn)實(VR)和增強現(xiàn)實(AR)等多種現(xiàn)代技術的核心。ViPE 創(chuàng)新性地從原始視頻中快速獲取相機的固有特性、運動信息以及高精度的深度圖,為這些空間AI系統(tǒng)提供了可靠的數(shù)據(jù)基礎。
ViPE 具有強大的適應性,能夠處理各種場景和相機類型,包括動態(tài)自拍視頻、電影鏡頭、行車記錄儀以及針孔、廣角和360°全景相機模型。
工作原理與性能
研究團隊采用了一種多重約束的混合方法來確保 ViPE 的高精度:
束調整:在關鍵幀上進行密集束調整,以估算相機參數(shù)、姿態(tài)和深度圖。
密集流與稀疏點約束:引入 DROID-SLAM 網(wǎng)絡的密集流約束和 cuvslam 庫的稀疏點約束,確保穩(wěn)健性和亞像素精度。
深度正則化:利用單目度量深度網(wǎng)絡,解決尺度模糊性和一致性問題,生成高分辨率且時間一致的深度信息。
測試結果顯示,ViPE 在多個基準測試中的表現(xiàn)均優(yōu)于現(xiàn)有技術(如 MegaSAM、VGGT 和 MASt3R-SLAM)。它不僅在姿態(tài)和內(nèi)在函數(shù)精度方面表現(xiàn)出色,還能在單個GPU上以每秒3到5幀的速度穩(wěn)定運行,并成功生成了尺度一致的軌跡。
為推動空間AI領域的進一步研究,該團隊還發(fā)布了一個包含約9600萬幀標注數(shù)據(jù)的大規(guī)模數(shù)據(jù)集,為未來的技術探索提供了寶貴資源。ViPE的發(fā)布不僅標志著3D幾何感知技術的一次重要進步,也為未來的空間AI應用奠定了堅實的基礎。


產(chǎn)品與服務
聯(lián)系站長
關于我們