OVIR-3D是一個開放詞匯的3D實例檢索系統,它以直觀而有效的方式解決了在沒有對3D數據進行訓練的情況下獲取3D實例的問題。該系統通過語言引導的2D區域提議進行3D融合,為機器人應用(如操縱和導航)提供了解決方案。OVIR-3D的核心思想是直接訓練開放詞匯的3D分割模型在實踐中變得困難,因此它從語言引導的2D區域提議出發,通過在大量2D數據集上進行訓練,將2D實例信息在3D空間中投影和融合,以實現快速檢索。
OVIR-3D的使用包括下載倉庫、安裝依賴、演示、數據集準備、2D到3D融合和推理等多個步驟。作者提供了詳細的使用說明,包括如何獲取倉庫、安裝依賴以及演示過程。此外,系統支持自定義數據集的準備,通過開源的實感相機和KinectFusion實現,用戶能夠以指定格式錄制和重建自定義3D場景。
在OVIR-3D的背后,Detic作為2D區域提議網絡的骨干,通過查詢Imagenet21k的所有類別,生成置信度閾值為0.3的輸出蒙版和文本對齊特征。這一步驟的輸出被存儲在特定文件夾中,用戶可以選擇保存2D可視化,盡管這可能會降低推理速度。
對于2D到3D的融合,OVIR-3D提供了一種算法來處理多個3D場景的并行融合,但作者建議至少擁有11GB內存的顯卡以避免在處理大場景時出現內存問題。一旦融合完成,用戶可以通過instance_query.py腳本與系統進行交互,檢索3D實例。
論文中提到OVIR-3D作為開放詞匯問題的一個解決方案,強調其評估方式采用信息檢索標準mAP,這是一種更合理的度量方式,盡管略有不同于通常用于封閉集實例分割的mAP度量。文章還提到了OVIR-3D的應用前景,以及后續工作OVSG的介紹,該工作在OVIR-3D的基礎上構建3D場景圖,實現更精準的對象檢索。


產品與服務
聯系站長
關于我們