要點(diǎn):
1. OVIR-3D是一個(gè)開放詞匯的3D實(shí)例檢索系統(tǒng),能夠在沒有對(duì)3D數(shù)據(jù)進(jìn)行訓(xùn)練的情況下,從RGB-D視頻和語言查詢中返回排名的3D實(shí)例段。
2. 該系統(tǒng)通過將問題視為從語言引導(dǎo)的2D區(qū)域提議進(jìn)行3D融合的問題,提供了一種直觀而有效的解決方案,避免了由于缺乏足夠種類的注釋3D數(shù)據(jù)而難以直接訓(xùn)練開放詞匯3D分割模型的問題。
3. OVIR-3D的流程包括下載倉(cāng)庫(kù)、安裝依賴、演示、數(shù)據(jù)集準(zhǔn)備、2D到3D融合和推理等步驟,具有廣泛的應(yīng)用前景,同時(shí)有相關(guān)研究作品OVSG。
站長(zhǎng)之家(ChinaZ.com)11月10日 消息:OVIR-3D是一個(gè)開放詞匯的3D實(shí)例檢索系統(tǒng),它以直觀而有效的方式解決了在沒有對(duì)3D數(shù)據(jù)進(jìn)行訓(xùn)練的情況下獲取3D實(shí)例的問題。該系統(tǒng)通過語言引導(dǎo)的2D區(qū)域提議進(jìn)行3D融合,為機(jī)器人應(yīng)用(如操縱和導(dǎo)航)提供了解決方案。OVIR-3D的核心思想是直接訓(xùn)練開放詞匯的3D分割模型在實(shí)踐中變得困難,因此它從語言引導(dǎo)的2D區(qū)域提議出發(fā),通過在大量2D數(shù)據(jù)集上進(jìn)行訓(xùn)練,將2D實(shí)例信息在3D空間中投影和融合,以實(shí)現(xiàn)快速檢索。
項(xiàng)目地址:https://github.com/shiyoung77/ovir-3d
OVIR-3D的使用包括下載倉(cāng)庫(kù)、安裝依賴、演示、數(shù)據(jù)集準(zhǔn)備、2D到3D融合和推理等多個(gè)步驟。作者提供了詳細(xì)的使用說明,包括如何獲取倉(cāng)庫(kù)、安裝依賴以及演示過程。此外,系統(tǒng)支持自定義數(shù)據(jù)集的準(zhǔn)備,通過開源的實(shí)感相機(jī)和KinectFusion實(shí)現(xiàn),用戶能夠以指定格式錄制和重建自定義3D場(chǎng)景。
在OVIR-3D的背后,Detic作為2D區(qū)域提議網(wǎng)絡(luò)的骨干,通過查詢Imagenet21k的所有類別,生成置信度閾值為0.3的輸出蒙版和文本對(duì)齊特征。這一步驟的輸出被存儲(chǔ)在特定文件夾中,用戶可以選擇保存2D可視化,盡管這可能會(huì)降低推理速度。
對(duì)于2D到3D的融合,OVIR-3D提供了一種算法來處理多個(gè)3D場(chǎng)景的并行融合,但作者建議至少擁有11GB內(nèi)存的顯卡以避免在處理大場(chǎng)景時(shí)出現(xiàn)內(nèi)存問題。一旦融合完成,用戶可以通過instance_query.py腳本與系統(tǒng)進(jìn)行交互,檢索3D實(shí)例。
論文中提到OVIR-3D作為開放詞匯問題的一個(gè)解決方案,強(qiáng)調(diào)其評(píng)估方式采用信息檢索標(biāo)準(zhǔn)mAP,這是一種更合理的度量方式,盡管略有不同于通常用于封閉集實(shí)例分割的mAP度量。文章還提到了OVIR-3D的應(yīng)用前景,以及后續(xù)工作OVSG的介紹,該工作在OVIR-3D的基礎(chǔ)上構(gòu)建3D場(chǎng)景圖,實(shí)現(xiàn)更精準(zhǔn)的對(duì)象檢索。
(舉報(bào))