劃重點:
Wonder3D是一種從單張圖像生成高保真紋理網(wǎng)格的創(chuàng)新方法。
Wonder3D使用多視角跨領域注意力機制和幾何感知的法線融合算法來實現(xiàn)高質量的三維重建。
Wonder3D在動物對象上展示了高質量重建結果,并且具備魯棒的泛化性能和高效性。
正文:
將單張圖像重建為三維幾何結構一直是計算機圖形學和三維計算機視覺領域的基礎性任務。這個任務的重要性在于它在虛擬現(xiàn)實、視頻游戲、三維內容生成和機器人操作精度等領域都有廣泛應用。然而,由于缺乏直接的解決方案,這個任務非常困難,需要能夠推斷出可見和不可見物體的三維形狀的能力。
在一項研究中,作者提出了一種創(chuàng)新方法Wonder3D,用于從單張圖像高效生成高保真紋理網(wǎng)格。雖然最近的方法,特別是使用Score Distillation Sampling (SDS)的方法在從二維擴散先驗中恢復三維幾何時表現(xiàn)出了希望,但它們往往需要耗費大量時間進行逐形狀優(yōu)化,并且?guī)缀谓Y構不一致。相反,一些現(xiàn)有的技術直接通過快速網(wǎng)絡推理產(chǎn)生三維信息,但其結果通常質量低且缺乏重要的幾何細節(jié)。
Wonder3D的示意圖如上所示。給定單張圖像,Wonder3D通過將輸入圖像、CLIP模型產(chǎn)生的文本嵌入、多視角的相機參數(shù)和域切換器作為條件,生成一致的多視角法線圖和彩色圖像。隨后,Wonder3D采用一種創(chuàng)新的法線融合算法從二維表示中穩(wěn)健地重建高質量的三維幾何結構,生成高保真紋理網(wǎng)格。
為了保持生成過程的一致性,研究人員采用了多視角跨領域注意力機制,促進不同視角和模態(tài)之間的信息交換。此外,作者還引入了一種幾何感知的法線融合算法,從多視角二維表示中提取高質量表面。通過廣泛的評估,他們的方法在高質量重建結果、魯棒的泛化性能和相比之前的方法的提升效率方面取得了成果。
下圖展示了Wonder3D在各種動物對象上的定性結果。盡管Wonder3D在從單張圖像創(chuàng)建三維形狀方面表現(xiàn)出了希望,但它也存在一些局限性。其中一個局限性是它目前只能使用六個不同視角的對象。這使得重建非常薄或有隱藏部分的對象變得困難。此外,如果要使用更多視角,訓練過程中需要更多的計算機資源。為了克服這個問題,Wonder3D可以采用更高效的方法處理額外的視角。
在這里,我們可以看到 Wonder3D 在各種動物物體上的定性結果。盡管 Wonder3D 在從單個圖像創(chuàng)建3D 形狀方面顯示出前景,但它有一些局限性。一個限制是,它目前只適用于一個對象的六個不同視圖。這使得很難重建非常薄或具有隱藏部分的物體。此外,如果我們想使用更多視圖,在訓練期間需要更多的計算機能力。為了克服這個問題,Wonder3D可以使用更有效的方法來處理額外的視圖。
論文網(wǎng)址:https://arxiv.org/abs/2310.15008
項目網(wǎng)址:https://www.xxlong.site/Wonder3D/
(舉報)