英偉達一出手,3D建模師都饞哭瞭。

現在,制作一個紋理超細致的大衛3D模型,需要幾步?

剛剛靠著AI,市值一度飚破萬億美元的英偉達給出最新答案:

給AI投喂一段普通視頻,它就能自動搞定。

不僅雕塑的每一個褶皺都能拿捏住,更為復雜的建築場景3D重建,同樣靠一個視頻就能解決:

連深度都能直接估算出來。

這個新AI名叫Neuralangelo,來自英偉達研究院和約翰霍普金斯大學。

論文剛一發表就吸引瞭全場網友的目光,讓人直呼:這是直接創造新世界的節奏。

甚至再一次拉動瞭顯卡銷量【狗頭】:

目前,相關論文已經入選CVPR 2023。更多技術細節,我們一起接著往下看~

無需深度數據,直出3D結構

這篇論文采用的架構名叫Neuralangelo,一個聽起來有點像著名雕塑傢米開朗基羅(Michelangelo)的名字。

具體來說,Neuralangelo核心采用瞭兩個技術。

一個是基於SDF的神經渲染重建。

其中,SDF即符號距離函數(Signed Distance Function),它的本質就是將3D模型劃出一個表面,然後用數值表示每個點距離模型的實際距離,負數指點在表面內側,正數指點在表面外側:

圖源chriscummingshrg

基於SDF的神經渲染技術,則是采用神經網絡(如MLP)對SDF進行編碼,來對物體表面進行一個近似還原。

另一個則是多分辨率哈希編碼,用於降低計算量。

多分辨率哈希編碼是一種特殊的編碼方式,能用很小的網絡降低計算量,同時確保生成的質量不降低。

其中,多分辨率哈希表的value,對應由隨機梯度下降優化得到特征向量。

操作流程上,則分為兩步。

首先,基於神經渲染重建方法,計算出視頻中3D結構的“粗糙表面”。

值得註意的是,這裡采用瞭數值梯度而不是解析梯度,這樣基於SDF生成算法做出來的3D模型表面更加平滑,不會出現凹凸不平的狀態:

論文還額外對比瞭一下解析梯度和數值梯度的狀態,從圖中來看,數值梯度整體上能取得更平滑的建築效果:

隨後,就是逐漸減小數值梯度的步長(step size)、采用分辨率更高的哈希表,一步一步提升模型的精細度,還原建築的細節:

最後再對生成的效果進行優化,就得到瞭還原出來的圖像。

包含MLP和哈希編碼在內,整個網絡采用端到端的方式進行訓練。

測試效果如何?

研究人員采用瞭DTU和Tanks and Temples兩個數據集對Neuralangelo進行測試。

DTU數據集包含128個場景,這篇論文具體采用瞭其中的15個場景,每個場景包含49~64張由機器人拍攝的RGB圖像。

隨後,還采用瞭Tanks and Temples中6個場景的263~1107張RGB相機拍攝圖像,真實數據則由LiDAR傳感器獲得。

Tanks and Temples包含中級和高級兩類數據集。

其中,中級數據集包含雕塑、大型車輛和住宅規模的建築;高級數據集則包含從內部成像的大型室內場景、以及具有復雜幾何佈局和相機軌跡的大型室外場景:

具體到生成細節上,Neuralangelo相比NeuS和NeuralWarp等“前SOTA”模型,在DTU數據集上展現出瞭非常準確的3D細節生成:

而在Tanks and Temples數據集上,Neuralangelo也同樣展現出瞭不錯的還原效果:

在F1-Score評估和圖像質量PSNR評估中,Neuralangelo基本上全部取得瞭最好的效果:

華人一作

這篇研究的作者來自英偉達和約翰霍普金斯大學(Johns Hopkins University)。

論文一作李趙碩(Zhaoshuo Li),本科畢業於不列顛哥倫比亞大學,目前是約翰霍普金斯大學的博士生,師從Mathias Unberath和Russell Taylor。

Russell Taylor是醫療機器人領域泰鬥,曾主持研發全球首臺骨科手術機器人ROBDOC。

而李趙碩本人,本科專業也是機器人工程,如今算是小小跨界,研究重點在圖像重建3D結構上。

Neuralangelo是李趙碩在英偉達實習期間的工作。此前,他還曾在Meta的Reality Labs實習(就是小紮All in 元宇宙的核心部門)。

點讚(0) 打賞

评论列表 共有 0 條評論

暫無評論

微信小程序

微信扫一扫體驗

立即
投稿

微信公眾賬號

微信扫一扫加關注

發表
評論
返回
頂部