隨大語言模型與生成式AI浪潮席卷全球,3D內容生成或將迎來自己的ChatGPT時刻。3D內容生成作為新興3D資產制作手段,為內容創作模式帶來了新的變革,極大促進了3D數字化內容生產的效率提升,引起業界的廣泛關注。本文探討了3D內容生成技術的主流方法及其應用領域,尤其在文生3D和圖生3D方面,業界已取得不少有代表性的進展。預計3D內容生成將在游戲、電影、通信等領域有廣泛的應用,推動數字內容生態的繁榮發展。
3D內容生成簡介
從最初的基于幾何建模的手工創作,到如今的海量數據驅動的AIGC 3D生成,3D內容創作的發展經歷了以下多個階段。
手工3D建模階段:從1960年代起,計算機3D圖形學的基礎理論逐漸確立,研究人員提出了如多邊形網格、樣條曲線和NURBS曲面等各種建模技術,并開始利用光柵化和光線追蹤算法生成更加逼真的圖像。初期3D內容的生成依賴于專業人員使用建模軟件進行手動創建,早期的3D建模方法和工具較為原始,3D模型的創建主要依靠藝術家和設計師使用專業軟件手工建模,工作流程包括幾何建模、紋理貼圖、光照設置等,整個過程耗時且成本較高。這一時期的3D內容生成工作量大、耗時長,對建模人員的技術要求較高。
基于掃描與重建階段:隨著計算機硬件和傳感器技術的發展,3D掃描與自動化重建技術逐漸興起,激光掃描和結構光掃描技術能夠獲取物體和場景的高精度點云數據,并重建其3D模型。這一階段,3D掃描與重建被廣泛用于文物保護、醫療成像、逆向工程等領域,三維模型的生成效率和精度都得到了提升,不過生成的模型通常還需要后期處理,以優化模型效果和細節。
基于AI的智能3D生成階段:在深度學習等技術驅動下,3D內容生成進入了新的智能化階段。生成對抗網絡(GAN)、變分自編碼器(VAE)等模型能夠從大量數據中學習并生成新的3D內容,被用于3D模型生成、紋理映射和風格遷移等任務。神經輻射場(NeRF)技術的提出,以及大型語言模型(LLM)和擴散模型(DM)的發展,進一步推動了3D內容生成的能力,現階段3D內容生成模型具備了從文本、圖像中生成對應3D模型的能力:
1)文生3D(Text-to-3D)是指通過輸入文字描述來生成對應的3D模型。使用自然語言作為與用戶交互的方式已經愈發成熟,這種生成方式具有高度的靈活性和創造性,用戶可以通過簡單的文字描述表達自己的創意和需求,然后由生成式模型生成相應的3D模型。文生3D中,生成質量、多樣性和效率是目前業界關注的關鍵問題。
2)圖生3D(Image-to-3D)是指通過輸入二維圖像來生成三維模型。這種方法通常利用了深度學習等技術,通過對大量二維圖像數據的學習,能夠從一張二維圖像中推斷出物體的三維形狀和結構。例如一些應用允許將用戶上傳的照片轉換為3D模型,為用戶提供更加生動的視覺體驗。此外還可以通過布局或線稿引導來生成相應的3D模型。例如,在建筑設計中,設計師可以通過提供建筑的平面圖和剖面圖,由3D生成式系統生成建筑的3D模型。3D模型細節還原性、形狀和結構推斷準確性等是目前業界普遍關注的關鍵問題。
3D內容生成分類
按生成內容類別的不同,3D內容生成可以進一步細化為物體生成、場景生成、人體生成、人臉生成。
物體生成:物體生成主要聚焦從文本或圖像中生成特定類別的3D物體模型,通常也是三維環境及場景生成的基礎。Text2Shape(2018)是首個嘗試利用自然語言描述生成3D狀的工作,基于Conditional Wasserstein GAN。Nvdia的GET3D(2022)提出了一種可以生成高質量紋理3D形狀的生成模型,能夠生成顯式紋理3D網格。
場景生成:場景生成的難度比單個物體更大,因為它需要考慮物體之間的空間關系,可以創建豐富多樣的場景,為游戲、建筑設計、工業設計等行業提供強大的支持。DreamScene(2024)基于顯式表征3D高斯潑濺(3DGS),通過文本生成高質量、視角一致且可編輯的3D場景。斯坦福與MIT近期推出WonderWorld(2024),實現了從單一圖像出發在用戶實時交互下生成無限延展的3D場景,將交互式3D世界生成推向實時門檻。
人體生成:人體生成技術關注于生成逼真的數字人模型,精確創建逼真的人體模型在游戲、影視制作等領域具有廣泛應用。較早的SMPL(2015)提出了一種可變形的人體模型,這種用于3D人體建模和姿態估計的參數化模型能夠精確地表示不同的人體形狀和姿態,幾乎成為實質性的3D數字人驅動標準。近期工作MagicMan(2024)是一種從單一參考圖像生成高質量多視角人像的方法,它提出了一種高效的混合多視角注意力機制,以生成更密集的多視角人像,同時保持更好的3D一致性。
人臉生成:人臉生成技術能夠從文本或圖像中生成各種不同風格的人臉模型,可應用于虛擬現實、社交娛樂等領域,用戶可以通過3D生成模型創造自己獨特的虛擬人臉,具有高度的個性化和可定制性。例如,ChatAvatar(2023)支持生成3D人臉,其運用了對抗網絡和擴散模型,用戶可提供詳細描述或者上傳一張圖片,ChatAvatar會生成一系列3D頭像候選項,支持導入到主流的3D軟件中進行進一步編輯優化。
3D內容生成方法
近年來3D內容生成技術不斷推陳出新,不同方法側重點不同,各有優勢,將3D內容生成方法歸納為以下三類:
3D原生生成方法:3D原生生成方法是利用深度學習模型學習3D數據集,并直接生成物體或場景的三維模型。早期以3D原生生成方法為主,這種方法的優勢在于可以生成較高質量的3D內容,且畸形、殘缺控制較好,具備3D內容直接商用的潛力。但該方法通常需要大量的3D訓練數據集。典型的3D原生生成方法中,DreamTech提出了3D-DiT(2024),該方法使用3D變分自編碼器將3D形狀編碼到潛在空間,然后通過擴散變換模型從這個潛在空間生成3D形狀,此外還提供了將參考圖像高分辨率信息和語義信息整合到3D生成過程的方法,使模型可以生成與給定參考圖一致的 3D 形狀。今年8月DreamTech又推出了Direct3D-5B版本,進一步提升生成結果質量精度。此外,OpenAI近年來先后發布Point-E(2022)、Shap-E(2023),前者支持使用文本生成3D點云,即在空間中代表3D形狀的離散數據點集,后者則利用神經輻射場(NeRF)等隱式神經表征,支持文本生成多樣的3D物體資產,且收斂更快、支持紋理網格渲染。
基于2D先驗的3D生成方法:3D原生生成方法的弊端在于訓練時依賴大量3D數據集,例如ShapeNet。不過由于2D圖像的豐富程度遠遠大于3D資產,從2D圖像中學習并升維為3D數據,又稱基于2D先驗的3D生成方法,近些年來快速進步。這種方式最大的優勢在于無需進行專門的3D數據訓練,3D數據的獲取和標注通常比2D數據更為昂貴和耗時。典型工作如Google的DreamFusion(2022),其利用改進的得分蒸餾采樣(SDS)方法,將強大的2D擴散模型的知識擴展至3D領域,并采用NeRF進行3D表征,從而提高文生3D的生成質量,無需專門的3D訓練數據、無需修改2D擴散模型。隨3DGS這一顯式三維表征方法的提出,DreamGaussian(2023)將3DGS整合到生成式3D內容創建流程,顯著提高基于2D先驗生成方法的效率,與DreamFusion中基于mip-NeRF 360--一種改進NeRF方法相比,實現了約10倍的加速,DreamGaussian能夠5分鐘左右完成文生3D任務,相比之下DreamFusion需要大約1小時。
基于多視圖預測的3D生成方法:基于多視圖預測的3D生成方法試圖結合3D原生生成方法和基于2D先驗的3D生成方法的優點,先利用擴散模型根據文本或圖像生成目標對象的多角度視圖,進一步基于多視圖進行3D重建和生成,并采取優化策略保證多視圖在幾何上的一致性,確保3D內容生成質量。典型的工作如Zero-1-to-3(2023),該方法利用大規模擴散模型對自然圖像學習的幾何先驗知識,可以在指定的角度下生成同一物體的新視圖,但該方法生成的視圖缺乏3D一致性。UCSD的One-2-3-45(2023)在Zero-1-to-3的基礎上進行了改進,在基于SDF的廣義神經表面重建方法及優化訓練策略的幫助下,確保生成合理一致的3D內容,并采用前饋傳遞的方式一次性通過神經網絡生成3D網格,實現45秒內從單一圖像到高質量3D網格的生成。One-2-3-45++(2023)中則進一步優化了2D多視圖生成過程,通過微調2D擴散模型來生成包含六個角度的多視圖的組合圖像,從而增強生成3D內容的魯棒性和質量。
3D內容生成的應用
3D生成的使用場景廣泛,在游戲、電影、通信等領域發揮著重要作用。
在游戲領域,3D內容生成技術在游戲行業的應用非常廣泛,它能夠自動化地生成游戲環境、角色和物品,為游戲開發者提供更加高效、便捷的游戲內容創作方式,從而大大提高游戲開發的效率,并降低人力成本。除此之外,在游戲的游玩階段也可以引入3D生成技術,為玩家帶來個性化模型創造體驗。例如騰訊XR實驗室近期發布的交互式3D游戲場景創作方法,利用預訓練的2D去噪擴散模型生成場景的2D圖像作為概念指導,從用戶的手繪草圖等隨意提示中自動生成可交互和可玩的3D游戲場景,生成的3D場景也可以無縫地集成到游戲開發環境中。
在電影領域,三維數字內容創作是電影視效中的重要一環,三維技術可以拓展電影呈現的場景空間,在數字電影制作流程中,尤其在需要三維技術輔助的電影中,需要利用多種CG模型、角色來實現最終的成片效果,其中三維數字內容包含了模型資產、材質資產、動畫資產等。傳統的三維內容創作流程包括設計、建模、展UV、貼圖繪制等多個步驟,通常費時費力。根據文本等描述快速生成三維模型,能夠減少繁瑣的重復性工作,使創作者能夠將更多精力投入到電影創意和細節的打磨上,同時還減少了因設計迭代而產生的額外成本,有望成為電影制作中不可或缺的一部分。
在通信領域,借助3D內容生成,用戶可以在逼真的三維虛擬空間中進行互動,以體驗沉浸式通信效果。沉浸式通信場景下需要結合3D人體、3D人臉以及3D場景等生成技術。實時3D人體和3D人臉重建,可以創建通信雙方的虛擬代理人,輔助進行數字形態之間的互動和交流,基于攝像頭等設備捕捉用戶的姿態和面部表情,從而在點對點通信和多人遠程會議等場景,提供更好的沉浸感和情感傳遞效果。3D場景和物體生成技術則為通信雙方提供更加豐富生動的環境沉浸感,例如可以實時重建各類型3D數字場景,以契合當前主題,使通信參與方能夠更加直觀地完成溝通。
總結與展望
盡管AIGC 3D取得了顯著的進展,但仍面臨諸多技術挑戰。3D生成模型的主要瓶頸是缺乏大量高質量的3D數據集,目前常用的3D數據集如ShapeNet(約22萬個已分類的3D模型)或Objaverse(基礎版本約80萬個3D模型、XL版本約100萬個3D模型)包含的模型數量和細節質量都有待提升,尤其是比起2D領域的大數據集,例如LAION-5B(約50億張圖像),3D數據量仍遠不夠來訓練優質的3D大模型。確保生成的3D內容的質量也是當下面臨的挑戰之一,生成的3D內容可能存在瑕疵、不完整或不符合預期的情況。例如3D人體模型中可能會出現比例不協調問題,或者出現常見的Janus問題,即在3D頭像生成中由于視角不一致而導致的不確定性,產生一個物體的正面視圖特征(如面部或頭部)錯誤地出現在其他視圖中。
未來,3D內容生成將更加注重結合文本、圖像、視頻等多模態信息,以提高3D內容生成的準確性和豐富性。此外,現有模型往往在特定數據集表現良好,在面對不同領域和風格的任務時,需要進一步提升其泛化能力。最后,隨計算資源的提升和算法的突破,預計將實現更快的3D生成速度,在低延遲甚至實時條件下生成復雜的動態場景和細節豐富的三維內容,以符合多變的3D場景下的業務需求。
3D內容是數字世界不可或缺的生產要素,3D內容生成技術作為一種創新技術手段,具有廣闊的發展前景和巨大的應用潛力。由于真實的世界處于三維空間,3D內容生成技術的發展也有望推動真實世界模擬器的建立,其作為訓練通用人工智能的重要工具,有望助力未來通用人工智能的實現。預計3D內容生成將為各個行業帶來更加豐富、高效、個性化的3D內容創作體驗,推動數字內容生態的繁榮發展。
【參考文獻】
[1]Liu J, Huang X, Huang T, et al. A comprehensive survey on 3D content generation[J]. arXiv preprint arXiv:2402.01166, 2024.
[2]Wu S, Lin Y, Zhang F, et al. Direct3D: Scalable Image-to-3D Generation via 3D Latent Diffusion Transformer[J]. arXiv preprint arXiv:2405.14832, 2024.
[3]Poole B, Jain A, Barron J T, et al. Dreamfusion: Text-to-3d using 2d diffusion[J]. arXiv preprint arXiv:2209.14988, 2022.
[4]Tang J, Ren J, Zhou H, et al. Dreamgaussian: Generative gaussian splatting for efficient 3d content creation[J]. arXiv preprint arXiv:2309.16653, 2023.
[5]Liu M, Xu C, Jin H, et al. One-2-3-45: Any single image to 3d mesh in 45 seconds without per-shape optimization[J]. Advances in Neural Information Processing Systems, 2024, 36.
[6]Liu M, Shi R, Chen L, et al. One-2-3-45++: Fast single image to 3d objects with consistent multi-view generation and 3d diffusion[C]//Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition. 2024: 10072-10083.