插吧插吧综合网,精品少妇v888av,国产一伦一伦一伦

　　OpenAI在研究文本到三維對象方面取得了快速進展。已經托管至GitHub的Shap-E據稱可以直接從文本描述中生成3D asset，或者從提供的圖像中構建相關內容。

　　如果大家有印象，OpenAI早在2022年12月就發布了能夠根據文本提示建立點云形式的基本3D模型的Point-E系統。

　　現在，團隊又發布了速度大大增加的全新系統Shap-E。其中，它能夠以 “隱式函數 “的形式建立模型，既可以呈現為紋理網格，又可以呈現為神經輻射場(NeRFs)，即使用機器學習從二維圖像中開發的三維模型。團隊指出，盡管質量不及其他優化模型，但Shap-E的速度要快幾個數量級，從而為用戶提供了有利的權衡。

　　近來生成式圖像模型的爆炸性增長，所以社區對訓練其他類似模型的興趣越來越大，如音頻、視頻和3D asset。大多數都適合于可以直接生成的自然的、固定大小的張量表示，例如圖像的像素網格或音頻的樣本陣列。然而，如何以一種高效生成并易于在下游應用中實現的方式來表示3D asset是一個問題。

　　最近，隱性神經表征(INRs)已成為流行的3D asset編碼方式。為了表示三維資產，INRs通常將3D坐標映射到特定的位置信息，如密度和顏色。一般來說，INRs獨立于分辨率，因為它們可以在任意的輸入點進行查詢，而不是在一個固定的網格或序列中進行信息編碼。由于它們是端到端的可微分，INRs能夠實現各種下游應用，例如可微分的形狀編輯。

　　在研究中，OpenAI專注于兩種類型的INRs的3D表示：神經輻射場(NeRF)是一種INR，它將3D場景表示為一個將坐標和觀察方向映射到密度和RGB顏色的函數。NeRF可以通過查詢密度和沿camera光線的顏色，從任意視圖中渲染出來，并進行訓練以匹配3D場景的ground truth渲染。 DMTet和它的擴展GET3D將一個有紋理的三維網格表示為一個將坐標映射到顏色、符號距離和頂點偏移的函數。這個INR能夠以可微分的方式構建3D三角形網格，而所得到的網格可以使用可微分光柵化庫進行高效渲染。

　　盡管INR靈活和富有表現力，但為數據集中的每個樣本獲取INR的過程成本可能十分高昂。另外，每個INR可能存在諸多數字參數，在訓練下游生成模型時可能會帶來挑戰。

　　針對所述問題，社區有嘗試使用帶有隱式解碼器的自動編碼器來獲得較小的latent表征，從而直接用現有的生成技術進行建模。另外，有人使用元學習來創建一個共享大部分參數的INRs數據集，然后在自由參數訓練擴散模型或歸一化流。其他人則進一步建議，基于梯度的元學習根本沒有必要，而是可以直接訓練一個Transformer編碼器來產生以3D對象的多個視圖為條件的NeRF參數。

　　OpenAI結合并擴大了上述幾種方法，并最終得出了Shap-E。

　　這是一個適用于各種復雜的3D latent表征的條件生成模型。首先，團隊通過訓練一個基于Transformer的編碼器來產生3D asset的INR參數。接下來，在編碼器的輸出上訓練一個擴散模型。

　　與以前的方法不同，產生的INR同時代表NeRFs和網格，允許它們以多種方式渲染或導入下游的3D應用程序。

　　Shap-E

　　在對數百萬個3D asset的數據集進行訓練時，模型能夠在文本提示的條件下產生多樣化的、可識別的樣本，如上圖所示。

　　Point-E

　　與早前提出的顯式3D生成式模型Point-E相比，這個模型收斂得更快，并且在共享相同的模型結構、數據集和調節機制的情況下，它可以獲得可比或更高的結果。令人驚訝的是，Shap-E和Point-E在以圖像為條件時傾向于出現相同成功和失敗的案例，這表明對輸出表示的非常不同選擇依然可以導致類似的模型行為。

　　然而，研究人員同時觀察到這兩個模型之間的質量差異，特別是當直接以文字說明為條件時。像Point-E一樣，Shap-E的樣本質量依然比基于優化的文本條件的3D生成式方法要差。然而，它在推理時間上比所述方法快了幾個數量級，允許一個潛在的有利權衡。

　　例如，對于質量要求不高的場景元素，用戶可以通過Shap-E快速生成相關的3D asset，而對于其他元素，用戶則可以使用質量更多的3D生成式方式，從而快速高效地完成場景創建。

OpenAI研發全新從文本生成3D模型的系統Shap-E，大大提升速度

延展資訊

最新新聞

熱門新聞