位于美國舊金山的Synthesis AI是一家專門從事合成數(shù)據(jù)技術(shù)的初創(chuàng)公司。團(tuán)隊(duì)日前宣布,他們開發(fā)了一種可以通過文本提示創(chuàng)建逼真虛擬數(shù)字人的新方法。
據(jù)介紹,所述技術(shù)使用生成式人工智能和視覺效果管道來制作高分辨率、電影質(zhì)量的虛擬數(shù)字人,并可用于游戲、虛擬現(xiàn)實(shí)、電影和模擬等各種應(yīng)用。
Synthesis AI聲稱,他們是第一家以如此高質(zhì)量和細(xì)節(jié)展示文本到3D數(shù)字人的公司。其中,用戶只需輸入所需數(shù)字人的文本描述,如年齡、性別、種族、發(fā)型和服裝,然后系統(tǒng)就會(huì)馬上生成符合規(guī)范的3D模型。用戶同時(shí)可以通過改變文本提示或使用滑塊來調(diào)整面部表情和照明等功能,從而編輯3D模型。
據(jù)悉,全新的文本到虛擬數(shù)字人功能將從今年第二季度開始提供給一組選定的測(cè)試人員。
根據(jù)文本提示生成虛擬數(shù)字人
編輯3D模型
Synthesis AI首席執(zhí)行官兼創(chuàng)始人亞沙爾·貝赫扎迪(Yashar Behzadi)表示:“我們展示的文本到3D功能以編程、API驅(qū)動(dòng)的方法為起點(diǎn),添加了一個(gè)非常簡(jiǎn)單的基于提示的用戶界面,并輸出了一個(gè)高分辨率的3D模型。”
通過生成式人工智能來實(shí)現(xiàn)文本到3D
Synthesis AI將生成式人工智能和電影特效管道相結(jié)合,產(chǎn)生完美標(biāo)記的合成數(shù)據(jù)來訓(xùn)練機(jī)器學(xué)習(xí)模型。團(tuán)隊(duì)表示,這帶來了高分辨率的電影質(zhì)量模型,并預(yù)計(jì)能夠加速AR/VR、游戲、VFX、智能城市、虛擬試穿(VTON)、汽車、工業(yè)和制造模擬等多個(gè)行業(yè)的3D應(yīng)用開發(fā),并降低相關(guān)成本。
3D模型的創(chuàng)建是一個(gè)復(fù)雜的過程,需要數(shù)個(gè)元素的相互作用,包括幾何體、網(wǎng)格和紋理層。對(duì)于經(jīng)驗(yàn)豐富的游戲和特效美術(shù)而言,從人體模型開始一直是首選。這種方法通常比從零開始構(gòu)建計(jì)算機(jī)生成人類更快、更直接。
然而,制作高質(zhì)量的人體模型是并不容易,需要專門的攝影測(cè)量裝置捕獲實(shí)際人體的多個(gè)角度,從而創(chuàng)建原始2D圖像。然后,工作人員需要通過各種優(yōu)化工具精心組合圖像,以確保最佳質(zhì)量。
對(duì)于文本到虛擬數(shù)字人合成,Synthesis AI設(shè)計(jì)了一種創(chuàng)新方法利用diffusion-based生成式人工智能架構(gòu)來生成由性別、年齡、種族等關(guān)鍵參數(shù)控制的各種網(wǎng)格。其中,紋理層是使用單獨(dú)的生成模型創(chuàng)建,以提供細(xì)粒度的獨(dú)立控制,而通過合并這兩個(gè)基本組件,系統(tǒng)可以生成一個(gè)完整的、高分辨率的3D模型。
貝赫扎迪指出:“由于招募特定個(gè)體和獲得許可的后勤工作,創(chuàng)造多樣化的人類群體變得更加復(fù)雜。文本到3D的功能可以按需生成高質(zhì)量的asset,為每個(gè)模型節(jié)省數(shù)周的時(shí)間和數(shù)千美元。”
Synthesis AI的文本到3D產(chǎn)品引入了基于提示的輸入和編輯,令無代碼生成式人工智能功能更容易覆蓋不同的用戶群體。
這位首席執(zhí)行官進(jìn)一步解釋道:“首先,基于提示的生成和迭代為任何有能力使用搜索引擎的人帶來了創(chuàng)造力。然而,我們認(rèn)為早期采用者將是各種形式的娛樂和媒體的技術(shù)美術(shù),以及工業(yè)和制造軟件的產(chǎn)品經(jīng)理,他們希望用有代表性的數(shù)字人來填充3D模擬。他們都是技術(shù)受眾,但可能不具備高級(jí)機(jī)器學(xué)習(xí)技能。”
這家公司目前擁有超過10萬名數(shù)字人(或ID)的專有庫,它是用于訓(xùn)練模型的基礎(chǔ)數(shù)據(jù)。Synthesis AI的其他產(chǎn)品則已經(jīng)利用這個(gè)庫為領(lǐng)先的計(jì)算機(jī)視覺團(tuán)隊(duì)提供標(biāo)記的訓(xùn)練數(shù)據(jù),以支持人臉識(shí)別功能、駕駛員監(jiān)控等的開發(fā)。
下一步是什么?
Synthesis AI的文本到虛擬數(shù)字人工具是團(tuán)隊(duì)發(fā)展的一個(gè)重要里程碑,可允許企業(yè)、工業(yè)和公共部門的客戶通過合成任何人物、地點(diǎn)或物體來模擬現(xiàn)實(shí)。相關(guān)應(yīng)用包括模擬和合成數(shù)據(jù),并用于訓(xùn)練VFX、AR/VR以及媒體和內(nèi)容創(chuàng)建中的計(jì)算機(jī)視覺模型等等。
據(jù)悉,全新的文本到虛擬數(shù)字人功能將從今年第二季度開始提供給一組選定的測(cè)試人員。
貝赫扎迪表示:“向第三方用戶開放這一能力將允許我們利用社區(qū)反饋來進(jìn)一步完善潛在的生成式模型。從人類反饋中強(qiáng)化學(xué)習(xí)是不斷提高基礎(chǔ)模型性能和發(fā)現(xiàn)邊緣案例的關(guān)鍵。”
另外,通過將生成式人工智能與電影視覺效果管道相結(jié)合,公司將能夠合成世界,包括人類環(huán)境和物體。
他補(bǔ)充道:“我們希望繼續(xù)創(chuàng)新,降低開發(fā)人員創(chuàng)建asset和合成數(shù)據(jù)的門檻,以推動(dòng)計(jì)算機(jī)視覺的最先進(jìn)發(fā)展。”


產(chǎn)品與服務(wù)
聯(lián)系站長(zhǎng)
關(guān)于我們