MIT和Adobe的研究人員最近提出了一種新穎的人工智能方法,稱之為分布匹配蒸餾(DMD),該方法旨在將擴(kuò)散模型轉(zhuǎn)化為一步圖像生成器,從而顯著提高圖像生成的效率和質(zhì)量。據(jù)稱他們的一步生成器(Gθ)在生成逼真圖像方面不僅與 StableDiffusion v1.5相媲美,而且速度更快30倍。
創(chuàng)新方法方面,傳統(tǒng)的擴(kuò)散模型在圖像生成方面取得了巨大的進(jìn)展,但其采樣過程相對繁瑣,需要通過逐步去噪的迭代過程逐漸減少高斯噪聲樣本中的噪聲,這限制了生成管道作為創(chuàng)意工具時(shí)的交互性。與此不同,DMD方法通過將初始多步擴(kuò)散采樣找到的噪聲→圖像映射壓縮成單通道學(xué)生網(wǎng)絡(luò),加速采樣過程。通過這一創(chuàng)新,DMD成功解決了高昂的神經(jīng)網(wǎng)絡(luò)評估成本的問題,使得一步生成器在多項(xiàng)任務(wù)上表現(xiàn)優(yōu)越。
在數(shù)據(jù)優(yōu)化方面,研究團(tuán)隊(duì)通過在文本到圖像數(shù)據(jù)上進(jìn)行精細(xì)調(diào)整,不僅學(xué)習(xí)了數(shù)據(jù)分布,還學(xué)習(xí)了蒸餾生成器正在產(chǎn)生的虛構(gòu)分布。這一方法通過利用預(yù)訓(xùn)練擴(kuò)散模型的去噪擴(kuò)散輸出來解釋梯度方向,從而推動(dòng)人工生成圖像向更真實(shí)和 less 虛構(gòu)的方向發(fā)展。
性能超越方面,DMD在多項(xiàng)任務(wù)中都取得了令人矚目的成績。在ImageNet上,其FID指標(biāo)達(dá)到2.62,比一致性模型提升了2.4倍。
此外,DMD在MS COCO2014-30k上獲得了11.49的競爭性FID,同時(shí)保持了與更昂貴的Stable Diffusion模型相媲美的圖像質(zhì)量。值得注意的是,DMD方法在減少神經(jīng)網(wǎng)絡(luò)評估次數(shù)的同時(shí),能夠在FP16推斷下以每秒20幀的速度生成512×512的圖像,為交互式應(yīng)用開辟了許多可能性。
研究團(tuán)隊(duì)通過結(jié)合分布匹配方法、GANs和pix2pix的靈感和見解,展示了DMD方法如何通過使用擴(kuò)散模型來建模真實(shí)和虛構(gòu)分布,并通過簡單的回歸損失匹配多步擴(kuò)散輸出,訓(xùn)練出高保真的一步生成模型。通過在多個(gè)任務(wù)上的驗(yàn)證,DMD一步生成器在各項(xiàng)基準(zhǔn)測試中均表現(xiàn)優(yōu)異,包括一致性模型、漸進(jìn)蒸餾和矯正流等。
這一研究為圖像生成領(lǐng)域帶來了嶄新的可能性,通過創(chuàng)新的方法,使得生成模型在效率和質(zhì)量方面都取得了顯著提升。


產(chǎn)品與服務(wù)
聯(lián)系站長
關(guān)于我們