近期,何愷明與MIT合作推出的自條件圖像生成框架RCG在學術圈引起關注。這一框架成功填補了長期存在的有條件和無條件生成任務性能差距,取得了ImageNet-1K數據集上無條件圖像生成的新SOTA成績。
RCG的設計靈感來源于自監督學習,通過表示擴散模型RDM生成低維自監督圖像表示。這一表示條件圖像生成架構包括SSL圖像編碼器、RDM和MAGE像素生成器,結構簡單而高效。
為了實現無條件圖像生成,RCG的關鍵在于將圖像分布轉換為緊湊的表示分布,通過SSL圖像編碼器實現。RDM模型用于對表示分布進行建模和采樣,具有多樣性強、計算開銷小的優點。最后,MAGE像素生成器根據表示來處理圖像像,通過向token化的圖像中添加隨機掩碼并要求網絡以條件重建丟失的token,實現圖像生成。
RCG在ImageNet256×256上的表現令人矚目,取得了3.56的FID和186.9的IS得分,相較于之前最先進的無條件生成方法有著顯著提升。不僅如此,RCG在無分類器引導的情況下,成績還能進一步提高到3.31(FID)和253.4(IS)。這一成果展示了自條件圖像生成模型的潛力,為圖像生成領域帶來了新的可能性。
總的來說,何愷明與MIT的合作研究為無條件圖像生成領域帶來了新的突破,RCG框架的成功應用表明自條件圖像生成模型具有巨大的潛力,可能預示著這一領域新時代的到來。


產品與服務
聯系站長
關于我們