來自南加州大學、華盛頓大學、巴伊蘭大學和谷歌研究團隊的研究人員推出了DreamSync,這是一種新型人工智能框架,致力于解決擴散型文本到圖像(T2I)模型中對齊和審美吸引力的問題,而無需進行人工標注、修改模型架構或使用強化學習。
DreamSync的方法是通過生成候選圖像,利用視覺問答(VQA)模型對其進行評估,然后對文本到圖像模型進行微調。此過程無需特定的架構或標記數據,采用了模型不可知的框架,并利用視覺語言模型(VLMs)來識別生成的圖像與輸入文本之間的差異。該框架的關鍵步驟包括生成多個候選圖像,使用兩個專用的VLMs對它們進行文本忠實度和圖像美感的評估,然后選擇VLM反饋確定的最佳圖像進行文本到圖像模型的微調,迭代至收斂。
此外,框架還引入了迭代自舉方法,利用VLMs作為教師模型對未標記數據進行標記,用于T2I模型的訓練。
DreamSync成功提升了SDXL和SD v1.4T2I模型的性能。在TIFA上進行的實驗顯示,對SDXL進行三次迭代,文本忠實度提高了1.7%和3.7%,視覺美感提高了3.4%。將DreamSync應用于SD v1.4,文本忠實度提高了1%,TIFA上的得分絕對增加了1.7%,美感提高了0.3%。
在與SDXL的比較研究中,DreamSync在對齊方面表現更好,生成的圖像具有更相關的組件和3.4個更正確的答案。在TIFA和DSG基準測試中,DreamSync實現了更卓越的文本忠實度,而不損害視覺外觀,顯示出隨著迭代的逐漸改進。
DreamSync是一個多功能的框架,在具有挑戰性的T2I基準測試中進行了評估,顯示出在分布內外場景中對齊和視覺吸引力方面的顯著改進。該框架結合了來自視覺語言模型的雙重反饋,并通過人類評分和偏好預測模型進行了驗證。
未來,DreamSync的改進方向包括通過詳細注釋(如邊界框)來鞏固反饋,調整每次迭代的提示以針對文本到圖像合成中的特定改進,探索語言結構和注意力圖以增強屬性-對象綁定,以及使用人類反饋訓練獎勵模型,以進一步使生成的圖像與用戶意圖一致。同時,拓展DreamSync的應用到其他模型架構,并在不同場景中進行性能評估和額外研究也是未來持續調查的方向。


產品與服務
聯系站長
關于我們