近年來,文本到圖像(T2I)模型的快速發展為人工內容生成帶來了革命性的變化,這些模型在不到兩年的時間內就能夠生成高質量、多樣性和創造性的圖像。然而,大多數現有的T2I模型存在一個問題,它們難以有效地與自然語言進行交流,通常需要復雜的提示調整和特定的詞語組合。
受到DALLE3的啟發,研究人員提出了一種新的任務,即交互式文本到圖像(iT2I),使人們能夠與大型語言模型(LLM)進行自然語言交互,實現高質量圖像生成和問題回答。他們還提出了一種簡單的方法,通過提示技巧和現成的T2I模型,來擴展LLM以實現iT2I,而不需要額外的訓練。
研究人員在不同的LLM下,如ChatGPT、LLAMA、Baichuan等,對他們的方法進行了評估,展示了這種方法可以方便且低成本地為任何現有的LLM和文本到圖像模型引入iT2I功能,同時對LLM的固有功能,如問題回答和代碼生成,影響較小。
這項工作有望引起廣泛關注,為提高人機交互體驗以及下一代T2I模型的圖像質量提供啟發。文章的研究對于促進人機交互和改進圖像生成質量具有潛在的重要意義。


產品與服務
聯系站長
關于我們