InstaFlow是一個快速、一步生成圖像的模型,能夠以接近Stable Diffusion的圖像質量顯著減少計算資源需求。這種高效率源自最近的Rectified Flow技術,它訓練具有直線軌跡的概率流,因此本質上只需要一步即可進行快速推理。
InstaFlow具有幾個優點:
極快推理:InstaFlow模型是一步生成器,它直接將噪聲映射到圖像,避免了彌散模型的多步采樣。 在我們的A100GPU機器上,推理時間約為0.1秒,與原始Stable Diffusion相比可節省約90%的推理時間。
高質量:InstaFlow生成具有Stable Diffusion那樣復雜細節的圖像,在MS COCO2014數據集上的FID與最先進的文本到圖像GAN(如StyleGAN-T)相當。
簡單高效的訓練:InstaFlow的訓練過程只涉及有監督訓練。 借助預訓練的Stable Diffusion,僅需199個A100GPU天即可獲得InstaFlow-0.9B。
方法:用文本調整的反流整流生成概率流
流程包括三個步驟:
1. 從預訓練的Stable Diffusion生成(文本,噪聲,圖像)三元組
2. 應用文本調整的反流生成2-Rectified Flow,這是一條整流的生成概率流。
3. 從2-Rectified Flow中遷移學習得到一步InstaFlow。 注意遷移學習和反流是正交的技術。
如視頻和圖像所示,直線流具有以下優點:
1. 直線流需要更少的步驟來模擬。
2. 直線流在噪聲分布和圖像分布之間提供了更好的耦合,因此允許成功的遷移學習。
InstaFlow的核心功能有:
- 快速一步生成
- 與Stable Diffusion相當的圖像質量
- 簡單高效的訓練過程
- 利用文本調整的反流產生直線概率流
- 從直線流中遷移學習以實現一步生成
通過直線流和遷移學習,InstaFlow實現了快速生成高質量圖像的目標,是新一代文本到圖像生成模型的杰出代表。


產品與服務
聯系站長
關于我們