AI 圖像生成模型的一個(gè)最大問(wèn)題就是速度:使用 ChatGPT 或 Stable Diffusion 生成一張圖像可能需要幾分鐘的時(shí)間。甚至 Meta 首席執(zhí)行官馬克?扎克伯格在去年的 Meta Connect 大會(huì)上也抱怨了圖像生成速度。
Hugging Face 團(tuán)隊(duì)正試圖通過(guò)一款名為 aMUSEd 的新模型加快速度,該模型可以在短短幾秒鐘內(nèi)生成圖像。
這款輕量級(jí)的文本到圖像模型基于谷歌的 MUSE 模型,參數(shù)規(guī)模約為8億。aMUSEd 可以部署在移動(dòng)設(shè)備等設(shè)備上。它的速度來(lái)自于它的構(gòu)建方式。aMUSEd 采用了一種稱為 Masked Image Model (MIM) 的架構(gòu),而不是 Stable Diffusion 和其他圖像生成模型中的潛在擴(kuò)散。
Hugging Face 團(tuán)隊(duì)表示,MIM 減少了推理步驟,從而提高了模型的生成速度和可解釋性。而且它的小尺寸也使得它運(yùn)行速度很快。
你可以通過(guò) Hugging Face 上的演示來(lái)嘗試 aMUSEd。該模型目前以研究預(yù)覽版的形式提供,但使用 OpenRAIL 許可證,意味著可以進(jìn)行實(shí)驗(yàn)或調(diào)整,同時(shí)也對(duì)商業(yè)適應(yīng)性友好。
aMUSEd 生成的圖像質(zhì)量可以進(jìn)一步提高,團(tuán)隊(duì)也公開承認(rèn)了這一點(diǎn),選擇發(fā)布它以 “鼓勵(lì)社區(qū)探索像 MIM 這樣的非擴(kuò)散框架用于圖像生成”。
aMUSEd 模型可以進(jìn)行零樣本的圖像修復(fù),而 Stable Diffusion XL 無(wú)法做到,這是 Hugging Face 團(tuán)隊(duì)的說(shuō)法。
關(guān)于如何在幾秒鐘內(nèi)生成 AI 圖像,aMUSEd 中的 MIM 方法類似于語(yǔ)言建模中使用的技術(shù),將數(shù)據(jù)的某些部分隱藏(或屏蔽),模型學(xué)習(xí)預(yù)測(cè)這些隱藏部分。在 aMUSEd 的情況下,隱藏的是圖像而不是文本。
在訓(xùn)練模型時(shí),Hugging Face 團(tuán)隊(duì)使用一種名為 VQGAN(Vector Quantized Generative Adversarial Network)的工具,將輸入圖像轉(zhuǎn)換為一系列標(biāo)記。然后部分屏蔽圖像標(biāo)記,模型通過(guò)文本編碼器基于未屏蔽部分和提示來(lái)預(yù)測(cè)屏蔽部分。在推理過(guò)程中,文本提示通過(guò)相同的文本編碼器轉(zhuǎn)換為模型理解的格式。aMUSEd 從一組隨機(jī)屏蔽的標(biāo)記開始,逐步完善圖像。
在每一次完善過(guò)程中,模型預(yù)測(cè)圖像的部分,保留其最自信的部分,并繼續(xù)完善其余部分。經(jīng)過(guò)一定步驟后,模型的預(yù)測(cè)通過(guò) VQGAN 解碼器處理,生成最終的圖像。
aMUSEd 還可以在自定義數(shù)據(jù)集上進(jìn)行微調(diào)。Hugging Face 展示了使用8位 Adam 優(yōu)化器和 float16精度微調(diào)的模型,該過(guò)程使用了不到11GB 的 GPU VRAM。


產(chǎn)品與服務(wù)
聯(lián)系站長(zhǎng)
關(guān)于我們