通義千問系列首次開源了一款名為Qwen-Image的20億參數(shù)多模態(tài)擴散變換器(MMDiT)圖像生成基礎(chǔ)模型。這一創(chuàng)新成果不僅在復(fù)雜文本渲染和精確圖像編輯方面取得了突破性進(jìn)展,更是在多個公開基準(zhǔn)測試中展現(xiàn)了卓越性能,成為圖像生成與編輯領(lǐng)域的新星。
Qwen-Image以其強大的文本渲染能力脫穎而出,支持多行布局、段落級文本生成及細(xì)粒度細(xì)節(jié)呈現(xiàn),無論是英語還是中文,均能實現(xiàn)高保真輸出。例如,在渲染宮崎駿風(fēng)格的動漫場景時,模型能夠精準(zhǔn)呈現(xiàn)店鋪牌匾、人物姿勢及神態(tài),甚至酒缸上的細(xì)小文字也清晰可見。同樣,在中文對聯(lián)的渲染中,Qwen-Image不僅準(zhǔn)確繪制了左右聯(lián)和橫批,還巧妙融入了書法效果,令人嘆為觀止。

英文文本渲染方面,Qwen-Image同樣表現(xiàn)出色。無論是書店櫥窗的展示信息,還是復(fù)雜的信息圖表,模型都能準(zhǔn)確無誤地生成文本內(nèi)容,并巧妙融入整體構(gòu)圖,展現(xiàn)出高度的藝術(shù)性和信息性。更令人印象深刻的是,即便在處理更小或更多的文字時,Qwen-Image依然能夠保持高度的準(zhǔn)確性和清晰度,如準(zhǔn)確生成手中紙張上的長段文字,或在玻璃板上完整呈現(xiàn)手寫體段落。
除了文本渲染,Qwen-Image在圖像編輯方面也展現(xiàn)了非凡實力。通過增強的多任務(wù)訓(xùn)練范式,模型在編輯過程中能出色保持一致性,支持風(fēng)格遷移、物體增減、細(xì)節(jié)增強及人物姿態(tài)調(diào)整等多種操作。這使得普通用戶也能輕松實現(xiàn)專業(yè)級的圖像編輯,大大降低了視覺內(nèi)容創(chuàng)作的技術(shù)門檻。
在多個公開基準(zhǔn)測試中,Qwen-Image的表現(xiàn)更是令人矚目。從通用圖像生成的GenEval、DPG和OneIG-Bench,到圖像編輯的GEdit、ImgEdit和GSO,Qwen-Image均取得了最先進(jìn)的性能,展現(xiàn)了其在圖像生成與編輯方面的全面優(yōu)勢。特別是在中文文本渲染上,Qwen-Image大幅領(lǐng)先現(xiàn)有最先進(jìn)模型,凸顯了其作為先進(jìn)圖像生成模型的獨特地位。
目前,Qwen-Image已在魔搭社區(qū)、Hugging Face及GitHub等平臺開源,并提供了詳細(xì)的Technical report和Demo展示。用戶可通過訪問QwenChat(chat.qwen.ai)選擇“圖像生成”功能,親身體驗這款強大模型的魅力。


產(chǎn)品與服務(wù)
聯(lián)系站長
關(guān)于我們