8月11日,昆侖萬維SkyWork AI技術(shù)發(fā)布周正式啟動。8月11日至8月15日,我們每天發(fā)布一款新模型,連續(xù)五天,覆蓋多模態(tài)AI核心場景的前沿模型。截至目前,我們已經(jīng)發(fā)布SkyReels-A3、Matrix-Game 2.0、Matrix-3D模型。
8月13日,昆侖萬維正式開源「Skywork UniPic 2.0」模型——面向統(tǒng)一多模態(tài)建模的高效訓(xùn)練和推理框架,圍繞生成和編輯模塊輕量化、連接多模態(tài)理解模型進(jìn)行聯(lián)合訓(xùn)練,構(gòu)建了理解、生圖、編輯一體化的核心能力,旨在實(shí)現(xiàn)“高效、高質(zhì)、統(tǒng)一”的多模態(tài)生成模型。
當(dāng)前,「Skywork UniPic 2.0」及其系列模型已全面開源,涵蓋模型權(quán)重、推理代碼、強(qiáng)化策略等,助力開發(fā)者與研究者快速上手并構(gòu)建多模態(tài)應(yīng)用。
「Skywork UniPic 2.0」由三個核心模塊組成:
生圖編輯(下圖中):基于 SD3.5-Medium 架構(gòu)將原本只支持文本輸入的模型改進(jìn)成也接受文本圖像同時輸入,然后通過高質(zhì)量圖像生成和編輯數(shù)據(jù)的訓(xùn)練將原本生圖能力擴(kuò)展成生圖、編輯雙能力。
統(tǒng)一模型能力(下圖左側(cè)與中間):通過凍結(jié)生圖編輯模塊,多模態(tài)模型(Qwen2.5-VL-7B),Pre-Train連接器來構(gòu)建出理解生成編輯一體化能力,再通過連接器和生圖編輯模塊一起聯(lián)合微調(diào),實(shí)現(xiàn)最終的一體化理解、生圖、編輯模型。
生圖編輯后訓(xùn)練(下圖右):為提升生圖編輯整體性能,設(shè)計(jì)了基于Flow-GRPO的漸進(jìn)式雙任務(wù)強(qiáng)化策略,實(shí)現(xiàn)了生成與編輯任務(wù)在不互相干擾下的協(xié)同優(yōu)化,在預(yù)訓(xùn)練的基礎(chǔ)上進(jìn)一步提升了模型性能。

圖丨昆侖萬維Skywork UniPic 2.0核心組成模塊
升級后的「Skywork UniPic 2.0」具備以下核心優(yōu)勢:生成模塊輕量高效,性能拉滿
生成模塊基于2B參數(shù)的SD3.5-Medium 架構(gòu)訓(xùn)練,生圖和編輯指標(biāo)超越生成模塊具有7B參數(shù)的bagel,4B參數(shù)的OmniGen2,12B參數(shù)的UniWorld-V1和Flux-kontext模型。引入強(qiáng)化學(xué)習(xí),效果顯著
基于Flow-GRPO首創(chuàng)漸進(jìn)式雙任務(wù)強(qiáng)化策略,有效提升模型對復(fù)雜指令的理解能力與圖像生成和編輯的一致性,兩大任務(wù)協(xié)同優(yōu)化、互不干擾。一體化靈活切換,拓展能力強(qiáng)
將生圖編輯的Kontext模型與多模態(tài)模型端到端整合,微調(diào)輕量連接器,即可快速構(gòu)建統(tǒng)一理解-生成-編輯模型,并且生圖和編輯的性能進(jìn)一步提升。
UniPic2-SD3.5M-Kontext作為單一模型,雖然只有2B的參數(shù)量,但生圖指標(biāo)超越了具有12B參數(shù)量的Flux.dev、編輯效果超越了同樣具有12B參數(shù)量的Flux-Kontext。同樣超越了幾乎所有統(tǒng)一模型的生圖和編輯效果,包括19B的UniWorld-V1和14B的Bagel。
此外,將UniPic2-SD3.5M-Kontext拓展成統(tǒng)一模型UniPic2-Metaquery后,效果得到了進(jìn)一步的提升。

圖丨昆侖萬維Skywork UniPic 2.0系列模型評測結(jié)果
在優(yōu)秀的理解、生成和編輯能力背后,昆侖萬維Skywork團(tuán)隊(duì)在預(yù)訓(xùn)練、聯(lián)合訓(xùn)練和后訓(xùn)練階段均作出創(chuàng)新性優(yōu)化。Pre-Training(預(yù)訓(xùn)練生圖編輯模型)
首先賦予SD3.5-Medium基于文本指令和參考圖片合成新圖像的能力。在不改變模型結(jié)構(gòu)的前提下,將文本指令與參考圖片同時作為條件輸入,文本經(jīng)文本編碼器得到指令表示,參考圖經(jīng)VAE編碼為潛變量并映射為上下文 token;兩者與目標(biāo)圖像的噪聲token按段拼接為單一序列,并利用模型現(xiàn)有的位置編碼區(qū)分參考圖token與目標(biāo)token。在保持原模型結(jié)構(gòu)不變的同時,使SD3.5M同時具有文生圖(T2I)和文本驅(qū)動的圖像編輯(I2I)能力。Joint-Training
在預(yù)訓(xùn)練好的生圖編輯模型的基礎(chǔ)上,我們參考Metaquery方案,使用多模態(tài)模型Qwen2.5-VL來對齊到生圖模型上,以構(gòu)建統(tǒng)一模型的架構(gòu)。具體通過兩個過程來實(shí)現(xiàn):
- 連接器預(yù)訓(xùn)練
使用Qwen2.5-VL和一個Connector替換掉SD3.5M的T5 Encoder,然后固定住Qwen2.5-VL和SD3.5M的DiT的權(quán)重,使用收集的億級圖像生成數(shù)據(jù)對Connector部分進(jìn)行預(yù)訓(xùn)練,使Qwen2.5-VL通過Connector之后輸出的特征能夠跟SD3.5M的DiT很好的對齊。
- SFT聯(lián)合訓(xùn)練
在Connector預(yù)訓(xùn)練之后,將SD3.5M替換成預(yù)訓(xùn)練好的具體生圖和編輯能力的UniPic2-SD3.5M-Kontext模型,然后打開Connector的參數(shù)和UniPic2-SD3.5M-Kontext的參數(shù),使用高質(zhì)量圖像生成和編輯數(shù)據(jù)對Connector和Kontext模型進(jìn)行聯(lián)合訓(xùn)練,以實(shí)現(xiàn)性能最優(yōu)的一體化效果。聯(lián)合訓(xùn)練之后,得到的UniPic2-Metaquery模型除了具有原始多模態(tài)模型的理解能力,在生圖和編輯能力上相比單純的Kontext模型進(jìn)行了進(jìn)一步的提高。Post-Training:多任務(wù)強(qiáng)化學(xué)習(xí),讓生成與編輯能力“齊飛”
傳統(tǒng)多任務(wù)強(qiáng)化學(xué)習(xí)常陷入優(yōu)化一個任務(wù)會損害另一個任務(wù)的困境,為了打破這一瓶頸,我們基于Flow-GRPO探索了漸進(jìn)式雙任務(wù)強(qiáng)化策略,首次實(shí)現(xiàn)了在同一模型中,對“文生圖”和“圖像編輯”兩大任務(wù)的協(xié)同優(yōu)化——且互不干擾,能力同步進(jìn)化。
昆侖萬維作為中國領(lǐng)先的人工智能科技公司,過去數(shù)月,陸續(xù)開源了多個在行業(yè)內(nèi)取得 SOTA(State-of-the-Art)成就的大模型:中國首個面向AI短劇創(chuàng)作的視頻生成模型 SkyReels-V1、全球首個使用擴(kuò)散強(qiáng)迫框架的無限時長電影生成模型 SkyReels-V2,以及音頻驅(qū)動(audio-driven)人像視頻生成模型SkyReels-A3,不斷突破AI技術(shù)邊界。
在多模態(tài)領(lǐng)域,昆侖萬維不僅推出了將文本推理能力遷移至視覺的多模態(tài)推理模型「Skywork-R1V」系列,以 38B 的輕量級規(guī)模性能媲美閉源的大參數(shù)模型。同時昆侖萬維也前瞻性地布局了空間智能領(lǐng)域,推出了交互世界模型「Matrix-Game 2.0」與3D世界生成模型「Matrix-3D」。


產(chǎn)品與服務(wù)
聯(lián)系站長
關(guān)于我們