盡管近年來AIGC關鍵技術不斷突破,但圖像生成領域始終面臨著一個“兩難困境”:閉源模型性能強大但難以私有化部署;開源方案在輕量化與高性能之間難以取舍,且缺乏面向商用的專項能力。
據網經社產業電商臺(B2B.100EC.CN)獲悉,針對這一行業痛點,美團LongCat團隊近日宣布,開源其最新研發的LongCat-Image模型。該模型通過高性能模型架構設計、系統性的訓練策略和數據工程,以6B的緊湊參數規模,在文生圖與圖像編輯核心能力上逼近了更大尺寸的頭部模型,為開發者與產業界提供了一個“高性能、低門檻、全開放”的全新選擇。

▲模型架構
據介紹,LongCat-Image的核心優勢在于其架構設計與訓練策略。
具體來看,模型采用文生圖與圖像編輯同源的架構,結合漸進式學習策略,成功在6B參數下實現了指令遵循精準度、生圖質量與文字渲染能力的高效協同。
在圖像編輯方面,LongCat-Image的“可控性”表現突出,而性能突破的關鍵在于一套緊密協同的訓練范式和數據策略。
為有效繼承文生圖模型的知識和美感,同時避免文生圖后訓練階段收窄的狀態空間對編輯指令多樣性的限制,團隊一方面基于文生圖Mid-training階段模型進行初始化,并采用指令編輯與文生圖多任務聯合學習機制,深化對復雜多樣化指令的理解;另一方面,通過預訓練階段的多源數據及指令改寫策略,以及結合SFT階段引入的人工精標數據,最終實現了指令遵循精準度、泛化性和編輯前后視覺一致性的共同提升。
在GEdit-Bench和ImgEdit-Bench等權威基準測試中,LongCat-Image均達到開源SOTA(當前最佳)水平,可精準響應用戶的多樣化修改需求。
在中文文本渲染這一長期困擾業界的難題上,LongCat-Image也取得了很大進展,通過課程學習策略提升字符覆蓋度和渲染精準度:預訓練階段基于千萬量級合成數據學習字形,覆蓋通用規范漢字表的8105個漢字;SFT 階段引入真實世界文本圖像數據,提升在字體、排版布局上的泛化能力;在RL(強化學習)階段,引入OCR與美學雙獎勵模型,進一步提升文本準確性與背景融合自然度。
該模型在ChineseWord評測中以90.7的得分領先同類產品。無論是商業海報中的復雜筆畫,還是古詩詞插圖中的生僻字,LongCat-Image均能實現精準、自然的渲染,進一步拓展AI在設計領域的應用邊界。
為了提升生成圖像的審美與真實感,LongCat團隊還構建了系統性的數據篩選與對抗訓練框架。團隊在預訓練階段嚴格過濾低質量AIGC數據,并在RL階段創新性引入AIGC內容檢測器作為獎勵模型,利用其對抗信號逆向引導模型學習真實世界的物理紋理、光影和質感,從而顯著改善了AI繪圖常見的“塑料感”紋理。

▲客觀基準測試性能對比
全面的客觀與主觀評測數據均驗證了LongCat-Image的能力:在客觀基準測試中,其圖像編輯得分與中文渲染能力均領跑參評模型;在文生圖任務上,GenEval與DPG-Bench的優異表現證明了其相比頭部開源與閉源模型依然具備強競爭力。

▲人類主觀評分對比& 并列對比評估勝率
在更貼近用戶體驗的主觀評測(文生圖方面采用大規模的人工主觀評分與圖像編輯方面采用嚴格的并列對比評估)中,LongCat-Image在真實度方面相比主流開閉源模型表現出色,同時在文本-圖像對齊與合理度上達到開源SOTA水平;至于綜合編輯質量和視覺一致性方面,雖然與Nano Banana等商業閉源模型仍有一定差距,但在開源領域已形成領先優勢。
值得一提的是,為了構建一個更透明、開放、協作的開源生態系統,美團 LongCat團隊此次全面開源了從Mid-training到Post-training的文生圖多階段模型及圖像編輯模型,旨在支持從前沿研究到商業應用的全流程。相關資源已在Hugging Face和GitHub上線,用戶也可在官網longcat.ai上體驗。
與此同時,面向終端用戶的“LongCat APP”也迎來重大升級,全新上線的圖生圖功能與24個零門檻玩法模板,讓普通用戶也能一鍵生成海報、精修人像,實現“專業AI創作零門檻”。
美團LongCat團隊還表示:“我們堅信,真正的技術進步源于社區的集體智慧。現誠邀廣大開發者體驗模型、參與共建,與我們共同基于這個高效能模型,探索視覺生成的更多可能。”


產品與服務
聯系站長
關于我們