2024年的 AI 圖像生成技術,又提升到了一個新高度。
技術的飛速迭代,讓這一領域的商業化落地進入加速階段。前有 Midjourney v6史詩級更新,后有開源巨頭 Stable Diffusion3獨領風騷,而 DALL?E3背靠 ChatGPT 這棵「大樹」,也收獲了眾多用戶的關注。
當然了,在這條賽道上,來自國內的選手毫不遜色。
近日,國產大模型「頂流」—— 字節跳動豆包大模型,迎來一場集中放送:
在2024火山引擎 AI 創新巡展成都站活動上,豆包大模型團隊公布了豆包大模型的最新進展,以及文生圖模型、語音模型等垂直模型的新升級。
與此同時,豆包大模型家族的最新成員 ——「豆包?圖生圖模型」正式面世,一口氣上新了50多項玩法。
作為國產大模型中的實力之作,豆包大模型在今年5月通過火山引擎正式對外提供服務。盡管入場時間不是最早,但今天的豆包大模型已經是國內使用量最大、應用場景最豐富的大模型之一。
這場活動中,火山引擎還透露了一個數字:截至2024年7月,豆包大模型的日均 tokens 使用量已經超過5000億。
與此同時,豆包大模型的技術實力在短時間內也經歷了多次迭代。在多個公開評測集以及專業的第三方評測中,豆包通用模型 pro 均表現出眾,是得分最高的國產大模型。
至于豆包大模型的「功力」究竟練到了哪一層?我們不妨體驗一把再下結論。
國產 AI 猛猛上新
豆包大模型為什么能俘獲用戶的心?
我們就從剛剛更新的圖像生成方面來考驗一下豆包大模型。對 AIGC 應用接觸比較多的用戶可能都有一個感受:AI 圖像生成類產品越來越卷,彼此之間也越來越難拉開差距。
這種直觀感受的變化,幾乎能完全對應上底層技術的演進節點。與一些早期 GAN 模型的生成水準相比,如今的圖像生成質量已經讓大部分人覺得「真假難辨」。在這個過程中,學界和業界對圖像生成質量的評估維度也發生了巨大變化:像 FID Score 這樣的指標已經不足以全面反映模型能力,人類評估成為了評估圖像生成質量的黃金標準。盡管經濟和時間成本更高,但這種方式可以提供更加細微且可解釋的感知反饋。
以「文生圖」方向為例,現階段的目標可以總結為對綜合維度的全面提升,具體可拆分為圖像美感、圖文一致性、內容創造、復雜度適應性四個維度。在這幾方面,豆包?文生圖都達到了業界較高水準。
在用戶感受最強烈的「圖文匹配」維度上,豆包?文生圖模型不斷進化,比如很好地理解多數量主體、主客體關系、人物構造和空間構造等信息:
Prompt:古代日本鬼機甲、中國朋克、太空歌劇、科幻小說、古代未來主義、神秘、明亮、不對稱密集構圖、32k 超高清、電影光、氣氛光、電影、柔和的調色板、超現實、自由度、自然體積光。
而在「畫面效果美感」層面,豆包?文生圖模型非常善于從光影明暗、氛圍色彩和人物美感方面進行畫面質感提升:
Prompt:OC 渲染,3D 設計,長發小女孩,人臉朝著鏡頭,中心構圖,帽子上長滿鮮花,輪廓清晰,面部細節放大,帽子細節放大,畫質高清,超清畫質,深景深,背景是花海
此外,作為國產 AI 精品之作,面對中國人物、物品、朝代、美食、藝術風格等元素,豆包?文生圖模型也展現出了更加深刻的理解力。
Prompt:超寫實畫風,唐代,長安,元宵節夜市,唐代侍女,燈火輝煌,細節完美,特寫,熱鬧非凡,超高清,4K
Prompt:國風水墨繪畫,點彩、肌理磨砂、陳家泠、大面留白的構圖,高清16k故宮遠景,雪景、流暢建筑結構,層次,白色主色,淡雅
基于雙語大模型文本編碼器,豆包?文生圖模型對英文 Pormpt 的理解同樣精準:
Prompt:butterfly candle, in the style of y2k aesthetic, pop-culture-infused, jewelry by painters and sculptors, text and emoji installations, money themed, playful animation, humble charm
Prompt:World of Warcraft, outdoor scene, green grassland with a river flowing through it, rocky cliffside with a cave entrance, a small wooden bridge over the waterway, lush trees and wildflowers on both sides of the stream, white clouds in a blue sky, fantasy landscape concept art style, game illustration design, concept design for world building, concept art in the style of game illustration design,3D
不久之后,豆包?文生圖模型還將升級到2.0版本。豆包視覺團隊表示,新版本將比當前模型的生成效果有40% 的提升,對比當前版本,圖文一致性和美感會有大幅提升。
與文生圖略有不同,在圖像美感和結構等因素之外,圖生圖更算是一種應用模型,質量評估更加關注「一致性」和「相似度」兩個維度。豆包?圖生圖模型的能力涵蓋「AI 寫真」、「圖像風格化」、「擴圖 / 局部重繪」三個主要方向,共提供了50余種風格玩法。
「AI 寫真」算是以圖生圖方向中使用頻率非常高的一種玩法,豆包?圖生圖模型的一大亮點是高度還原人物特征,能夠精準捕捉輪廓、表情、姿態等多維特征,輕松生成定制化寫真:
豆包?圖生圖模型還能具備優秀的圖片擴展、局部重繪和涂抹能力,在邏輯合理的前提下,還能充滿想象力。
比如在下方的任務中,用戶想要實現自然的局部消除,豆包?圖生圖模型生成結果也做到了平滑過渡:
對于只想局部進行重繪的需求,豆包?圖生圖模型能夠精準修改圖像局部內容,無縫融合原有畫面。比如將粉色外套改為藍色牛仔外套:
面對下方的人物照背景擴圖任務,豆包?圖生圖模型給出的結果,實現了良好的景觀結構及光線保持:
豆包大模型,如何躋身圖像生成賽道上游?
感受完這一波 Demo,我們好奇:是從什么時候開始,豆包大模型在圖像生成方面有了這么深厚的實力?
兩年前,Stable Diffusion 的橫空出世,宣告了 AIGC 時代的正式開啟。隨后,AI 社區形成了巨大的迭代效應,基于各個版本 Stable Diffusion 開源模型的 AI 圖像生成工具被迅速創造出來,不斷刷新生成質量和速度的上限。
不到半年后,DiT 架構的提出,驗證了 Scaling Law 在圖像生成領域同樣成立。越來越多的研究選擇用 Transformer 替代傳統的 U-Net,讓擴散模型繼承了其他領域的最佳實踐和訓練方法,增強了圖像生成模型的可擴展性、魯棒性和效率,還提高了對文字提示的理解能力和圖像生成質量,有效增加了定制化、生成內容可控性方面的優勢。
早在豆包大模型誕生前的幾年,字節跳動就開始關注圖像生成相關技術,近兩年更是持續增加這方面的研發投入,保持著創新成果的高頻產出。這也是為什么豆包大模型一經面世,就可以驚艷所有人。
Scaling Law 被驗證帶來的另外一個啟示是,算力基礎提升、訓練數據增加、數據質量改善成為了圖像生成模型能力提升的關鍵因素。在這些方面,字節跳動自研的豆包大模型在圖像生成能力進化上具備天然優勢。
但 Stable Diffusion 模型的訓練和推理仍然是一個復雜且耗時的過程,比如,擴散模型在推理過程中天然存在的多步數迭代去噪特性會導致較高的計算成本。如何在提升生成質量的同時加快速度,成為了圖像生成領域的關鍵問題。
豆包視覺團隊提出了多項創新成果,從不同的維度嘗試解決這個難題,并將這些成果開放給了 AI 社區。
一項代表性的成果是Hyber-SD,這是一種新穎的擴散模型蒸餾框架,在壓縮去噪步數的同時可保持接近無損的性能,在 SDXL 和 SD1.5兩種架構上都能在1到8步內生成中實現 SOTA 級別的圖像生成。(https://huggingface.co/ByteDance/Hyper-SD)
另外一項研究SDXL- Lightning則通過一種名為「漸進式對抗蒸餾」(Progressive Adversarial Distillation)的創新技術,實現了生成質量和生成速度的雙重提升:僅需短短2步或4步,模型就能生成極高質量和分辨率的圖像,將計算和時間成本降低了十倍,而且能在實現更高分辨率和更佳細節的同時保持良好的多樣性和圖文匹配度。(https://huggingface.co/ByteDance/SDXL-Lightning)
同時,豆包視覺團隊還提出了一個利用反饋學習全面增強擴散模型的統一框架UniFL。通過整合感知、解耦和對抗性反饋學習,這個框架不僅在生成質量和推理加速方面表現優秀,還在 LoRA、ControlNet、AnimateDiff 等各類下游任務中展現出了很好的泛化能力。(https://arxiv.org/pdf/2404.05595)
眾所周知,Stable Diffusion 的核心功能是從文本生成圖像,而 ControlNet、Adapter 等技術的融合,能夠在保留部分圖像信息的同時添加一些額外控制條件,引導生成與給定參考圖像「相似」的結果。這些技術的融合演變出了我們今天見到的各項「圖生圖」功能,并進一步消除了 AI 圖像生成技術的商用門檻。
在這方面,豆包視覺團隊同樣有深厚技術積累,僅今年就在國際計算機視覺頂會 CVPR 中發表了十多篇論文,提出了數十項相關專利。
針對圖像Inpaint/Outpaint問題,豆包視覺團隊提出了ByteEdit。關鍵創新包括三點:首先,增大訓練數據量級,兼容自然圖像輸入、mask 輸入、無 prompt 輸入,讓模型「看到」更多泛化場景;其次,引入一致性獎勵模型,重點提升生成結果一致性,讓希望填充的區域和非填充區域更加的和諧;然后,引入漸進式的分階段對抗訓練策略,在不損失模型性能條件下實現速度的提升。(https://byte-edit.github.io)
針對ID 保持,豆包視覺團隊提出了PuLID,通過引入一個新的訓練分支,在訓練中加入了對比對齊損失和更精確的 ID 損失,讓 ID 適配器學習如何在注入的 ID 信息的同時,減少對原模型行為的破壞,從而在保證較高 ID 相似度的同時,兼顧編輯能力、風格化能力以及畫面質量等方面的效果。(https://www.hub.com/ToTheBeginning/PuLID)
針對IP 保持,豆包視覺團隊提出了一種「參考圖 IP - 文本」解耦控制的通用場景 IP 定制化生成方法RealCustom,對于任意開放域物體或人物 IP 均可實現無需微調的實時定制化生成。(https://corleone-huang.github.io/realcustom/)
「更強模型、更低價格、更易落地」
短短兩年內,AI 在圖像生成上的持續進步,打破了長期存在的專業門檻,讓任何人都可以創造出高質量的視覺作品,帶來了一場前所未有的革命。豆包大模型的圖像生成能力,已經為字節跳動旗下多個應用提供技術支持,包括抖音、剪映、醒圖、即夢、豆包、星繪。對于大眾來說,AIGC 已經實實在在地改變了生活。
但從企業用戶的角度來說,這些最前沿的技術仍然存在一些應用壁壘,涉及數據、人才、算力等多方面因素。對于各行各業的用戶來說,即使有了強大的開源模型可供選擇,也需要解決計算資源、專業知識、模型微調等方面的挑戰。
成本的全方位降低,才是推動大模型真正實現價值創造的關鍵因素。
自發布以來,豆包大模型正在通過火山引擎源源不斷地向千行百業輸出技術能力,推動大模型技術實現更廣泛深入的行業落地。
目前,包括豆包?文生圖模型和豆包?圖生圖模型在內,豆包大模型家族的成員數量已經達到了10個。這些針對應用場景細分的模型都會上線火山方舟,開放給火山引擎的眾多企業客戶合作共創。
飛速增長的使用量,也在幫助豆包大模型持續打磨自身能力。自2024年5月15日豆包大模型發布至今,短短兩個月內,平均每家企業客戶的日均 tokens 使用量已經增長了22倍。
豆包大模型家族「集體照」。
同時,火山引擎提供了更豐富的核心插件、更強大的系統性能以及更優質的平臺體驗,企業可根據自身業務場景需求靈活選擇、快速落地。比如,依靠豆包?圖生圖模型,客戶利用幾張圖片即可訓練專屬的數字分身。
在很多情況下,價格仍然是客戶的首要考慮因素。火山引擎正是率先將最強模型版本降價的行業先行者,以更強模型、更低價格滿足企業復雜業務場景需求,真正推動大模型落地。
憑借充沛 GPU 算力資源池,并通過潮汐、混部等方式,實現資源的高利用率和極致降低成本,即使是在大模型價格戰越來越激烈的未來,火山引擎所提供的大模型服務仍然保持著絕對吸引力。
中國公司正在開啟大模型競爭的下一章
轟轟烈烈的百模大戰之后,海內外的大模型快速涌現。盡管有 OpenAI 等一系列強大的競爭對手,但豆包大模型還是殺出了自己的一條路。
過去一段時間,人們喜歡談論國產大模型技術的追趕。從「追趕」到「媲美」,很多中國團隊只用了一年、半年時間,這其中也包括豆包大模型團隊。
短時間內躋身圖像生成這條賽道的上游,與豆包大模型團隊在研發和人才方面的投入密不可分。近幾年,越來越多頂尖大模型人才的加入,純粹極致的技術研究氛圍,大規模的研發資源投入,都是成就豆包這一國產大模型代表作的重要因素。
特別是在應用場景優勢的加持下,當大模型被「用起來」的這天,人們看到了中國大模型走進千行百業時的充足「后勁」。
可以期待的是,大模型這條賽道的競爭正在開啟新篇章,而在新的章節里,國產大模型將有機會書寫更加濃墨重彩的一筆。


產品與服務
聯系站長
關于我們