AI視頻生成領域的明星公司Runway正式殺入“世界模型”賽道。周四,該公司推出其首個通用世界模型GWM-1,宣稱能通過逐幀像素預測,構建一個理解物理規律與時間演化的動態仿真環境。這一舉措將Runway與谷歌、OpenAI等巨頭并列,共同競逐下一代具身智能與通用人工智能的核心基礎設施。
所謂“世界模型”,是指AI系統在內部構建對現實世界運行機制的模擬,從而無需為每一種真實場景單獨訓練,就能實現推理、規劃與自主行動。Runway認為,通往這一目標的最優路徑,是讓模型直接學會預測像素——即從視頻幀中學習物理、光照、幾何與因果關系。公司CTO Anastasis Germanidis在直播中強調:“要構建世界模型,我們必須先打造一個極其強大的視頻模型。在足夠規模和高質量數據的支撐下,模型自然能獲得對世界運作方式的深層理解。”
GWM-1并非單一產品,而是以三個專業化分支先行落地:GWM-Worlds、GWM-Robotics 和 GWM-Avatars。其中,GWM-Worlds 是一個交互式應用,用戶可通過文字提示或圖像設定初始場景,模型隨即生成一個以24幀/秒、720p分辨率運行的動態世界。該空間不僅具備連貫的幾何結構與光照邏輯,還能在用戶“探索”過程中實時生成新內容。Runway指出,這一能力不僅適用于游戲開發,更可作為訓練AI智能體在物理世界中導航與決策的虛擬沙盒。
在機器人領域,GWM-Robotics 通過合成數據注入天氣變化、動態障礙物等變量,幫助機器人在高風險或難以復現的真實場景中預演行為。更重要的是,該系統能識別機器人在何種條件下可能違反安全策略或指令,為可靠性驗證提供新工具。Runway已計劃通過SDK向合作企業開放此模塊,并透露正與多家機器人公司展開深度對話。
而GWM-Avatars則致力于生成具備真實人類行為邏輯的數字人,用于溝通、培訓等場景——這一方向與D-ID、Synthesia、Soul Machines乃至谷歌的數字人項目形成呼應。盡管目前三大分支為獨立模型,但Runway明確表示,最終目標是將其融合為統一的通用世界模型。
與此同時,Runway還對其本月早些時候發布的Gen4.5視頻生成模型進行了重大升級。新版支持原生音頻生成、一分鐘時長的多鏡頭視頻合成,并能保持角色一致性、添加對白與環境音效。用戶還可對已有視頻的音頻進行編輯,或對任意長度的多鏡頭作品進行精細化調整。這一系列能力使Runway的視頻工具愈發接近競爭對手Kling近期推出的“一體化視頻套件”,也標志著AI視頻生成正從創意原型邁向可投入生產的工業級工具。目前,升級后的Gen4.5已向所有付費用戶開放。
隨著世界模型從理論走向工程落地,Runway正試圖用“像素即物理”的哲學,搭建一座連接虛擬仿真與現實行動的橋梁——在這里,AI不僅會看、會說,更開始理解世界如何運轉。


產品與服務
聯系站長
關于我們