8月25日,群核科技在首屆技術開放日(TechDay)上正式發布其空間大模型最新成果:新一代空間語言模型SpatialLM 1.5與空間生成模型SpatialGen,并公布新模型后續的開源計劃。作為業界首個專注于3D室內場景認知與生成的大模型體系,群核空間大模型在真實感全息漫游、結構化可交互以及復雜室內場景處理方面展現出顯著優勢。
在開源模型之外,群核科技還首次分享了其AI團隊基于SpatialGen探索的AI視頻生成解決方案,旨在通過新范式解決時空一致性難題。
SpatialLM 1.5是一款基于大語言模型訓練的空間語言模型,支持用戶通過對話交互系統SpatialLM-Chat進行可交互場景的端到端生成。該模型不僅能理解文本指令,還能輸出包含空間結構、物體關系、物理參數的“空間語言”。例如,當用戶輸入簡單文本描述時,SpatialLM 1.5可自動生成結構化場景腳本,智能匹配家具模型并完成布局,并支持后續通過自然語言進行問答或編輯。
更關鍵的是,SpatialLM 1.5生成的場景富含物理正確的結構化信息,且能快速批量輸出大量符合要求的多樣化場景,可用于機器人路徑規劃、避障訓練、任務執行等場景,這將有效解決當前機器人訓練“缺數據”的難題。現場,群核科技首席科學家周子寒演示了機器人養老場景的應用,當輸入“去客廳餐桌拿藥”這一指令后,該模型不僅理解了相關的物體對象,還調用工具自動規劃出最優行動路徑,展示了機器人在復雜家庭環境中執行任務的潛力。
值得一提的是,其前代版本 SpatialLM 1.0 今年3月開源后,迅速登上Hugging Face趨勢榜前三,目前已有初創企業基于其代碼和架構訓練出自有模型,驗證了開源模式的技術輻射力。
SpatialGen 是一款基于擴散模型架構的多視角圖像生成模型,可根據文字描述、參考圖像和3D空間布局,生成具有時空一致性的多視角圖像,并支持進一步生成3D高斯(3DGS)場景并渲染漫游視頻。
SpatialGen依托群核科技海量室內3D場景數據與多視角擴散模型技術,其生成的多視角圖像能確保同一物體在不同鏡頭下始終保持準確的空間屬性和物理關系。此外,基于SpatialGen生成的3D高斯場景和真實感全息漫游視頻,用戶可以如同在真實空間中一樣,自由穿梭于生成的場景內,獲得沉浸式的體驗。
“目前,AIGC文生視頻與圖生視頻工具已經初步推動了全民視頻創作的潮流,但由于時空一致性問題的制約,其離真正的商業化應用仍有一定距離。我們正在研發一款基于3D技術的AI視頻生成產品,并計劃在今年內正式發布——這或許是全球首款深度融合3D能力的AI視頻生成Agent。通過構建3D渲染與視頻增強一體化的生成管線,有望顯著彌補當前AIGC視頻生成中時空一致性不足的問題。”群核科技AI產品總監龍天澤提到。
據了解,現有的AI視頻創作中,常因視角切換導致物體位置偏移、空間邏輯混亂、遮擋錯誤等問題。這背后的原因是多數視頻生成模型是基于圖像或視頻數據訓練,缺乏對3D空間結構和物理法則的理解和推演能力。
群核科技聯合創始人兼董事長黃曉煌表示,擁抱開源能夠發揮更大價值。只要技術有價值,同時賽道蓬勃發展,在里面一定能夠分到一杯羹。
活動現場,黃曉煌分享了群核科技在空間智能布局上的最新思考。基于酷家樂這一全球最大的空間設計平臺,群核科技構建了“空間編輯工具-空間合成數據-空間大模型”的空間智能飛輪,讓工具沉淀數據,用數據加速模型訓練,用模型提升工具體驗,再在工具的廣泛應用中沉淀更為豐富的場景數據。資料顯示,截至2025年6月30日,群核科技擁有包含超過4.41億個3D模型及超過5億個結構化3D空間場景。
“開源是我們戰略的重要關鍵詞之一。群核科技從2018年就開始啟動了開源戰略,逐步開放我們在數據和算法上的能力。相比大語言模型,當前空間大模型還處于初級階段。我們希望通過開源推動全球空間智能技術快速前進,成為全球空間智能服務提供商,推動屬于空間大模型的‘DeepSeek時刻’盡快來臨。”
據悉,本次技術開放日分享的兩款模型將逐步在HuggingFace、GitHub、魔搭社區等平臺面向全球開發者開源。其中,空間生成模型SpatialGen在技術開放日當天已可以在開源網站下載使用,而空間語言模型SpatialLM 1.5未來也將以“SpatialLM-Chat”形式完成開源。


產品與服務
聯系站長
關于我們