在最近舉行的 SIGGRAPH 國際計算機圖形學(xué)和交互技術(shù)會議上,英偉達展示了一系列針對機器人開發(fā)者的新技術(shù),其中最引人注目的是他們推出的開源物理 AI 模型 ——Cosmos Reason。該模型參數(shù)量達到70億,旨在為機器人提供更高效的視覺推理能力。

英偉達指出,自從 OpenAI 推出 CLIP 模型以來,視覺語言模型在計算機視覺領(lǐng)域取得了顯著進展,尤其是在物體識別和模式識別等任務(wù)中。然而,傳統(tǒng)模型在面對復(fù)雜的多步驟任務(wù)時常常力不從心,尤其是在處理模糊或新穎的現(xiàn)實情境時。Cosmos Reason 通過其卓越的記憶和理解能力,使得機器人能夠像人類一樣進行推理,從而在現(xiàn)實世界中做出更加合理的行動決策。
在英偉達展示的實際應(yīng)用場景中,運行該視覺推理模型的機器人手臂成功地識別出 “面包 + 烤面包機” 的組合,并推導(dǎo)出合理的下一步動作是將面包放入烤面包機進行烘烤。這一過程被稱為 “機器人規(guī)劃與推理”,展示了 Cosmos Reason 在處理復(fù)雜指令時的高效性和靈活性。
除了作為機器人 “推理大腦” 外,Cosmos Reason 還可以廣泛應(yīng)用于其他 AI 領(lǐng)域。例如,它能夠自動化處理大規(guī)模、多樣化的訓(xùn)練數(shù)據(jù)集,進行整理和標(biāo)注。此外,它還可以從大量視頻數(shù)據(jù)中提取重要信息,并進行有效的分析。當(dāng)前,該模型已經(jīng)投入商業(yè)化運營,英偉達內(nèi)部的機器人和自動駕駛團隊正在使用它來進行數(shù)據(jù)整理和標(biāo)注工作。
值得一提的是,優(yōu)步也在利用 Cosmos Reason 為其自動駕駛訓(xùn)練數(shù)據(jù)提供標(biāo)注和生成說明。而麥格納國際則通過該模型開發(fā)全自動即時配送解決方案,旨在幫助車輛更快地適應(yīng)新的城市環(huán)境。此外,VAST Data 和 Milestone Systems 等公司也在交通監(jiān)控和視覺檢測等領(lǐng)域應(yīng)用這一技術(shù)。
除了 Cosmos Reason,英偉達還在 Cosmos 世界模型中新增了 Cosmos Transfer-2,旨在加速3D 仿真場景的合成數(shù)據(jù)生成。同時,英偉達更新了 Omniverse 軟件開發(fā)工具包,并推出了新的神經(jīng)重建庫,進一步擴展了開發(fā)者的工具選擇。


產(chǎn)品與服務(wù)
聯(lián)系站長
關(guān)于我們