近日,UCLA等機構的研究人員推出了具身智能大模型MultiPLY,該模型不僅具備多模態感知能力,包括觸覺、視覺、聽覺等,使得AI能夠更全面地與3D環境進行交互。這標志著具備多感官能力的大模型成為未來AI發展的重要方向。
MultiPLY在多任務實驗中表現出色,包括對象檢索、工具使用、多感官標注和任務分解等,刷新了當前技術水平。為了訓練這一新模型,研究人員創建了Multisensory-Universe數據集,包含50萬條多感官數據,涵蓋了多種任務類型。盡管面臨挑戰,如當前缺少訓練多感官交互的數據和正確表示3D場景的多感官信息,但MultiPLY的出現為實現AGI提供了新的方向。
在模型訓練階段,研究人員引入了新物體,并通過觸覺、環境聲音、撞擊聲音、溫度等多種傳感器數據獲取方式,讓模型學會感知物體的多模態信息。
為此,研究人員提出了多感官全景生成管線,通過不同傳感器收集觸覺、聲音、溫度等信息。整個訓練過程中,MultiPLY通過智能體與3D環境交互,生成多感官觀測值,并在推理過程中不斷生成動作token,展現出強大的多模態能力。這一研究的出現,為構建更全面、具備多感官能力的大模型提供了新思路。


產品與服務
聯系站長
關于我們