谷歌DeepMind近日發(fā)布博客文章,正式推出全新的Gemini Robotics On-Device本地化機(jī)器人AI模型。該模型采用視覺(jué)-語(yǔ)言-動(dòng)作(VLA)架構(gòu),能夠在無(wú)需云端支持的情況下實(shí)現(xiàn)實(shí)體機(jī)器人的精準(zhǔn)控制。
新模型的***亮點(diǎn)在于完全獨(dú)立運(yùn)行于機(jī)器人設(shè)備本地,實(shí)現(xiàn)了低延遲響應(yīng)能力。這一特性使其特別適用于網(wǎng)絡(luò)連接不穩(wěn)定的環(huán)境,如醫(yī)療場(chǎng)所等關(guān)鍵應(yīng)用場(chǎng)景。
在操作精度方面,該模型展現(xiàn)出令人印象深刻的能力,能夠完成打開(kāi)包袋拉鏈、疊衣服、系鞋帶等高難度精細(xì)操作任務(wù)。系統(tǒng)采用雙機(jī)械臂設(shè)計(jì),目前已適配ALOHA、Franka FR3及Apollo人形機(jī)器人平臺(tái)。
谷歌為開(kāi)發(fā)者提供了完整的Gemini Robotics SDK工具包,大幅降低了定制門檻。開(kāi)發(fā)者僅需通過(guò)50-100次任務(wù)演示即可為機(jī)器人定制全新功能,同時(shí)系統(tǒng)還支持MuJoCo物理模擬器進(jìn)行預(yù)先測(cè)試。
在安全性方面,該系統(tǒng)建立了完善的保障機(jī)制。通過(guò)Live API實(shí)施語(yǔ)義安全檢測(cè),確保機(jī)器人行為的合規(guī)性,而底層安全控制器則負(fù)責(zé)***管理動(dòng)作的力度與速度,防止意外傷害。
項(xiàng)目負(fù)責(zé)人Carolina Parada表示:"該系統(tǒng)充分借鑒了Gemini的多模態(tài)世界理解能力,就如同Gemini能夠生成文本、代碼和圖像一樣,現(xiàn)在它也能生成精準(zhǔn)的機(jī)器人動(dòng)作。"
目前,該模型僅面向可信測(cè)試計(jì)劃的開(kāi)發(fā)者開(kāi)放。值得注意的是,該模型基于Gemini2.0架構(gòu)開(kāi)發(fā),相比谷歌***新的Gemini2.5版本存在一定技術(shù)代差。


產(chǎn)品與服務(wù)
聯(lián)系站長(zhǎng)
關(guān)于我們