最近,AI 實(shí)驗(yàn)室 Andon Labs 進(jìn)行了一項引人注目的研究,專門評估了搭載頂級大模型的掃地機(jī)器人在完成簡單家務(wù)任務(wù)時的表現(xiàn)。實(shí)驗(yàn)的任務(wù)是讓這些機(jī)器人執(zhí)行一系列復(fù)雜的指令,比如 “把黃油遞給人”,其中涉及跨房間定位、分辨包裝、尋找移動的人類、完成交付以及返回充電等多步驟過程。
然而,結(jié)果讓人震驚。這些先進(jìn)的機(jī)器人在執(zhí)行任務(wù)時的成功率遠(yuǎn)遠(yuǎn)低于人類,具體數(shù)據(jù)顯示,Gemini2.5Pro 的成功率僅為40%,Claude Opus4.1為37%,而 GPT-5更是低至30%。這些數(shù)字表明,盡管它們具備強(qiáng)大的文本生成能力,但在實(shí)際的空間推理、環(huán)境理解和長期任務(wù)規(guī)劃等領(lǐng)域仍顯得力不從心。
研究團(tuán)隊指出,這種低成功率不僅在于技術(shù)的不足,還存在潛在的安全隱患。例如,一些機(jī)器人可能在操作過程中泄露機(jī)密文件,或者無法正確識別樓梯風(fēng)險,從而導(dǎo)致意外跌落。這一現(xiàn)象進(jìn)一步揭示了當(dāng)前大型語言模型(LLM)與機(jī)器結(jié)合所面臨的安全漏洞。
在科技巨頭紛紛涌入機(jī)器人行業(yè)的背景下,這項研究提醒我們,強(qiáng)大的文本生成能力并不能保證機(jī)器人能夠在現(xiàn)實(shí)世界中穩(wěn)定、安全地執(zhí)行任務(wù)。要讓 AI 機(jī)器人真正進(jìn)入家庭生活,我們還有很多工程和安全問題需要解決。
盡管這些智能設(shè)備在家庭生活中承載著巨大的期望,但從目前的研究結(jié)果來看,我們需要更加謹(jǐn)慎地對待它們的應(yīng)用。隨著技術(shù)的不斷進(jìn)步,希望未來的掃地機(jī)器人能夠克服這些障礙,為我們的日常生活帶來真正的便利。


產(chǎn)品與服務(wù)
聯(lián)系站長
關(guān)于我們