Google 剛剛宣布了其迄今為止最強大的 AI 模型套件 Gemini,但該公司已被指控在其宣傳視頻中對其性能進行了誤導性表述。

根據彭博社專欄作家帕爾米·奧爾森(Parmy Olson)的觀點文章,Google 在一段視頻中誤導了公眾對Gemini的理解。本周早些時候,Google 在宣布過程中播放了一段令人印象深刻的名為「what the quack」的操作視頻,奧爾森在文章中指出,視頻中展示的 Gemini 似乎極具能力,甚至可能過于強大。
這段六分鐘的視頻展示了 Gemini 的多模態能力(例如,結合語音會話提示和圖像識別)。視頻中,Gemini 似乎能快速識別圖像——甚至是連線畫——在幾秒內作出反應,并實時追蹤杯子和紙球游戲中的紙團。雖然人類可以做到這一切,但這是一種能夠識別和預測接下來會發生什么的 AI。
然而,如果點擊 YouTube 上該視頻的描述,Google 有一個重要的聲明:
「出于本演示的目的,延遲已減少,并且為了簡潔起見,Gemini 輸出也已縮短。」
奧爾森對此表示不滿。她在彭博社的文章中指出,Google 在被要求評論時承認,視頻演示并非實時進行,而是使用了原始視頻的靜態圖像幀,然后撰寫了文本提示供 Gemini 回應。奧爾森寫道:「這與 Google 似乎在暗示的內容大相徑庭:一個人可以與 Gemini 順暢地進行語音對話,同時 Gemini 實時觀察并回應周圍的世界。」
公平地說,公司經常編輯演示視頻,特別是許多公司希望避免實時演示帶來的技術故障。稍微調整演示是常見的。但 Google 有可疑視頻演示的歷史。人們曾懷疑 Google 的 Duplex 演示(記得 Duplex 嗎,那個能打電話給美發沙龍和餐廳預訂的 AI 語音助手?)是否真實,因為視頻中明顯缺乏環境噪音和過于樂于助人的員工。對 AI 模型的預錄制視頻也使人們更加懷疑。
在這種情況下,奧爾森表示,Google 是在「炫耀」,以轉移人們對 Gemini 落后于 OpenAI 的 GPT 的事實的注意力。
Google 對此表示不同意。在被問及演示的有效性時,它指向了 Google DeepMind 的研究副總裁兼深度學習負責人(同時也是 Gemini 聯合負責人)奧里奧爾·維尼亞爾斯(Oriol Vinyals)的一篇帖子,該帖子解釋了團隊是如何制作視頻的。
維尼亞爾斯說:「視頻中的所有用戶提示和輸出都是真實的,為了簡潔而縮短。視頻展示了使用 Gemini 構建的多模式用戶體驗可能的樣子。我們制作它是為了激發開發者的靈感。」
他補充說,團隊向 Gemini 提供了圖像和文本,并要求它通過預測接下來會發生什么來作出回應。
這當然是處理這種情況的一種方式,但對于 Google 來說,這可能不是正確的選擇——至少在公眾眼中,Google 已經因 OpenAI 今年取得的巨大成功而顯得措手不及。如果它想激發開發者的靈感,不是通過精心編輯的炫目短片,這些短片可能會誤導 AI 的能力。而是通過讓記者和開發者真正體驗產品。讓人們在小型公開測試版中與 Gemini 一起做蠢事。向我們展示它到底有多強大。


產品與服務
聯系站長
關于我們