在近期的一項研究中,來自卡內基梅隆大學和BerriAI的研究團隊對GoogleGeminiPro進行了深入的評估,并發現其在多項任務中表現不如OpenAI的GPT-3.5Turbo。這一發現無疑是對Google在生成式人工智能領域與OpenAI競爭的雄心的一次沉重打擊。
Gemini Pro 與 GPT-3.5Turbo 對比
Gemini Pro是Google公司最新推出的大型語言模型(LLM),其在演示視頻中展示了其強大的功能。然而,研究團隊發現Gemini Pro在多數任務上的表現不如OpenAI的老款GPT-3.5Turbo。這一結論令Google研究人員感到挫敗,尤其是考慮到他們在Gemini的開發上投入了大量時間和精力。
盡管Gemini Pro的表現不佳,Google仍然保持樂觀態度,表示他們即將推出更強大的版本Gemini Ultra,預計將于2024年初問世。據Google的內部研究稱,Gemini Ultra在性能上超過了GPT-4。然而,這一消息并未能完全撫平研究結果給公司帶來的打擊。
研究方法與測試結果
研究團隊在LiteLLM平臺上測試了四個不同的LLM:Google Gemini Pro、OpenAI GPT-3.5Turbo、GPT-4Turbo和法國初創公司Mistral最新推出的Mixtral8x7B。測試內容涵蓋了STEM、人文和社會科學領域的57個多項選擇問題,以及一些與通用推理、數學和編程相關的任務。
研究結果顯示,在多項選擇問題的測試中,Gemini Pro的準確性低于GPT-3.5Turbo和GPT-4Turbo。Gemini Pro在人類性、形式邏輯、初等數學和專業醫學等領域的表現較差,其中一部分原因是Gemini在某些問題上拒絕回答,聲稱由于安全和內容限制無法遵循。然而,在安全和高中微觀經濟學等領域,Gemini Pro的表現略優于GPT-3.5Turbo,但進步有限。
Gemini在語言翻譯領域表現出色,優于GPT-3.5Turbo和GPT-4Turbo。然而,研究指出,Gemini Pro在某些語言對中阻止回應的情況下表現不佳,這暗示了一種過于激進的內容審查/安全系統。
對Google AI雄心和用戶的影響
研究結果明顯對Google在生成式人工智能領域與OpenAI競爭的雄心構成了打擊。由于更強大的Gemini Ultra模型要到明年初才會發布,這可能意味著Google在AI性能上將至少在未來一段時間內落后于競爭對手。盡管如此,研究也顯示,Mistral公司的Mixtral8x7B模型在大多數方面的表現也不如GPT-3.5Turbo,為Google在AI領域帶來一絲希望。
盡管Gemini在某些方面表現出色,但研究結果讓人難以忽視OpenAI目前在消費者和企業面向的生成式人工智能領域的領先地位。隨著Gemini Ultra的推出,Google可能會迎頭趕上,但目前GPT-4仍然是首選,至少直到Gemini Ultra在新的一年發布。


產品與服務
聯系站長
關于我們