Google DeepMind 發布了一份長達150頁的技術報告,詳細介紹了Gemini1.5Pro 和 Gemini1.5Flash 兩個模型的性能特點和架構以及這個多模態大型模型的最新進展。
Gemini1.5于今年2月上線,通過工程優化、MoE架構等策略顯著提升了性能和速度。該模型具有更長的上下文理解能力、更強的推理能力,能夠處理跨模態內容。
報告中提到了兩個新型號:
Gemini1.5Pro:在多個功能和基準測試中超越了2月份的版本。
Gemini1.5Flash:輕量級變體,旨在提高效率,性能損失極小。
Gemini1.5Flash是一個Transformer解碼器模型,擁有超過2M的上下文和多模態功能,優化了張量處理單元(TPU)的使用,并減少了模型服務延遲。它能夠并行計算注意力和前饋分量,使用高階預處理方法提高訓練質量。
報告還評估了Gemini1.5在處理英語、中文、日語和法語查詢時,每個輸出字符的平均時間。結果顯示,Gemini1.5Flash在所有測試語言中實現了最快的生成速度。
此外,Gemini1.5在跨模態長上下文檢索任務上實現了近乎完美的召回,提高了長文檔問答、長視頻問答和長上下文自動語音識別的最佳水平,并在一系列廣泛的基準測試中匹配或超越了Gemini1.0Ultra的性能。
Gemini1.5Pro在5月份的版本在多個推理、編碼、視覺和視頻基準測試中進行了改進,而音頻和翻譯性能保持不變。
報告還介紹了Gemini1.5Pro數學增強版本的性能,它在Hendryck的MATH基準測試中取得了91.1%的突破性性能,解決了此前模型無法解決的亞太數學奧林匹克題目。
最后,報告強調了Gemini1.5在現實世界的應用潛力,展示了它與專業人士合作完成任務的能力,在10個不同的工作類別中可節省26-75%的時間。此外,該模型還能學會將英語翻譯成Kalamang,一種只有不到200人使用的語言,與人類學習者的水平相當。
Gemini1.5的技術報告展示了谷歌在大型多模態模型領域的最新進展,其性能的提升和應用潛力為未來的AI技術發展提供了新的方向。


產品與服務
聯系站長
關于我們