據(jù)AIbase報(bào)道,谷歌本周宣布為其原生音頻模型Gemini2.5Flash Native Audio推出重大更新,旨在將 AI 交互從簡單的“文本轉(zhuǎn)語音”跨越到真正的擬人化實(shí)時(shí)交流。
此次更新的核心在于“原生”處理能力。不同于傳統(tǒng) AI 需要先將語音轉(zhuǎn)為文字再處理的繁瑣流程,該模型能夠直接感知聲音中的語調(diào)、情感和停頓,從而實(shí)現(xiàn)更自然流暢的對話。
谷歌數(shù)據(jù)顯示,新版本對開發(fā)者指令的遵循率已從84% 躍升至90%,在處理多步驟工作流時(shí)展現(xiàn)出更高的精準(zhǔn)度。在音頻基準(zhǔn)測試ComplexFuncBench中,其函數(shù)調(diào)用準(zhǔn)確率達(dá)到71.5%,超越了 OpenAI gpt-realtime(66.5%)的表現(xiàn),顯示出在實(shí)時(shí)語音代理(Live Voice Agents)領(lǐng)域的強(qiáng)勁競爭力。
目前,這項(xiàng)技術(shù)已全面接入 Google AI Studio、Vertex AI、Gemini Live 以及 Search Live。開發(fā)者現(xiàn)可通過 Gemini API 體驗(yàn)這一升級(jí)版模型,利用其更強(qiáng)的一致性和多輪對話記憶能力,構(gòu)建更可靠、更具情緒感知力的 AI 助手。


產(chǎn)品與服務(wù)
聯(lián)系站長
關(guān)于我們