9月1日,階躍星辰正式發布最強開源端到端語音大模型Step-Audio2mini。該模型在多個國際基準測試集上取得了SOTA(State-of-the-Art)成績,將語音理解、音頻推理與生成統一建模,在音頻理解、語音識別、跨語種翻譯、情感與副語言解析、語音對話等任務中表現突出,并率先支持語音原生的Tool Calling能力,可實現聯網搜索等操作。Step-Audio2mini被形容為“聽得清楚、想得明白、說得自然”,其模型現已上線GitHub、Hugging Face等平臺,供用戶下載、試用并反饋。
Step-Audio2mini在多個關鍵基準測試中取得SOTA成績,在音頻理解、語音識別、翻譯和對話場景中表現卓越,綜合性能超越Qwen-Omni、Kimi-Audio等所有開源端到端語音模型,并在大部分任務上超越GPT-4o Audio。在通用多模態音頻理解測試集MMAU上,Step-Audio2mini以73.2的得分位列開源端到端語音模型榜首;在衡量口語對話能力的URO Bench上,Step-Audio2mini在基礎與專業賽道均拿下開源端到端語音模型最高分;在中英互譯任務上,Step-Audio2mini在CoVoST2和CVSS評測集上分別取得39.3和29.1的分數,大幅領先GPT-4o Audio和其他開源語音模型;在語音識別任務上,Step-Audio2mini取得多語言和多方言第一,其中開源中文測試集平均CER(字錯誤率)3.19,開源英語測試集平均WER(詞錯誤率)3.50,領先其他開源模型15%以上。

Step-Audio2mini通過創新架構設計,有效解決了此前語音模型存在的問題,做到“走腦又走心”。它采用真端到端多模態架構,突破傳統ASR+LLM+TTS三級結構,實現原始音頻輸入到語音響應輸出的直接轉換,架構更簡潔、時延更低,并能有效理解副語言信息與非人聲信號。此外,Step-Audio2mini在端到端語音模型中首次引入鏈式思維推理(CoT)與強化學習聯合優化,能對情緒、語調、音樂等副語言和非語音信號進行精細理解、推理并自然回應。模型還支持包括web檢索等外部工具,有助于解決幻覺問題,并賦予模型在多場景擴展上的能力。
Step-Audio2mini的能力在案例中得到了生動展示。它能精準識別大自然的聲音、精湛的配音,還能實時搜索獲得行業最新資訊。此外,Step-Audio2mini還能控制語速,輕松應對不同場景的對話需求。當被問及哲學難題時,Step-Audio2mini能將抽象問題轉化為極簡方法論,展現強大的邏輯推理能力。


產品與服務
聯系站長
關于我們