久久免费国产视频,97久久超碰国产精品电影,日韩午夜电影在线观看

　　9月1日，階躍星辰正式發布最強開源端到端語音大模型Step-Audio2mini。該模型在多個國際基準測試集上取得了SOTA（State-of-the-Art）成績，將語音理解、音頻推理與生成統一建模，在音頻理解、語音識別、跨語種翻譯、情感與副語言解析、語音對話等任務中表現突出，并率先支持語音原生的Tool Calling能力，可實現聯網搜索等操作。Step-Audio2mini被形容為“聽得清楚、想得明白、說得自然”，其模型現已上線GitHub、Hugging Face等平臺，供用戶下載、試用并反饋。

　　Step-Audio2mini在多個關鍵基準測試中取得SOTA成績，在音頻理解、語音識別、翻譯和對話場景中表現卓越，綜合性能超越Qwen-Omni、Kimi-Audio等所有開源端到端語音模型，并在大部分任務上超越GPT-4o Audio。在通用多模態音頻理解測試集MMAU上，Step-Audio2mini以73.2的得分位列開源端到端語音模型榜首;在衡量口語對話能力的URO Bench上，Step-Audio2mini在基礎與專業賽道均拿下開源端到端語音模型最高分;在中英互譯任務上，Step-Audio2mini在CoVoST2和CVSS評測集上分別取得39.3和29.1的分數，大幅領先GPT-4o Audio和其他開源語音模型;在語音識別任務上，Step-Audio2mini取得多語言和多方言第一，其中開源中文測試集平均CER（字錯誤率）3.19，開源英語測試集平均WER(詞錯誤率)3.50，領先其他開源模型15%以上。

微信截圖_20250901101946.png

　　Step-Audio2mini通過創新架構設計，有效解決了此前語音模型存在的問題，做到“走腦又走心”。它采用真端到端多模態架構，突破傳統ASR+LLM+TTS三級結構，實現原始音頻輸入到語音響應輸出的直接轉換，架構更簡潔、時延更低，并能有效理解副語言信息與非人聲信號。此外，Step-Audio2mini在端到端語音模型中首次引入鏈式思維推理（CoT）與強化學習聯合優化，能對情緒、語調、音樂等副語言和非語音信號進行精細理解、推理并自然回應。模型還支持包括web檢索等外部工具，有助于解決幻覺問題，并賦予模型在多場景擴展上的能力。

　　Step-Audio2mini的能力在案例中得到了生動展示。它能精準識別大自然的聲音、精湛的配音，還能實時搜索獲得行業最新資訊。此外，Step-Audio2mini還能控制語速，輕松應對不同場景的對話需求。當被問及哲學難題時，Step-Audio2mini能將抽象問題轉化為極簡方法論，展現強大的邏輯推理能力。

階躍發布端到端語音大模型Step-Audio 2 mini

延展資訊

最新新聞

熱門新聞