近日,階躍星辰正式推出了最新的開源端到端語音大模型 ——Step-Audio2mini。這款模型在多個國際基準(zhǔn)測試中表現(xiàn)優(yōu)異,獲得了 SOTA(最先進(jìn)技術(shù))成績,令人矚目。Step-Audio2mini 不僅在語音理解和音頻生成方面能力強(qiáng)大,還首次將音頻推理和生成統(tǒng)一建模,為語音識別、跨語言翻譯和情感解析等多種應(yīng)用場景提供了出色的解決方案。
Step-Audio2mini 的特點(diǎn)之一是其卓越的多模態(tài)音頻理解能力。在 MMAU(多模態(tài)音頻理解測試集)上,該模型以73.2的得分穩(wěn)居開源語音模型的榜首。在口語對話能力的 URO Bench 測試中,無論基礎(chǔ)賽道還是專業(yè)賽道,Step-Audio2mini 都取得了開源模型中的最高分,展現(xiàn)出其出色的對話理解與表達(dá)能力。
在中英互譯任務(wù)中,Step-Audio2mini 也表現(xiàn)不俗。在 CoVoST2和 CVSS 評測集上,分別獲得了39.3和29.1的高分,明顯超越了 GPT-4o Audio 和其他開源語音模型。此外,該模型在語音識別方面同樣出類拔萃,在開源中文測試集上的字錯誤率(CER)為3.19,在開源英語測試集上的詞錯誤率(WER)為3.50,領(lǐng)先其他開源模型超過15%。
Step-Audio2mini 的成功離不開其創(chuàng)新的架構(gòu)設(shè)計。該模型打破了傳統(tǒng)的 ASR(自動語音識別)、LLM(大語言模型)和 TTS(文本轉(zhuǎn)語音)的三級結(jié)構(gòu),實(shí)現(xiàn)了從原始音頻輸入到語音響應(yīng)輸出的直接轉(zhuǎn)換,簡化了架構(gòu),降低了延遲。此外,模型還引入了鏈?zhǔn)剿季S推理(CoT)與強(qiáng)化學(xué)習(xí)的聯(lián)合優(yōu)化技術(shù),使其能夠更好地理解情緒、語調(diào)等副語言信息,并自然地作出反應(yīng)。
值得一提的是,Step-Audio2mini 還支持音頻知識增強(qiáng)功能,能夠利用外部工具進(jìn)行聯(lián)網(wǎng)搜索,解決了傳統(tǒng)模型中的幻覺問題。這一創(chuàng)新不僅提升了模型的實(shí)用性,還擴(kuò)展了其在多種場景中的應(yīng)用潛力。
目前,Step-Audio2mini 已在 GitHub、Hugging Face 等平臺上線,歡迎開發(fā)者們前去試用和貢獻(xiàn)代碼!


產(chǎn)品與服務(wù)
聯(lián)系站長
關(guān)于我們