語音生成公司Fish Audio正式發布升級版S1語音克隆模型,在情感表現力與擬真度方面實現重大突破。新版模型能夠生成富有情緒、節奏感與語氣變化的真人級聲音,幾乎可以完美再現人類說話時的細微差別。
據介紹,用戶只需提供約10秒的語音樣本,S1即可克隆任意人聲,并完整保留原聲的口音、語調與節奏,還原個人的說話習慣與情感特征,生成效果幾乎與真人無異。相比國際知名產品ElevenLabs,Fish Audio 的語音克隆服務價格低約六倍,在語音生成成本和性能平衡上具備明顯優勢。
與此同時,Fish Audio S1API也已同步上線,顯著提升了實時語音生成體驗。其首幀延遲(TTFT)低于500毫秒,一句話不到半秒即可開始播放;同時支持輸入與輸出的流式傳輸,實現邊接收文字邊即時朗讀的自然交互,并可無限克隆不同人聲、自由切換使用。
業內認為,Fish Audio S1的升級意味著語音克隆技術正從“可用”邁向“可感”,其高保真、低延遲的特性將加速 AI 語音在虛擬人、智能助理、內容創作及配音等領域的廣泛落地。


產品與服務
聯系站長
關于我們