近日,香港科技大學與微軟亞洲研究院的研究團隊聯手開發的CoMoSVC技術在歌聲轉換領域取得了革命性突破。
歌聲轉換技術一直致力于在保持歌曲內容和旋律不變的前提下,將一個歌手的聲音轉換為另一個歌手的聲音,為音樂娛樂和藝術創作提供了廣泛應用。然而,傳統的擴散式歌聲轉換方法由于其迭代采樣過程而處理速度緩慢,尤其在實時應用方面表現不佳。


CoMoSVC采用了一種全新的方法,借助一致性模型,旨在實現高質量音頻生成和快速采樣的雙重目標。該技術通過兩個關鍵階段的處理,即編碼和解碼,來完成歌聲的轉換過程。在編碼階段,CoMoSVC從波形中提取特征,并將歌手身份編碼到嵌入中。而在解碼階段,該技術創新性地使用學生模型,該模型是從預訓練的教師模型中提煉而來,實現了一步到位的音頻采樣,這在傳統方法中是難以實現的。
CoMoSVC在性能方面表現出色。與當前擴散式歌聲轉換系統相比,其推理速度顯著提高,最高可達500倍之多,同時保持或超越它們的音頻質量表現。這一平衡速度與質量的創新,使CoMoSVC在歌聲轉換技術領域取得了里程碑式的成就。
CoMoSVC的問世為實時應用帶來了新的可能性,尤其在音樂娛樂等領域具有廣泛的應用前景。這一突破性進展成功解決了傳統歌聲轉換方法中一直存在的處理速度瓶頸,為該技術的未來發展打開了新的篇章。


產品與服務
聯系站長
關于我們