**劃重點:**
1. ?? 創(chuàng)新性的語音合成系統(tǒng),NaturalSpeech3,采用分解編解碼器和擴散模型,在零樣本情況下生成自然語音。
2. ?? 使用神經(jīng)編解碼器進行語音波形分解,包括內(nèi)容、韻律、音色和聲學(xué)細節(jié),以實現(xiàn)細致入微的語音建模。
3. ?? 在LibriSpeech和Ravdess基準(zhǔn)測試上,NaturalSpeech3在質(zhì)量、相似度、韻律和可懂度方面均優(yōu)于現(xiàn)有TTS系統(tǒng)。
站長之家(ChinaZ.com)3月8日 消息:隨著大規(guī)模文本到語音(TTS)模型的發(fā)展,取得了顯著進展,但在語音質(zhì)量、相似度和韻律方面仍存在不足??紤]到語音涉及到多個屬性(例如內(nèi)容、韻律、音色和聲學(xué)細節(jié)),這為生成帶來了巨大挑戰(zhàn)。
為了解決這一問題,NaturalSpeech3提出了一種創(chuàng)新的TTS系統(tǒng),采用了新穎的分解擴散模型,以零樣本的方式生成自然語音。也就是提供文本和參考音頻,可以克隆音色和感情,值得注意的是,NaturalSpeech3目前只有論文。
語音建模的關(guān)鍵創(chuàng)新點之一是使用神經(jīng)編解碼器,包含分解的向量量化(FVQ),將語音波形分解成內(nèi)容、韻律、音色和聲學(xué)細節(jié)等子空間。** 這種分解設(shè)計使得NaturalSpeech3能夠以分治的方式高效地建模復(fù)雜的語音。此外,他們還提出了分解的擴散模型,用于根據(jù)相應(yīng)提示生成每個子空間中的屬性。實驗證明,NaturalSpeech3在質(zhì)量、相似度、韻律和可懂度等方面優(yōu)于現(xiàn)有TTS系統(tǒng)。
在LibriSpeech基準(zhǔn)測試中,NaturalSpeech3的性能明顯超越了其他系統(tǒng)。對比結(jié)果顯示,NaturalSpeech3在相似度(Sim-O)、錯誤率(WER)、音質(zhì)(CMOS)、語音質(zhì)量(SMOS)等方面均取得了顯著的優(yōu)勢。此外,通過擴大模型規(guī)模和訓(xùn)練數(shù)據(jù),NaturalSpeech3在200K小時的訓(xùn)練數(shù)據(jù)和10億參數(shù)的規(guī)模下取得了更好的性能。
除了LibriSpeech基準(zhǔn)測試,NaturalSpeech3還在Ravdess基準(zhǔn)測試上表現(xiàn)出色。在MCD(Mel頻率倒譜系數(shù))方面,相較于其他系統(tǒng),NaturalSpeech3的平均MCD顯著降低,表現(xiàn)出更好的語音合成效果。
值得注意的是,由于該模型能夠以高度相似的說話者模仿真實語音,存在潛在的濫用風(fēng)險,例如欺騙語音識別或冒充特定說話者。因此,在實驗中,假定用戶同意成為語音合成的目標(biāo)說話者。為了防止濫用,研究者呼吁開發(fā)強大的合成語音檢測模型,并建立一個系統(tǒng),讓個體報告任何疑似濫用行為。這一研究符合微軟的負責(zé)任AI原則。
項目網(wǎng)址入口:https://top.aibase.com/tool/naturalspeech-3
(舉報)