无码在线播放二区|久久亚洲精品国产精品|无码视频在线观看一区二区|在线观看国产日韩亚洲中

  • <menu id="yw4o4"></menu>
  • 
    <menu id="yw4o4"><em id="yw4o4"></em></menu>
  • 首頁 > 業(yè)界 > 關(guān)鍵詞  > NaturalSpeech3最新資訊  > 正文

    NaturalSpeech 3:可克隆音色和感情的語音合成系統(tǒng)

    2024-03-08 10:23 · 稿源:站長之家

    **劃重點:**

    1. ?? 創(chuàng)新性的語音合成系統(tǒng),NaturalSpeech3,采用分解編解碼器和擴散模型,在零樣本情況下生成自然語音。

    2. ?? 使用神經(jīng)編解碼器進行語音波形分解,包括內(nèi)容、韻律、音色和聲學(xué)細節(jié),以實現(xiàn)細致入微的語音建模。

    3. ?? 在LibriSpeech和Ravdess基準(zhǔn)測試上,NaturalSpeech3在質(zhì)量、相似度、韻律和可懂度方面均優(yōu)于現(xiàn)有TTS系統(tǒng)。

    站長之家(ChinaZ.com)3月8日 消息:隨著大規(guī)模文本到語音(TTS)模型的發(fā)展,取得了顯著進展,但在語音質(zhì)量、相似度和韻律方面仍存在不足??紤]到語音涉及到多個屬性(例如內(nèi)容、韻律、音色和聲學(xué)細節(jié)),這為生成帶來了巨大挑戰(zhàn)。

    為了解決這一問題,NaturalSpeech3提出了一種創(chuàng)新的TTS系統(tǒng),采用了新穎的分解擴散模型,以零樣本的方式生成自然語音。也就是提供文本和參考音頻,可以克隆音色和感情,值得注意的是,NaturalSpeech3目前只有論文。

    image.png

    語音建模的關(guān)鍵創(chuàng)新點之一是使用神經(jīng)編解碼器,包含分解的向量量化(FVQ),將語音波形分解成內(nèi)容、韻律、音色和聲學(xué)細節(jié)等子空間。** 這種分解設(shè)計使得NaturalSpeech3能夠以分治的方式高效地建模復(fù)雜的語音。此外,他們還提出了分解的擴散模型,用于根據(jù)相應(yīng)提示生成每個子空間中的屬性。實驗證明,NaturalSpeech3在質(zhì)量、相似度、韻律和可懂度等方面優(yōu)于現(xiàn)有TTS系統(tǒng)。

    在LibriSpeech基準(zhǔn)測試中,NaturalSpeech3的性能明顯超越了其他系統(tǒng)。對比結(jié)果顯示,NaturalSpeech3在相似度(Sim-O)、錯誤率(WER)、音質(zhì)(CMOS)、語音質(zhì)量(SMOS)等方面均取得了顯著的優(yōu)勢。此外,通過擴大模型規(guī)模和訓(xùn)練數(shù)據(jù),NaturalSpeech3在200K小時的訓(xùn)練數(shù)據(jù)和10億參數(shù)的規(guī)模下取得了更好的性能。

    image.png

    除了LibriSpeech基準(zhǔn)測試,NaturalSpeech3還在Ravdess基準(zhǔn)測試上表現(xiàn)出色。在MCD(Mel頻率倒譜系數(shù))方面,相較于其他系統(tǒng),NaturalSpeech3的平均MCD顯著降低,表現(xiàn)出更好的語音合成效果。

    值得注意的是,由于該模型能夠以高度相似的說話者模仿真實語音,存在潛在的濫用風(fēng)險,例如欺騙語音識別或冒充特定說話者。因此,在實驗中,假定用戶同意成為語音合成的目標(biāo)說話者。為了防止濫用,研究者呼吁開發(fā)強大的合成語音檢測模型,并建立一個系統(tǒng),讓個體報告任何疑似濫用行為。這一研究符合微軟的負責(zé)任AI原則。

    項目網(wǎng)址入口:https://top.aibase.com/tool/naturalspeech-3

    舉報

    • 相關(guān)推薦