无码在线播放二区|久久亚洲精品国产精品|无码视频在线观看一区二区|在线观看国产日韩亚洲中

<menu id="yw4o4"></menu>

<menu id="yw4o4"><em id="yw4o4"></em></menu>

NaturalSpeech 3：可克隆音色和感情的語音合成系統(tǒng)

2024-03-08 10:23 · 稿源：站長之家

**劃重點:**
1. ?? 創(chuàng)新性的語音合成系統(tǒng)，NaturalSpeech3，采用分解編解碼器和擴散模型，在零樣本情況下生成自然語音。
2. ?? 使用神經(jīng)編解碼器進行語音波形分解，包括內(nèi)容、韻律、音色和聲學(xué)細節(jié)，以實現(xiàn)細致入微的語音建模。
3. ?? 在LibriSpeech和Ravdess基準(zhǔn)測試上，NaturalSpeech3在質(zhì)量、相似度、韻律和可懂度方面均優(yōu)于現(xiàn)有TTS系統(tǒng)。

站長之家（ChinaZ.com）3月8日消息:隨著大規(guī)模文本到語音（TTS）模型的發(fā)展，取得了顯著進展，但在語音質(zhì)量、相似度和韻律方面仍存在不足?？紤]到語音涉及到多個屬性(例如內(nèi)容、韻律、音色和聲學(xué)細節(jié))，這為生成帶來了巨大挑戰(zhàn)。

為了解決這一問題，NaturalSpeech3提出了一種創(chuàng)新的TTS系統(tǒng)，采用了新穎的分解擴散模型，以零樣本的方式生成自然語音。也就是提供文本和參考音頻，可以克隆音色和感情，值得注意的是，NaturalSpeech3目前只有論文。

語音建模的關(guān)鍵創(chuàng)新點之一是使用神經(jīng)編解碼器，包含分解的向量量化（FVQ），將語音波形分解成內(nèi)容、韻律、音色和聲學(xué)細節(jié)等子空間。** 這種分解設(shè)計使得NaturalSpeech3能夠以分治的方式高效地建模復(fù)雜的語音。此外，他們還提出了分解的擴散模型，用于根據(jù)相應(yīng)提示生成每個子空間中的屬性。實驗證明，NaturalSpeech3在質(zhì)量、相似度、韻律和可懂度等方面優(yōu)于現(xiàn)有TTS系統(tǒng)。

在LibriSpeech基準(zhǔn)測試中，NaturalSpeech3的性能明顯超越了其他系統(tǒng)。對比結(jié)果顯示，NaturalSpeech3在相似度（Sim-O）、錯誤率(WER)、音質(zhì)(CMOS)、語音質(zhì)量(SMOS)等方面均取得了顯著的優(yōu)勢。此外，通過擴大模型規(guī)模和訓(xùn)練數(shù)據(jù)，NaturalSpeech3在200K小時的訓(xùn)練數(shù)據(jù)和10億參數(shù)的規(guī)模下取得了更好的性能。

除了LibriSpeech基準(zhǔn)測試，NaturalSpeech3還在Ravdess基準(zhǔn)測試上表現(xiàn)出色。在MCD（Mel頻率倒譜系數(shù)）方面，相較于其他系統(tǒng)，NaturalSpeech3的平均MCD顯著降低，表現(xiàn)出更好的語音合成效果。

值得注意的是，由于該模型能夠以高度相似的說話者模仿真實語音，存在潛在的濫用風(fēng)險，例如欺騙語音識別或冒充特定說話者。因此，在實驗中，假定用戶同意成為語音合成的目標(biāo)說話者。為了防止濫用，研究者呼吁開發(fā)強大的合成語音檢測模型，并建立一個系統(tǒng)，讓個體報告任何疑似濫用行為。這一研究符合微軟的負責(zé)任AI原則。

項目網(wǎng)址入口:https://top.aibase.com/tool/naturalspeech-3

（舉報）

相關(guān)推薦

關(guān)鍵詞：

奧特曼：ChatGPT不是AGI！OpenAI最強開源模型直擊DeepSeek

【新智元導(dǎo)讀】代碼截圖泄露，滿血版o3、o4-mini鎖定下周!更勁爆的是，一款據(jù)稱是OpenAI的神秘模型一夜爆紅，每日處理高達260億token，是Claude用量4倍。奧特曼在TED放話:將推超強開源模型，直面DeepSeek挑戰(zhàn)。持續(xù)的創(chuàng)新、豐富的資源和智能AI將會無縫融入日常生活，未來一代人將會覺得當(dāng)前人們又辛苦又落后。

?代碼泄露 ?OpenAI ?模型發(fā)布
讓AI替你打工：AI數(shù)字人直播系統(tǒng)-支持實時驅(qū)動+無限貼牌/形象克隆+短視頻合成

數(shù)字人直播領(lǐng)域持續(xù)升溫，尤其在AI技術(shù)快速迭代的當(dāng)下，越來越多企業(yè)希望搭建專屬虛擬主播系統(tǒng)，以期用數(shù)字化方案降低人力成本、替代傳統(tǒng)真人直播。然而市場產(chǎn)品良莠不齊，如何精準(zhǔn)匹配需求成為關(guān)鍵難題。今天要推薦的這款A(yù)I數(shù)字人直播系統(tǒng)，正是針對這一痛點設(shè)計的解決方案。用戶可自主上傳品牌虛擬形象，通過智能算法快速生成高精度視頻內(nèi)容，并支持實時直播?

?數(shù)字人直播 ?AI技術(shù) ?虛擬主播系統(tǒng)
大模型時代的新燃料|標(biāo)貝科技推出大規(guī)模擬真多風(fēng)格語音合成數(shù)據(jù)集

本文探討了人工智能語音交互領(lǐng)域的發(fā)展現(xiàn)狀與挑戰(zhàn)。文章指出，大模型技術(shù)驅(qū)動下語音交互應(yīng)用場景持續(xù)拓展，但面臨數(shù)據(jù)質(zhì)量、隱私合規(guī)等挑戰(zhàn)。當(dāng)前語音大模型訓(xùn)練需要TB至PB級數(shù)據(jù)，而傳統(tǒng)數(shù)據(jù)供給模式難以滿足需求。合成數(shù)據(jù)作為真實數(shù)據(jù)的重要補充，能通過參數(shù)化生成機制規(guī)避隱私風(fēng)險，突破傳統(tǒng)數(shù)據(jù)在多樣性和場景覆蓋上的局限性。國內(nèi)外科技企業(yè)已開始廣泛應(yīng)用合成數(shù)據(jù)訓(xùn)練AI模型，如Meta的LLaMA3和微軟的Phi-4模型。標(biāo)貝科技推出超大規(guī)模擬真多風(fēng)格語音合成數(shù)據(jù)集，包含上萬小時數(shù)據(jù)，覆蓋中英混合場景，支持情感合成、風(fēng)格遷移等前沿任務(wù)，為虛擬偶像、數(shù)字人等元宇宙場景提供實時語音生成方案。該數(shù)據(jù)集基于32kHz高保真采樣率技術(shù)，在自然度、流暢度等方面達到行業(yè)領(lǐng)先水平。

?大模型技術(shù) ?人工智能變革 ?語音交互
OpenAI推出輕量版Deep Research，所有用戶可用！

OpenAI 稱，由于很多用戶喜歡使用 Deep Research 功能，所以將推出輕量版 Deep Research，且此版本面向所有用戶開放……

?輕量版DeepResearch ?openai ?ChatGPT
Antropic加入“AI語音助手”賽道，能追上OpenAI、谷歌們嗎？

隨著 AI 語音產(chǎn)品的出現(xiàn)，人們對其模仿他人說話風(fēng)格的擔(dān)憂也在加劇……

?Anthropic ?AI語音助手 ?Claude
OpenAI高管計劃收購谷歌Chrome：對ChatGPT搜索至關(guān)重要

OpenAI高管Nick Turley在谷歌反壟斷庭審中透露，若法院裁定谷歌必須出售Chrome瀏覽器以恢復(fù)搜索市場競爭，OpenAI有意收購。庭審揭露OpenAI曾主動尋求與谷歌合作獲取搜索技術(shù)支持，但遭拒絕。目前ChatGPT仍依賴微軟必應(yīng)搜索技術(shù)。Turley承認(rèn)搜索功能對ChatGPT至關(guān)重要，但實現(xiàn)80%查詢使用自有搜索技術(shù)仍需數(shù)年時間。他支持司法部要求谷歌共享搜索數(shù)據(jù)的提議，認(rèn)為這將加速ChatGPT技術(shù)改進。這場訴訟揭示了AI領(lǐng)域激烈競爭的冰山一角，檢方擔(dān)憂谷歌搜索壟斷可能延伸至AI領(lǐng)域。

?OpenAI ?谷歌反壟斷 ?Chrome瀏覽器
用戶吐槽“ChatGPT太諂媚”，OpenAI 回滾“個性化”更新

OpenAI 想要為 ChatGPT 塑造一個更友好、更具支持性的個性。他們最新發(fā)布的更新確實符合這一描述，但有點過界了……

?GPT4o ?GPT4o怎么用 ?GPT4o官網(wǎng)
IQ 過百的 AI 模型名單發(fā)布：ChatGPT、Deepseek等上榜

人工智能IQ哪家強？o3 智商高達 132、Gemini 2.5 Pro Exp. 拿下 128 分、Claude 憑借 3.7 Sonnet Extended 位列第四、Deepsee R 1……

?AI智商 ?ChatGPT ?Deepseek
OpenAI之后，雅虎也盯上了谷歌：我們將收購Chrome！

“如果谷歌出售 Chrome，雅虎已準(zhǔn)備好推進收購事宜?！?雅虎搜索負責(zé)人如是說道。

?雅虎 ?谷歌 ?Chrome
薦剛剛，OpenAI大更新ChatGPT搜索，周搜索量10億次

OpenAI對ChatGPT搜索功能進行重大升級，重點優(yōu)化網(wǎng)購體驗。現(xiàn)在用戶可直接搜索商品并查看價格、詳情和評價，還能跳轉(zhuǎn)購買鏈接。該功能面向所有用戶開放，支持中英文搜索，搜索結(jié)果會匹配提示詞語言。過去一周搜索量已超10億次，成為ChatGPT核心功能之一。新功能讓用戶能直接在ChatGPT完成商品比價和購買決策，大幅簡化網(wǎng)購流程。雖然目前主要通過導(dǎo)流變現(xiàn)，但未來可能拓展更多電商服務(wù)。這次升級標(biāo)志著ChatGPT正從純聊天工具向多功能平臺演進。

?OpenAI ?ChatGPT ?搜索優(yōu)化

熱文

3 天
7天

1

累了倦了就找 ChatGPT……AI正在淪為“情緒垃圾桶”！

站長商機

廣告

商務(wù)合作侵權(quán)投訴廣告服務(wù) 版權(quán)聲明招聘

?CopyRight 2002-2020 CHINAZ.COM