劃重點(diǎn):
??? 實(shí)時(shí)表達(dá):Seamless首次公開(kāi)發(fā)布,通過(guò)SeamlessExpressive和SeamlessStreaming模型,實(shí)現(xiàn)語(yǔ)音到語(yǔ)音翻譯中的表達(dá)保留和低延遲流式處理。
?? 多語(yǔ)言支持:SeamlessM4T v2基礎(chǔ)上構(gòu)建,覆蓋英語(yǔ)、西班牙語(yǔ)、德語(yǔ)、法語(yǔ)、意大利語(yǔ)和中文等語(yǔ)言,實(shí)現(xiàn)真實(shí)感情和風(fēng)格的跨語(yǔ)言傳遞。
?? 數(shù)據(jù)工具公開(kāi):發(fā)布metadata、數(shù)據(jù)對(duì)齊工具,擴(kuò)展SeamlessAlign語(yǔ)料庫(kù),助力研究社區(qū)收集更多翻譯數(shù)據(jù)。
站長(zhǎng)之家(ChinaZ.com)12月1日 消息:在我們?nèi)找婊ヂ?lián)的世界中,語(yǔ)言差異可能成為溝通的障礙。Seamless作為新一代AI語(yǔ)言翻譯系統(tǒng),通過(guò)SeamlessExpressive和SeamlessStreaming模型的首次發(fā)布,為實(shí)時(shí)、跨語(yǔ)言交流帶來(lái)了全新的突破。
SeamlessExpressive是專注于語(yǔ)音到語(yǔ)音翻譯的表達(dá)保留模型,而SeamlessStreaming則是一種流式翻譯模型,以約兩秒的延遲提供最先進(jìn)的結(jié)果。這兩個(gè)模型都基于SeamlessM4T v2,這是在8月份發(fā)布的基礎(chǔ)模型的最新版本,展現(xiàn)了在自動(dòng)語(yǔ)音識(shí)別、語(yǔ)音到文本、文本到語(yǔ)音等方面的性能提升。
與以往在表達(dá)性語(yǔ)音研究方面的努力相比,SeamlessExpressive更加關(guān)注韻律的某些未被充分探索的方面,例如語(yǔ)速和節(jié)奏停頓,同時(shí)保留情感和風(fēng)格。該模型目前在英語(yǔ)、西班牙語(yǔ)、德語(yǔ)、法語(yǔ)、意大利語(yǔ)和中文之間的語(yǔ)音到語(yǔ)音翻譯中保留了這些元素。
SeamlessStreaming的突破性在于實(shí)現(xiàn)了與說(shuō)不同語(yǔ)言的人實(shí)時(shí)對(duì)話。與傳統(tǒng)系統(tǒng)在說(shuō)話者完成句子后進(jìn)行翻譯不同,SeamlessStreaming在說(shuō)話者仍在說(shuō)話時(shí)進(jìn)行翻譯,使得對(duì)話更接近實(shí)時(shí)。該模型支持近100種輸入輸出語(yǔ)言的自動(dòng)語(yǔ)音識(shí)別和語(yǔ)音轉(zhuǎn)文本,以及近100種輸入語(yǔ)言和36種輸出語(yǔ)言的語(yǔ)音到語(yǔ)音翻譯。
除了模型本身,Seamless還在今天發(fā)布了metadata、數(shù)據(jù)和數(shù)據(jù)對(duì)齊工具,旨在幫助研究社區(qū)收集更多的翻譯數(shù)據(jù)。這包括SeamlessAlign的擴(kuò)展元數(shù)據(jù),涵蓋額外115,000小時(shí)的語(yǔ)音和文本對(duì)齊,以及SeamlessAlignExpressive的元數(shù)據(jù),作為表達(dá)性焦點(diǎn)版本的數(shù)據(jù)集。此外,還提供了mExpresso的翻譯文本數(shù)據(jù),這是Expresso的多語(yǔ)言平行擴(kuò)展,以及用于收集更多翻譯數(shù)據(jù)的工具。
Seamless作為新一代AI語(yǔ)言翻譯系統(tǒng),在實(shí)現(xiàn)表達(dá)保留和流式處理方面取得了重要進(jìn)展,為跨語(yǔ)言交流提供了更加自然和真實(shí)的體驗(yàn)。
(舉報(bào))