无码在线播放二区|久久亚洲精品国产精品|无码视频在线观看一区二区|在线观看国产日韩亚洲中

  • <menu id="yw4o4"></menu>
  • 
    <menu id="yw4o4"><em id="yw4o4"></em></menu>
  • 首頁 > 傳媒 > 關(guān)鍵詞  > 端到端最新資訊  > 正文

    思必馳榮獲IWSLT 2022英中同聲傳譯冠軍

    2022-06-10 17:48 · 稿源: 站長之家用戶

    在2022年國際口語機器翻譯評測比賽(簡稱IWSLT)中,思必馳-上海交大聯(lián)合團隊(AISP-SJTU)憑借卓越的技術(shù)優(yōu)勢,獲得“英-中同聲傳譯”(Speech-to-Text)賽道冠軍。

    2022年第十九屆國際口語機器翻譯大會(International Conference on Spoken Language Translation ,簡稱 IWSLT)在愛爾蘭都柏林落幕。IWSLT是國際上最具影響力的口語機器翻譯評測比賽之一,今年設(shè)置了同聲傳譯、離線語音翻譯等7個任務(wù)。思必馳-上海交大聯(lián)合團隊(AISP-SJTU)本次參加英-中同聲傳譯任務(wù),以優(yōu)異的成績獲得Speech-to-Text賽道第一名。

    論文標題:The AISP-SJTU Simultaneous Translation System for IWSLT2022

    任務(wù)和背景

    同聲傳譯是僅在部分語音或文本輸入的情況下,逐步生成翻譯結(jié)果的任務(wù)。同聲傳譯包含兩個子任務(wù):

    1)Text-to-Text,將流式語音識別(ASR)系統(tǒng)的輸出文本實時從英語翻譯成中文普通話;

    2)Speech-to-Text:將英文語音實時翻譯成中文普通話文本。

    目前同聲傳譯任務(wù)主要有兩種技術(shù)路線:

    1)級聯(lián)技術(shù)。即整個系統(tǒng)由ASR系統(tǒng)和翻譯(MT)系統(tǒng)組成,輸入源語言音頻信號,先經(jīng)過ASR系統(tǒng)轉(zhuǎn)寫成源文本,再經(jīng)過MT系統(tǒng)翻譯為目標語言。

    2)端到端技術(shù)。即系統(tǒng)直接將源語言音頻翻譯為目標語言文本,不生成中間字符。相對于級聯(lián)系統(tǒng)上億的數(shù)據(jù)規(guī)模,端到端系統(tǒng)的訓練數(shù)據(jù)極其匱乏,導致其效果遠低于級聯(lián)系統(tǒng)。

    圖1. 級聯(lián)語音翻譯

    圖2. 端到端語音翻譯

    同聲傳譯的系統(tǒng)通過兩種方式進行評估:

    1)翻譯質(zhì)量,使用標準BLEU指標評估;

    2)翻譯延時,使用流式翻譯的標準指標進行評估,包括平均比例(AP)、平均滯后(AL)、可微平均滯后(DAL)。

    最后,比賽主辦方根據(jù)不同延時范圍的翻譯質(zhì)量對提交的同聲傳譯系統(tǒng)進行排名。對于英-中同聲傳譯系統(tǒng),延時范圍設(shè)置為:

    1)低延時,AL數(shù)據(jù)和數(shù)據(jù)處理

    文本數(shù)據(jù)預處理

    比賽方提供大量的雙語語料和單語語料,通過規(guī)則過濾和匹配模型篩選出優(yōu)質(zhì)的文本數(shù)據(jù)。規(guī)則過濾包括:太長的單詞,長度嚴重失衡的中英雙語句子,過濾帶HTML標簽的句子,刪除重復等等。另外,訓練一個分類模型,過濾語義不匹配的真實雙語和偽雙語數(shù)據(jù)。

    文本數(shù)據(jù)擴增

    數(shù)據(jù)增強是提升模型效果行之有效的方案。首先使用真實雙語數(shù)據(jù)訓練中-英和英-中離線模型。然后這兩個離線模型分別生成中文單語和英文單語的偽雙語數(shù)據(jù),用于回譯和知識蒸餾。最后,讓翻譯模型在ASR生成的偽雙語數(shù)據(jù)上進行微調(diào),來提升翻譯模型的魯棒性。文本數(shù)據(jù)統(tǒng)計如下:

    表1. MT訓練數(shù)據(jù)

    語音數(shù)據(jù)處理

    比賽主辦方提供了6個英文語音數(shù)據(jù)集,共3000小時。采用傳統(tǒng)的語音特征提取方法FBank,特征維度設(shè)置為80,每幀窗口大小25毫秒,窗口滑動步長10毫秒。

    語音數(shù)據(jù)擴增

    通過增加音頻擾動的方法來獲得擴增音頻,包括聲音大小、速度、基線擾動等。除了CoVoST2這個數(shù)據(jù)集擴增1/3,其他數(shù)據(jù)集的音頻數(shù)據(jù)擴增3倍。音頻數(shù)據(jù)統(tǒng)計如下:

    表2. ASR訓練數(shù)據(jù)

    技術(shù)解讀

    思必馳-上海交大團隊首次參加這類語音翻譯比賽,在充分總結(jié)前人經(jīng)驗的基礎(chǔ)上,積極開拓創(chuàng)新,下面對其關(guān)鍵技術(shù)進行解讀。

    技術(shù)1:引入預訓練語言模型,大幅提升ASR性能

    近年來,預訓練語言模型(LM),例如BERT,在NLP領(lǐng)域大放異彩,尤其在低資源場景,LM作用更加明顯。如何將語言模型引入ASR模型呢?首先看一下ASR的模型結(jié)構(gòu),如下圖

    圖3. ASR模型和E2E模型結(jié)構(gòu)

    ASR模型整體是transformer架構(gòu),但是Decoder拆分為Jointer和Predictor,其中,Predictor僅包含6層單向自注意力機制,Jointer僅包含6層交叉注意力機制。預訓練語言模型可以替代Predictor,從而ASR的解碼端可以充分利用大數(shù)據(jù)的優(yōu)勢,提升解碼能力。與傳統(tǒng)的預訓練語言模型BERT相比,這里的語言模型需要做兩方面的改變:

    1)將傳統(tǒng)的雙向自注意力機制改為單向注意力機制;

    2)預測目標改為預測下一個token。用表1中的數(shù)據(jù)訓練分別訓練一個中文語言模型和英文語言模型,并分別用于端到端模型(E2E)和ASR模型,實驗表明,增加LM后對二者均有大幅提升。

    表3. 預訓練語言模型效果

    技術(shù)2:無限左看,隨機右看

    流式翻譯模型的編碼端一般使用單向注意力機制,進一步地,可以設(shè)定一個固定的右看窗口,實現(xiàn)部分雙向注意力機制,來提升編碼能力,如圖4,每個token都可以“看”到所有左側(cè)內(nèi)容,即無限左看,但只能往右看到2個token。本次比賽在CAAT[1]模型的基礎(chǔ)上做了更進一步的改進,提出Dynamic-CAAT,即在訓練過程中,將固定的右看窗口設(shè)為隨機取值,在預測過程中,當有新token輸入時,使用雙向注意力機制重新計算所有token編碼。

    圖4. 翻譯模型編碼端注意力機制

    實驗表明,Dynamic-CAAT在各類延時級別上都有效果。這樣整個系統(tǒng)只需要一個翻譯模型,而不是訓練多個模型來適應(yīng)不同的延時范圍。

    圖5. Dynamic-CAAT的效果

    評測結(jié)果

    IWSLT2022綜述文章中[2],主辦方給出的英-中評測結(jié)果顯示思必馳-上海交大團隊(AISP-SJTU)提交的系統(tǒng)在低、中、高三個延時范圍內(nèi),都超過第二名約2BLEU(具體實驗數(shù)據(jù)見綜述文章143頁)。

    圖6. speech-to-text英-中評測結(jié)果

    總結(jié)

    本次比賽,結(jié)合各種技術(shù)手段打造了英-中同聲傳譯最優(yōu)基線,也對端到端模型做了初步探索。端到端模型在速度和誤差傳導上比級聯(lián)模型更占優(yōu)勢,因此,未來我們希望進一步研究有效的數(shù)據(jù)擴增手段,來提升端到端模型的翻譯效果。

    推廣

    特別聲明:以上內(nèi)容(如有圖片或視頻亦包括在內(nèi))均為站長傳媒平臺用戶上傳并發(fā)布,本平臺僅提供信息存儲服務(wù),對本頁面內(nèi)容所引致的錯誤、不確或遺漏,概不負任何法律責任,相關(guān)信息僅供參考。站長之家將盡力確保所提供信息的準確性及可靠性,但不保證有關(guān)資料的準確性及可靠性,讀者在使用前請進一步核實,并對任何自主決定的行為負責。任何單位或個人認為本頁面內(nèi)容可能涉嫌侵犯其知識產(chǎn)權(quán)或存在不實內(nèi)容時,可及時向站長之家提出書面權(quán)利通知或不實情況說明,并提供身份證明、權(quán)屬證明及詳細侵權(quán)或不實情況證明(點擊查看反饋聯(lián)系地址)。本網(wǎng)站在收到上述法律文件后,將會依法依規(guī)核實信息,溝通刪除相關(guān)內(nèi)容或斷開相關(guān)鏈接。

    • 相關(guān)推薦
    • 時空壺 X1 同聲傳譯器:跨語言溝通的革新力量

      在全球化浪潮中,跨語言溝通的需求日益增長,而傳統(tǒng)翻譯方式的局限愈發(fā)明顯。深圳時空壺技術(shù)有限公司自 2016 年成立以來,便致力于打破語言壁壘,其推出的 X1 同聲傳譯器成為行業(yè)焦點。時空壺創(chuàng)始人田力在接受采訪時強調(diào),公司一直秉持 “讓全球交流更順暢” 的理念。從創(chuàng)業(yè)初期對跨語言溝通設(shè)備的探索,到如今打造出一系列深受市場認可的產(chǎn)品,團隊始終圍繞用戶?

    • 華為智能眼鏡2鈦空圓框光學鏡發(fā)布:支持面對面翻譯同聲傳譯

      今日,華為智能眼鏡2鈦空圓框光學鏡正式發(fā)布,定價2299元。此前,余承東就已佩戴這款眼鏡拍攝視頻,引發(fā)不少關(guān)注。與以往產(chǎn)品相比,此次發(fā)布的華為智能眼鏡2鈦空圓框光學鏡更換了全新的圓框和銀色鏡腿,整體風格更為時尚。眼鏡上的“鳶尾”雕花設(shè)計精致高雅,盡顯獨特魅力。其鈦金屬鏡框輕巧堅固,且經(jīng)過33道工序精雕細琢,在保證

    • 超聚變探索者大會2025 | 金華威榮獲多項大獎

      4 月 15 日- 17 日,超聚變探索者大會 2025 在鄭州成功舉行。大會以“共建智能體時代”為主題,匯聚 2500 余名行業(yè)領(lǐng)袖、專家、媒體等客戶及伙伴,圍繞智能體時代的機遇與挑戰(zhàn),開展生態(tài)共建與路徑探索。作為超聚變數(shù)字技術(shù)有限公司(簡稱:超聚變)的全國總經(jīng)銷商,深圳市金華威數(shù)碼科技有限公司(簡稱:金華威)受邀出席了此次盛會。憑借在市場上的卓越表現(xiàn)以及優(yōu)質(zhì)

    • itc保倫股份榮獲2025中國制造·消費者信賴品牌”榮譽稱號

      品質(zhì)引領(lǐng),信賴之選熱烈祝賀itc保倫股份榮獲2025 中國制造·消費者信賴品牌近日,由中國工業(yè)報社主辦的“ 2025 中國制造·消費者信賴品牌”榜單正式揭曉,itc保倫股份憑借卓越的產(chǎn)品品質(zhì)、強大的品牌實力以及廣泛的市場認可度榮耀登榜。獲此殊榮,不僅是對itc保倫股份在國內(nèi)音視頻行業(yè)中領(lǐng)先地位的認同,更是消費者對itc品牌高度信賴的表彰。01 品牌嚴選,實至名歸據(jù)悉?

    • 祥承科技四款產(chǎn)品榮獲2025德國iF設(shè)計獎

      祥承科技四款產(chǎn)品榮獲國際設(shè)計大獎“2025年度德國iF設(shè)計獎”。全球工業(yè)設(shè)計領(lǐng)域權(quán)威獎項——德國iF設(shè)計獎2025年度獲獎名單正式揭曉。祥承科技將持續(xù)深化綠色技術(shù)研發(fā),優(yōu)化全生命周期環(huán)保性能標準,以更具競爭力的解決方案助力全球商戶可持續(xù)發(fā)展,為構(gòu)建低碳數(shù)字化生態(tài)提供技術(shù)支撐。

    • 2025“行業(yè)兩會”盛大舉行,宏陶瓷磚頂級實力榮獲認證!

      2025年4月25日,中國建筑材料流通協(xié)會在江西南昌舉辦第十四屆中國陶瓷衛(wèi)浴品牌資源整合發(fā)展峰會暨第十一屆全國陶瓷/衛(wèi)浴經(jīng)銷商大會。宏陶瓷磚憑借卓越品質(zhì)再度榮膺"瓷磚十大品牌(TOP10)"稱號。作為行業(yè)標桿,宏陶堅持"全鏈品控",從原料開采到生產(chǎn)工藝嚴格把控,擁有47項國家級成果和近百項專利,主導制定13項國家標準。通過覆蓋全國3000多個服務(wù)網(wǎng)點的數(shù)字化營銷體系,實現(xiàn)終端銷售額持續(xù)增長。未來宏陶將繼續(xù)以品質(zhì)和創(chuàng)新引領(lǐng)行業(yè)發(fā)展,推動行業(yè)轉(zhuǎn)型升級。

    • 首部45.44億奪2023年票房冠軍!張藝謀執(zhí)導《滿江紅2》來了 2026年見

      據(jù)歡喜傳媒發(fā)布的公告顯示,正在籌劃張藝謀執(zhí)導的新作品《滿江紅2》。公告中指出,《滿江紅2》將于2025年下半年籌備,年底開拍,2026年與觀眾見面。在張藝謀看來,電影《滿江紅》也在表達一種傳承,把一種積極、樂觀的正能量傳遞給大家。

    • 機圈V單!vivo X200 Ultra首銷獲京東、天貓等渠道7K+價位段銷量冠軍

      vivo X200 Ultra于4月29日正式開售,起售價6499元。該機首日即斬獲多平臺7K+價位段銷量冠軍,包括京東、天貓、抖音等渠道。作為影像旗艦,搭載蔡司三大定焦大師鏡頭,主攝和廣角均為5000萬像素1/1.28英寸大底索尼LYT-818傳感器,潛望長焦為2億像素1/1.4英寸三星HP9。視頻拍攝支持全焦段4K 60fps 10bit+Log等專業(yè)功能。配備6.82英寸2K曲面屏,驍龍8至尊版處理器,6000mAh電池,支持90W有線+40W無線快充。

    • 2025清明檔票房破2億 微軟游戲改編電影《我的世界大世界》成票房冠軍

      據(jù)燈塔專業(yè)版,截至4月5日9時46分,2025年清明檔檔期票房突破2億。影片《我的世界大電影》《向陽花》《哪吒之魔童鬧海》《不說話的愛》《獵狐行動》暫列前五。影片由杰瑞德赫斯執(zhí)導,杰森莫瑪、杰克布萊克主演,《我的世界》游戲中粉色的方塊羊、羊駝、僵尸、豬靈等生物在影片中悉數(shù)登場。

    • HarmonyOS 6要來了!華為開發(fā)者大會HDC2025定檔6月20-22

      快科技4月16日消息,華為開發(fā)者大會HDC2025定檔6月20-22日召開,根據(jù)華為發(fā)布的邀請函顯示,這次大會可以深度體驗HarmonyOS最新版本的設(shè)計。結(jié)合以往的慣例,HarmonyOS 6的開發(fā)者預覽版將在此次大會上正式公布,提前展示新系統(tǒng)的全新特性。據(jù)悉,華為在去年的HDC2024上正式發(fā)布HarmonyOS NEXT,并且開啟了先鋒用戶招募。HarmonyOS NEXT從內(nèi)到外實現(xiàn)全棧自研,是基于OpenHarmony打造的全場景智能操作系統(tǒng),這是一個源自中國、自主可控的操作系統(tǒng)。HarmonyOS NEXT真正實現(xiàn)了一個系統(tǒng),統(tǒng)一生態(tài),打通多設(shè)備、多場景,全面建立操作系統(tǒng)底座。

    熱文

    • 3 天
    • 7天