摩爾線程開源音頻理解大模型MooER
簡(jiǎn)介
摩爾線程推出了業(yè)界首個(gè)基于國(guó)產(chǎn)全功能GPU訓(xùn)練和推理的大型開源語(yǔ)音模型MooER。該模型依托于摩爾線程的夸娥智算平臺(tái),結(jié)合自研算法和計(jì)算資源,僅用38小時(shí)完成5000小時(shí)音頻數(shù)據(jù)訓(xùn)練。
特性
- 支持中文和英文語(yǔ)音識(shí)別
- 具備中譯英語(yǔ)音翻譯能力
- 在多個(gè)語(yǔ)音識(shí)別領(lǐng)域中表現(xiàn)優(yōu)異或持平
模型結(jié)構(gòu)
MooER模型結(jié)構(gòu)包括三個(gè)部分:編碼器、適配器和解碼器(LLM)。
- 編碼器:對(duì)輸入音頻建模,提取特征和獲取表征向量
- 適配器:對(duì)編碼器輸出進(jìn)行下采樣,每120ms輸出一組音頻嵌入
- 解碼器:將音頻嵌入和文本嵌入拼接后,執(zhí)行下游任務(wù)(如語(yǔ)音識(shí)別、語(yǔ)音翻譯)
訓(xùn)練詳情
- 訓(xùn)練數(shù)據(jù):部分開源數(shù)據(jù)和內(nèi)部語(yǔ)音識(shí)別偽標(biāo)簽
- 模型參數(shù)規(guī)模:5000小時(shí)數(shù)據(jù)訓(xùn)練模型(MooER-5K)和8萬(wàn)小時(shí)數(shù)據(jù)訓(xùn)練模型(MooER-80K)
- 訓(xùn)練框架:DeepSpeed
- 精度:BF16
對(duì)比結(jié)果
MooER與其他開源音頻理解大模型(訓(xùn)練規(guī)模從幾萬(wàn)小時(shí)到上百萬(wàn)小時(shí))對(duì)比,在多個(gè)測(cè)試集中取得了以下結(jié)果:
- 中文測(cè)試集CER:4.21%
- 英文測(cè)試集WER:17.98%
- 中譯英BLEU:25.2
啟示
摩爾線程基于MooER的研究得出以下啟示:
- 無(wú)監(jiān)督訓(xùn)練的編碼器需要參與訓(xùn)練
- 音頻建模粒度對(duì)模型效果和收斂速度至關(guān)重要
- 基于少量目標(biāo)垂類數(shù)據(jù),可以快速適應(yīng)到不同任務(wù)
- LoRA技術(shù)可以加快訓(xùn)練收斂并提升效果
開源代碼
MooER代碼已開源,可在以下地址獲?。?br>https://github.com/MooreThreads/MooER
技術(shù)文檔
更多技術(shù)細(xì)節(jié),請(qǐng)參考技術(shù)文檔:
https://arxiv.org/pdf/2408.05101
(舉報(bào))