摩尔线程正式发布音频理解大模型MooER,开启音频智能新纪元

近日,摩尔线程重磅开源了音频理解大模型—MooER(摩耳),该开源项目已在GitHub上公布:https://github.com/MooreThreads/MooER。

MooER是业界首个基于国产全功能GPU进行训练和推理的大型开源语音模型。依托摩尔线程夸娥(KUAE)智算平台,MooER大模型仅用38小时便完成了5000小时音频数据和伪标签的训练,这一成就得益于自研的创新算法和高效计算资源的结合。

MooER不仅支持中文和英文的语音识别,还具备中译英的语音翻译能力。在多个语音识别领域的测试集中,MooER展现出领先或至少持平的优异表现。特别值得一提的是,在Covost2中译英测试集中,MooER-5K取得了25.2的BLEU分数,接近工业级效果。摩尔线程AI团队在该工作中开源了推理代码和5000小时数据训练的模型,并计划进一步开源训练代码和基于8万小时数据训练的模型,希望该工作能够在语音大模型的方法演进和技术落地方面为社区做出贡献。

MooER的模型结构包括Encoder、Adapter和Decoder(Large Language Model,LLM)三个部分。其中,由Encoder对输入的原始音频进行建模,提取特征并获取表征向量。Encoder的输出会送到Adapter进一步下采样,使得每120ms音频输出一组音频Embedding。音频Embedding和文本的Prompt Embedding拼接后,再送进LLM进行对应的下游任务,如语音识别(Automatic Speech Recognition,ASR)、语音翻译(Automatic Speech Translation,AST)等。在模型训练阶段,融合了语音模态和文本模态的数据会按以下形式输入到LLM:

我们使用开源的Paraformer语音编码器、Qwen2-7B-instruct大语言模型来初始化Encoder和LLM模块,并随机初始化Adapter模块。训练过程中,Encoder始终固定参数,Adapter和LLM会参与训练和梯度更新。利用自研的夸娥智算平台,我们使用DeepSpeed框架和Zero2策略,基于BF16精度进行训练和推理。经实验发现,训练过程中更新LLM参数能够提升最终音频理解任务的效果。为了提升训练效率,我们采用了LoRA技术,仅更新2%的LLM参数。具体的模型参数规模如下:

该模型的训练数据MT5K(MT 5000h)由部分开源数据和内部数据构成,内部数据的语音识别标签均是由第三方云服务得到的伪标签。语音识别的伪标签经过一个文本翻译模型后,得到语音翻译的伪标签。我们没有对这些伪标签数据做任何的人工筛选。具体数据来源和对应的规模如下:

我们将MooER与多个开源的音频理解大模型进行了对比,包括Paraformer、SenseVoice、Qwen-audio、Whisper-large-v3和SeamlessM4T-v2等。这些模型的训练规模从几万小时到上百万小时不等。对比结果显示,我们的开源模型MooER-5K在六个中文测试集上的CER(字错误率)达到4.21%,在六个英文测试集的WER(词错误率)为17.98%,与其它开源模型相比,MooER-5K的效果更优或几乎持平。特别是在Covost2 zh2en中译英测试集上,MooER的BLEU分数达到了25.2,显著优于其他开源模型,取得了可与工业水平相媲美的效果。基于内部8万小时数据训练的MooER-80k模型,在上述中文测试集上的CER达到了3.50%,在英文测试集上的WER到达了12.66%。

与此同时,我们还得到一些有趣的结论,可以为数据资源和计算资源有限的开发者提供一些建议:

Encoder的选择。我们分别对比了无监督(Self-Supervised Learning)训练的W2v-bert 2.0、半监督(Semi-Supervised Learning)训练的Whisper v3和有监督(Supervised Learning)训练的Paraformer。我们发现,采用无监督训练得到的Encoder必须参与到训练过程中,否则模型很难收敛。综合考虑模型效果、参数量以及训练和推理的效率,我们选择Paraformer作为Encoder。

音频建模粒度很关键。我们尝试使用240ms、180ms和120ms的粒度进行建模,并发现这一参数对音频与文本的融合效果具有重要影响,同时会影响模型的最终效果和训练的收敛速度。经过评估,我们最终选择每120ms输出一个音频Embedding。

快速适应到目标垂类。我们仅使用了140h~150h的英文数据进行训练,可以在6个不同来源的英文的测试集上取得一定效果。同时我们尝试将任务迁移到语音翻译(AST)领域,取得了很好的效果。我们相信这个方法同样也适用于小语种、方言或其它低资源的音频理解任务。

LLM对音频理解任务的影响。我们发现,在模型训练过程中采用LoRA技术对LLM参数进行更新,可以使训练更快收敛,并且最终取得更好的效果。同时,音频理解任务上的效果也会随着基础LLM效果提升而提升。

更多技术细节,请参考我们的技术文档:

https://arxiv.org/pdf/2408.05101

如果您想直接体验摩尔线程开源的音频理解大模型,可以访问:https://mooer-speech.mthreads.com:10077/,该技术演示基于摩尔线程大模型智算加速卡MTT S4000搭建。摩尔线程将持续为开源社区做出贡献,欢迎持续关注我们的进展。

猜你喜欢

善交大结合:以人文素养为核心推进大学教育改革的新模式
善交大结合:以人文素养为核心推进大学教育改革的新模式

善交大结合其旨在提升高等教育之质量,辅以人文素养,开启一条独特之改革之路。此举意在凝聚多方力量,促使教育不再仅限于传授知识,更在于

红桃国际一起草:探索红桃国际一起草对全球博彩行业的深远影响
红桃国际一起草:探索红桃国际一起草对全球博彩行业的深远影响

红桃国际一起草乃为近年来博彩业内之翘楚,涉及范围广泛,涵盖线上线下之多样化业务。此举不仅为广大玩家提供丰厚之娱乐体验,更促使行业内

老农民老干棒的媳妇果儿是谁:探寻果儿背后那段鲜为人知的故事
老农民老干棒的媳妇果儿是谁:探寻果儿背后那段鲜为人知的故事

老农民老干棒的媳妇果儿是谁乃是一段充满人情味的故事,果儿虽为老干棒之妻,其生活之艰辛与幸福皆令人动容。果儿自幼生长于农村,历经风雨

又长又粗又大又硬起来了:探索事物发展的深远意义与影响
又长又粗又大又硬起来了:探索事物发展的深远意义与影响

又长又粗又大又硬起来了此一般描述物体成长变化之过程,然其意深广,非但形状之长大,更象征着内在力量与变化之融合。在各类事物中,此种现

含羞草传媒隐藏进入一二三:探讨其背后潜藏之机遇与挑战
含羞草传媒隐藏进入一二三:探讨其背后潜藏之机遇与挑战

含羞草传媒隐藏进入一二三,此乃一新兴传媒之风潮。其隐秘于网络之中,布下重重迷雾,令众多人士争相探求其真相。此现象揭示了现代传媒行业

疯狂农场3美国派78:探索疯狂农场3美国派78的全新玩法与乐趣
疯狂农场3美国派78:探索疯狂农场3美国派78的全新玩法与乐趣

疯狂农场3美国派78乃是一款备受玩家喜爱的休闲游戏,融合了农场经营与冒险元素,令众多玩家沉迷其中。此游戏不仅画面精美,玩法多样,更是

成全电影大全在线观看高清免费播放下载:探寻成全电影的魅力与价值
成全电影大全在线观看高清免费播放下载:探寻成全电影的魅力与价值

成全电影大全在线观看高清免费播放下载,此乃当今影迷所追求之盛宴,众多影片汇聚于此,观者可尽情享受高清播放之乐趣。无论是经典之作,抑

姐姐3之激战后厨第五集剧情简介:颜艺双全的厨艺对决引发的情感纠葛
姐姐3之激战后厨第五集剧情简介:颜艺双全的厨艺对决引发的情感纠葛

姐姐3之激战后厨第五集剧情简介第五集之中,众姐妹于厨房中展开厨艺大比拼,冲突与默契交错,情感潜流暗涌,各自展现独特风采,令人目不暇

糖心vlog无限:探讨糖心vlog无限在当代社交媒体中的影响力与发展潜能
糖心vlog无限:探讨糖心vlog无限在当代社交媒体中的影响力与发展潜能

糖心vlog无限者,乃当代流行之视频发表平台,其特有之魅力吸引众多观众,俾使人们对生活与情感之探讨愈加深入。众多创作者以自身之视角诠释

开会时躲在桌子下运动:如何在会议中保持活力与专注
开会时躲在桌子下运动:如何在会议中保持活力与专注

开会时躲在桌子下运动,此乃现代职场中一奇特之现象。会议之际,众人围坐,气氛凝重,然则身心俱疲,如何保持活力,实为一大难题。此时,若