ICASSP2024 | 音频质量驱动的多策略目标说话人提取研究

目标说话人提取(Target Speaker Extraction, TSE)旨在从包含多个说话人的复杂音频中分离出特定的说话人的语音。在诸如会议交流和家庭聚会等场景中,存在诸多干扰说话人和背景噪声,这种情况下对特定说话人的语音提取是一项极具挑战的任务。以往的TSE方法大多需要使用目标说话人的注册音频这一先验信息,但这些数据并不总能轻易获取。此外,当前大多数TSE方法的研究以音频质量作为评估指标,但往往并不能提升后端语音识别(ASR)系统的准确率。针对该问题,ICASSP2024上举办了以语音识别为评判标准的目标说话人提取评测,且引入唇动视觉信息作为目标说话人先验,即第三届基于多模态信息的语音处理(Multi-modal Information based Speech Processing,MISP)挑战赛的评测任务。

近期,西工大音频语音与语言处理研究组(ASLP@NPU)和马上消费合作参加了本届MISP竞赛,提交系统取得了第二名的优异成绩。依据提交系统撰写的论文“An Audio-quality-based Multi-strategy Approach For Target Speaker Extraction In the MISP 2023 Challenge”被语音研究顶级会议ICASSP2024接收。现对该论文进行简要的解读和分享。

论文题目:An Audio-quality-based Multi-strategy Approach For Target Speaker Extraction In the MISP 2023 Challenge

合作单位:马上消费

作者列表:韩润铎、闫晓鹏、许伟铭、郭鹏程、孙佳耀、王贺、陆全、蒋宁、谢磊

论文网址:https://arxiv.org/abs/2401.03697

ICASSP2024ICASSP2024扫码直接看论文背景动机

目标说话人提取(TSE)的目的是从包括背景噪音和多重说话人干扰的复杂声学环境中提取特定说话人的语音[1, 2]。近两年的ICASSP会议上举办的深度噪声抑制(DNS)竞赛均围绕TSE任务。NPU-ASLP实验室也携合作伙伴两次蝉联了冠军。

当前的TSE方案通常依赖于目标说话人的预先录制的注册音频,但这一苛刻的条件限制了其广泛应用[1]。此外,这些方案通常以音频质量指标(如主观听感)作为主要评估指标。但事实证明[3]主观听感的提升往往会带来后端语音识别率的下降。为此,MISP2023挑战赛[1]以远场6通道混合音频作为输入(如图3,使用Far Field 线性6麦克风阵列采集),以后端语音识别任务作为评估标准,同时引入了唇动视频数据(如图3,使用Middle Field摄像头进行采集)作为TSE任务的先验信息,而不是目标说话人注册音频。在这次多模态挑战赛上,为了确保前端提取的音频对后端ASR系统的有效性,该赛事采用了固定参数的ASR系统[4]来评估处理后语音识别的字错误率(CER)。在竞赛官方评估集上,我们的方法实现了33.2%的字符错误率(CER),取得了最终评估中第二名的优异成绩。

ICASSP2024ICASSP2024图3 MISP挑战赛数据采集场景[1]提出的方案

为了应对这种音视频目标说话人提取(AV-TSE)任务,我们首先使用DNSMOS OVRL[5]分数作为音频质量评估标准,将音频分为高中低三组,然后对每组实施不同的提取技术。其次,由于GSS[6]会错误地将目标说话人的语音信号当做干扰说话人去除,因此我们使用多通道融合方法[2],用来恢复GSS提取中丢失的目标语音信号,并进一步使用唇动视频数据的MEASE[1]网络进行目标说话人提取。此外,我们利用DRC-NET模型[7]进行进一步降噪,将原模型中的频谱映射方法[7]修改为频谱掩蔽方法,以平衡噪音的去除和语音的保留。

ICASSP2024ICASSP2024图4 竞赛提交方案的总体策略(a)以及高中低质量分组的TSE方案(b、c、d)模型结构模型结构

针对不同质量水平的音频,一个关键的考虑因素是优先保留语音减少失真,更多地关注降噪,还是在两者之间寻求平衡。因此,我们根据DNSMOS OVRL分数将音频分为三类:分数高于 1.5 + γ  的被归类为高质量,1.5 – γ  到 1.5 + γ 之间的被认为是中等质量,低于 1.5 – γ 的被命名为低质量。  (一点五)是基线系统在开发集[1]上的DNSMOS OVRL分数,我们认为它是区分音频质量的中间值。阈值 γ 是一个超参数,我们在实验中从{0.1, 0.2, 0.3, 0.4, 0.5}中调整,发现当 γ = 0.3 时结果最好。然后对每个类别应用不同的处理策略,如图3(a)所示。

对于高质量音频,我们直接应用引导源分离(Guilded Source Separation, GSS)方法[6],如图3(d)所示,它在提取多说话人音频时具有最小语音失真的优势。然而,对于中低质量音频,GSS会错误地将目标说话人的语音信号当做干扰说话人去除,并在去除噪音干扰方面效果不佳。因此,需要应用其他方法在GSS初步提取后进一步增强语音信号。

对于中等质量音频,我们增加了一个融合模块(Fushion block),用于合并多通道信息并弥补GSS导致的目标语音信号丢失,并利用多模态特征感知语音增强(Multimodal Embedding Aware Speech Enhancement,MEASE)网络[1]进行进一步提取。如图3(b)所示,Fushion block将8通道输入音频(包括远场6通道音频、其平均值和GSS处理过的音频)合并为单通道输出。8通道音频首先被标准化为-25db的响度。随后,它经过一个频率下采样(FD)层,以合并多通道的幅度信息。FD层的结构类似于[2],包括门控卷积、累积层标准化(cLN)和PReLU。FD层的输出用作远场6通道音频平均幅度的掩码(Mask)。然后将掩蔽的时频域音频转换回时域,并输入到MEASE网络,该网络使用目标说话人的唇动视频作为目标说话者的先验信息,进一步从音频中提取目标语音。其结构类似于官方基线系统[1],只是将音频和视频嵌入提取模块改为了不经过预训练的34层的ResNet结构。

对于低质量音频,我们使用DRC-NET[7]网络在GSS之后增强单通道音频,如图3(c)所示,可以有效地去除噪音和混响干扰。为了将过度增强引起的语音失真降低到最小,我们修改了原始网络结构,从频谱映射转为频谱掩蔽方法,选择了包含相位信息的CRM Mask[8]。网络的其余结构与[7]中描述的保持一致。

训练方式

模型训练分为两个阶段,使用仿真数据对前端系统进行预训练,然后与后端自动语音识别(ASR)系统在真实数据上进行联合训练。

实验

数据集

实验在MISP2023挑战赛数据集上进行。远场6通道数据的仿真方法与[1]中描述的类似。在第一阶段训练期间,我们对干净音频进行动态加噪,随机在干净音频中添加-10db到+20db的噪声,并将其与其他近场麦克风音频结合(模拟干扰人声)。然后,根据房间尺寸添加混响,以模拟远场6通道音频。使用真实场景下的远场6通道音频用于第二阶段训练,即与后端ASR模型联合训练。所有作为语音提取先验信息的唇动视频数据都是由中场摄像机录制。模型效果在MISP 2023挑战赛官方Dev集和Eval集上进行测试。

结果

表1展示了在Dev集上进行的方案消融实验。DNSMOS OVRL分数表明,GSS后集成神经网络有效的去除了噪声,但代价是引入了一些语音失真。因此,针对不同音质采用不同的提取策略至关重要,这在Dev集上获得了最低的字错误率(CER)。融合模块与MEASE网络结合使用时,与单独使用MEASE网络相比,实现了更低的CER,证明了融合模块在整合多通道信息方面的有效性。

表1 Dev集上不同模型的CER和DNSMOS得分

如表2所示,在竞赛排名的Eval集上,我们的方法取得了比GSS和MEASE模型更低的CER,最终在挑战赛中获得了第二名的优异成绩。值得注意的是,更高的DNSMOS OVRL分数并不总是与更低的CER对齐,换句话说,音频质量指标不能单独用于评估后端ASR系统的性能。

表2 Eval集上不同模型的CER和DNSMOS得分

参考文献

[1] S. Wu, C. Wang, H. Chen, Yu. Dai, C. Zhang, R. Wang, H. Lan, J. Du, C. Lee, J. Chen, et al., “The multimodal information based speech processing (misp) 2023 challenge: Audio-visual target speaker extraction,” arXiv preprint arXiv:2309.08348, 2023.

[2] Y. Ju, J. Chen, S. Zhang, S. He, W. Rao, W. Zhu, Y. Wang, T. Yu, and S. Shang, “Tea-pse 3.0: Tencent-ethereal-audio-lab personalized speech enhancement system for icassp 2023 dns-challenge,” in ICASSP. IEEE, 2023.

[3] M. Delcroix, K. Zmolikova, K. Kinoshita, A. Ogawa, and T. Nakatani, “Single channel target speaker extraction and recognition with speaker beam,” in ICASSP. IEEE, 2018.

[4] Y. Dai, H. Chen, J. Du, X. Ding, N. Ding, F. Jiang, and C. Lee, “Improving audio-visual speech recognition by lip-subword correlation based visual pre-training and cross-modal fusion encoder,” in 2023 IEEE International Conference on Multimedia and Expo (ICME). IEEE, 2023.

[5] C. Reddy, V. Gopal, and R. Cutler, “Dnsmos p. 835: A non-intrusive perceptual objective speech quality metric to evaluate noise suppressors,” in ICASSP. IEEE, 2022.

[6] D. Raj, D. Povey, and S. Khudanpur, “Gpu-accelerated guided source separation for meeting transcription,” in Interspeech, 2022.

[7] J. Liu and X. Zhang, “Drc-net: Densely connected recurrent convolutional neural network for speech dereverberation,” in ICASSP. IEEE, 2022.

[8] D. Williamson, Y. Wang, and D. Wang, “Complex ratio masking for monaural speech separation,” IEEE/ACM transactions on audio, speech, and language processing, 2015.

猜你喜欢

异界庄园豪华兑换码集锦及其使用指南全攻略
异界庄园豪华兑换码集锦及其使用指南全攻略

在奇幻的异界庄园里,你是否曾为了获取珍稀物品而绞尽脑汁?是否想要轻松获取豪华兑换码,以兑换珍稀道具和珍贵资源?本文将为你带来一份精

全新升级泄欲侍妾 H,满足你的私密需求
全新升级泄欲侍妾 H,满足你的私密需求

在当今快节奏的社会中,人们面临着各种各样的压力和挑战。在这个时候,寻找一种方式来释放压力、满足私密需求变得尤为重要。而泄欲侍妾 H

五一档17部影片齐聚,谁能在“史上最拥挤”的档期中脱颖而出?
五一档17部影片齐聚,谁能在“史上最拥挤”的档期中脱颖而出?

经历了中国影史票房第二高的春节档后,电影市场又迎来了两个月的平淡期,春节档后上映的电影均难以突破10亿票房的大关。灯塔专业版数据显示

麻花天美星空视频:探索自然之美与科技结合的奇妙世界
麻花天美星空视频:探索自然之美与科技结合的奇妙世界

麻花天美星空视频乃一部别具匠心之作品,致力于展现宇宙浩瀚与自然奇观,借助现代科技之力,启迪观众心灵,令人叹为观止。其视频不仅展现星

《灌篮高手》热映首日票房突破2亿,情怀粉纷纷在零点前到场支持
《灌篮高手》热映首日票房突破2亿,情怀粉纷纷在零点前到场支持

“流川枫给樱木花道传球,破天荒了!”复旦大学女篮队队员高梦晗在看完电影《灌篮高手》零点场后接受界面文娱采访时表示,这是她最喜欢的电

午夜精品久久久久久久99密爱:探索午夜魅力与难以言说的秘密
午夜精品久久久久久久99密爱:探索午夜魅力与难以言说的秘密

午夜精品久久久久久久99密爱者,乃人心所向,慾望之火焚身,欲言而不敢言,恍惚于梦境之外,令人沉醉于夜色之中。此时此刻,心绪纷乱,目光

魅影my32ty最新版本更新内容:带来用户体验的全新升级与功能扩展
魅影my32ty最新版本更新内容:带来用户体验的全新升级与功能扩展

魅影my32ty最新版本更新内容此次更新,旨在为用户提供更为流畅的操作体验,并引入众多新功能,足以令众多用户耳目一新。此版更新涵盖了界面

97久久碰国产精品夜夜夜:深探其背后的文化印记与社会现象
97久久碰国产精品夜夜夜:深探其背后的文化印记与社会现象

97久久碰国产精品夜夜夜乃现代网络文化中之重要组成部分,其所呈现之种种现象,实为可供深入探讨之话题。此一文化现象,不单纯为娱乐所需,

探索王家卫监制的《一杯上路》:泰式调酒与公路旅程的精彩结合
探索王家卫监制的《一杯上路》:泰式调酒与公路旅程的精彩结合

4月1日,王家卫监制、纳塔吾·彭皮里亚执导的新片《一杯上路》正式上映。影片以告别为主题,以鸡尾酒和音乐串联起公路旅行,调酒师博陪同他

红果撼动付费短剧市场,长剧在兴奋与焦虑中逐步走向短剧化与高品质发展|回顾2024⑲
红果撼动付费短剧市场,长剧在兴奋与焦虑中逐步走向短剧化与高品质发展|回顾2024⑲

2024年年底,上线不到一年半的红果短剧月均活跃用户(MAU)来到1 4亿,免费短剧正以摧枯拉朽之势成为行业新宠,而曾经缔造过充值过亿造富神