微软 DNS-Challenge:用 AI 把噪音从语音里抠干净 文章目录微软 DNS-Challenge用 AI 把噪音从语音里抠干净1、解决什么问题2、这个挑战赛比什么3、怎么评测4、数据集有多大5、怎么用6、评测脚本7、适合谁微软 DNS-Challenge用 AI 把噪音从语音里抠干净1.4K Star微软在 GitHub 上开源了这个项目专门解决一个问题——深度学习驱动的语音降噪。这个仓库是 ICASSP 2023 Deep Noise Suppression Challenge 的官方资料库包含比赛数据集、合成脚本、基线模型和评测框架。简单说微软把语音降噪这件事做成了一个标准化的竞赛平台。1、解决什么问题语音通话、会议录制、在线教学背景噪音一直是个老大难。传统降噪算法能压掉一部分稳态噪声遇到人声干扰、混响、突发噪声就力不从心。DNS-Challenge 做的事情是提供一个标准化的竞赛框架让全球研究者在同一个数据集、同一套评测标准下比拼算法推动深度学习降噪技术往前走。2、这个挑战赛比什么比赛分两个赛道第一个是耳机赛道针对有线/无线耳机、AirPods 这类设备的语音增强。第二个是非耳机赛道针对扬声器、笔记本内置麦克风、手机等会议设备的语音增强。两个赛道的难点不同。耳机场景下信噪比相对可控但对音质保真度要求高。非耳机场景下干扰源多既要降噪又不能把目标人声砍掉。3、怎么评测评测用的是 ITU-T P.835 主观测试框架三个指标语音质量SIG、背景噪声质量BAK、整体音频质量OVRL。针对有干扰人声的场景微软对 P.835 做了修改让它在多人说话的条件下也能可靠打分。除了主观评分还引入了词准确率WAcc来衡量模型对语音内容的保留程度。这套评测体系比单纯看信噪比提升要严谨得多既关心降噪效果也关心降完之后人还能不能听清。4、数据集有多大数据集分三大块干净语音、噪声、房间冲激响应。干净语音部分接近 827GB涵盖英、法、德、意、俄、西六种语言的朗读语音还有情感语音、歌唱声等特殊类型。噪声数据 58GB房间冲激响应 5.9GB。解压后总计约 1TB。数据来源都有明确的开源许可。干净语音来自 LibriVox、VoxCeleb2、VCTK 等公开数据集噪声来自 AudioSet 和 Freesound房间冲激响应用的是 OpenSLR26 和 OpenSLR28。5、怎么用仓库提供了数据下载脚本分耳机和非耳机两个# 下载耳机赛道数据bashdownload-dns-challenge-5-headset-training.sh# 下载非耳机赛道数据bashdownload-dns-challenge-5-speakerphone-training.sh数据下载后用合成脚本生成带噪语音对python3 noisyspeech_synthesizer_singleprocess.py合成前需要编辑 noisyspeech_synthesizer.cfg配置干净语音、噪声、冲激响应的 CSV 路径和输出目录。基线模型用的是 ECAPA-TDNN 说话人嵌入模型来自 SpeechBrain。参与者也可以用自己的说话人嵌入提取器仓库还推荐了 RawNet3 作为备选。6、评测脚本仓库提供了 WAcc 评测脚本盲测集的转录文本也有配套。开发测试集中耳机赛道提供 ASR 输出和录音提示词非耳机赛道提供了完整的转录文本。7、适合谁做语音增强、降噪算法研究的学术团队在音频处理产品中集成降噪能力的工程师需要大规模语音数据集做预训练的研究者这个项目把数据、代码、评测框架打包在一起降低了语音降噪研究的入门门槛。不用自己找数据、搭评测环境直接拿仓库里的资源就能开始跑实验。究者这个项目把数据、代码、评测框架打包在一起降低了语音降噪研究的入门门槛。不用自己找数据、搭评测环境直接拿仓库里的资源就能开始跑实验。