
1. 项目概述为什么需要一个“非语言发声”的评测基准如果你关注过近几年的语音合成技术无论是TTS文本转语音还是歌声合成你会发现一个明显的趋势合成语音的自然度和表现力已经达到了前所未有的高度。我们可以轻松合成出清晰、流畅、甚至带有特定情感的朗读语音。然而当我们把目光投向更广阔的“声音”世界时会发现一个巨大的空白——那些没有明确语义却承载着丰富信息的“非语言发声”。什么是非语言发声它不是说话也不是唱歌而是人类在表达情绪、反应、状态时发出的声音。比如一声恍然大悟的“啊哈”一阵尴尬的咳嗽疼痛时的倒吸冷气思考时的“嗯…”或者开心的轻笑、悲伤的抽泣。这些声音构成了我们日常交流中不可或缺的“背景音”和情绪放大器。在影视、游戏、虚拟人交互、心理治疗辅助乃至智能车载系统里高质量的非语言发声合成能极大地提升沉浸感和真实感。但问题来了当前主流的语音合成评测基准如MOS平均意见分、CMOS比较平均意见分几乎全部聚焦于语音的“可懂度”和“自然度”。一个合成的声音是否像真人发音是否准确是这些基准的核心。它们并不关心也无法有效衡量一声叹息是否足够“疲惫”一声轻笑是否足够“俏皮”。现有的客观指标如梅尔倒谱失真MCD、基频轨迹误差F0 RMSE也都是为有音素、有旋律结构的语音设计的对非语言发声这种高度依赖复杂声学特征和上下文情感的信号几乎束手无策。这就是“NVBench”诞生的背景。作为首个公开的双语中英文非语言发声语音合成评测基准它试图填补这个关键的评价空白。它不仅仅是一个数据集更是一套完整的评测体系旨在回答一个核心问题我们如何科学、量化地评估一个合成出来的“非语言声音”到底好不好像不像我最初接触到这个领域是在为一个交互式叙事项目寻找合适的“环境音效”和“角色反应音”时。我们发现市面上通用的TTS引擎根本无法生成令人信服的、与剧情匹配的非语言声音而手动录制又成本极高且不灵活。那时我就意识到这个细分领域的工具和标准是缺失的。NVBench的出现就像为这片混沌的领域投下了一束光它定义了问题提供了数据更重要的是它建立了一套大家都能“坐下来谈谈”的评测语言。2. NVBench核心设计思路与数据构建解析构建一个评测基准尤其是针对“非语言发声”这种主观性强、定义模糊的对象其核心挑战在于如何将主观感知“客观化”、“结构化”。NVBench的设计思路体现了从数据采集、标注到评测指标的全链条思考。2.1 数据采集定义“非语言发声”的边界与多样性首先必须明确数据范围。NVBench没有试图囊括所有声音那会变成环境音库而是聚焦于人类发声器产生的、非语言的、常用于传递情感或状态的声音。这一定义排除了乐器声、动物叫声和纯粹的生理噪音如鼾声。数据来源上NVBench采用了专业声优在录音棚内录制的方式以确保音质纯净、可控。这里的一个关键设计是情境引导。与让声优凭空发出某种声音不同NVBench为每一种非语言发声类型设计了具体的情境脚本。例如对于“轻笑”这个类别情境脚本可能是“你听到朋友讲了一个有点冷但无伤大雅的笑话你报以礼貌的、短暂的轻笑。” 而对于“疼痛的吸气声”脚本可能是“你的手指不小心被抽屉夹了一下瞬间的刺痛让你倒吸一口冷气。” 这种方法能有效引导声优产生更自然、更贴合真实场景的发声避免了表演的夸张或空洞。在多样性方面NVBench考虑了以下几个维度发声类型涵盖了惊叹、疑问、肯定、否定、思考、疼痛、愉悦、尴尬、醒悟等数十种核心情感或状态对应的发声。说话人包含了不同性别、年龄段的说话人以覆盖声音特征的多样性。语言文化背景这是“双语”特性的体现。同一个非语言概念如表示肯定的“嗯”在中文和英文语境下其发声方式、时长、音调曲线可能存在细微但可感知的差异。NVBench分别采集了中文母语者和英文母语者在对应情境下的发声为跨语言模型研究提供了可能。强度与时长同一种发声如咳嗽有轻微的清嗓和剧烈的咳嗽之分NVBench也对此进行了采样。2.2 数据标注从粗糙标签到精细感知特征原始音频采集后粗糙的类别标签如“咳嗽”、“轻笑”是远远不够的。NVBench的亮点在于其多层次、精细化的标注体系基础元数据标注包括发声类别、说话人ID、录制情境、语言等。声学特征提取与标注自动提取并记录每段音频的底层声学参数如基频F0轮廓反映声音的音高变化。一声惊喜的“哇”通常有陡升的F0而一声低沉的“唉…”则F0较低且平缓。能量振幅包络反映声音的响度变化。笑声通常有起伏的能量包络而吸气声则可能是一个平滑的能量上升。频谱特征如梅尔频谱反映声音的音色。不同情绪下的非语言发声其频谱分布会有差异。感知特征标注核心这是NVBench最具价值的部分。它聘请了多名经过训练的标注员对每段音频在多个感知维度上进行评分。这些维度可能包括情感效价从非常消极到非常积极。情感唤醒度从非常平静到非常激动。自然度听起来像真人发出的程度。典型性作为该类非语言发声的典型代表程度。强度该发声所表达情绪的强烈程度。通过这种多维标注一段“轻笑”音频就不再只是一个标签而是一个拥有丰富感知特征向量的数据点。这为后续训练更细粒度的合成模型和设计更精准的评测指标奠定了基础。2.3 数据集划分与挑战任务设计NVBench将数据划分为标准的训练集、验证集和测试集。其中测试集是保密的仅用于公平评测防止模型过拟合到测试数据上。它主要支持两大挑战任务非语言发声合成给定文本描述如“[轻笑]”或更细粒度的“[轻松、短暂的轻笑]”和/或目标说话人生成对应的非语言发声音频。非语言发声转换给定一段源非语言发声音频和目标任务描述如“将这段咳嗽声转换为同一个人尴尬的咳嗽”生成转换后的音频。3. 评测体系超越MOS的多元评价维度NVBench摒弃了单一依赖主观MOS分的做法构建了一个主客观结合、多层次的全新评测体系。这套体系是其实用价值的核心体现。3.1 客观评测指标寻找声音的“指纹”对于非语言发声传统TTS的客观指标基本失效。NVBench引入或设计了一系列新的客观指标试图从不同角度捕捉合成声音与真实声音的差异声学特征匹配度F0轮廓相似度计算合成音频与真实音频在基频轨迹上的动态时间规整DTW距离或相关系数。一个好的叹息声应该有一个相似的、缓慢下降的F0轮廓。能量包络相似度同样使用DTW或相关度计算衡量响度变化模式是否一致。梅尔频谱失真MCD的变体虽然传统MCD用于语音但可以调整帧长和梅尔滤波器组参数使其更适合非语言发声的宽带频谱特性衡量整体音色相似度。嵌入空间相似度这是更“高级”的指标。使用在大规模音频数据上预训练好的神经网络如Wav2Vec 2.0, HuBERT提取合成和真实音频的深层特征嵌入Embedding然后计算它们在嵌入空间中的余弦相似度或欧氏距离。这个指标能捕捉到人类感知上更抽象的相似性例如“是否同属人类发声”、“情感色彩是否接近”。分类器置信度训练一个强大的非语言发声分类器基于真实数据。将合成音频输入该分类器观察其被正确分类为该类别的置信度分数。高分意味着合成音频具备了足够强的、能被机器识别的类别特征。注意客观指标永远只能作为参考。它们可能无法完全对应人类的主观感受。例如两个声学特征非常接近的“轻笑”可能一个听起来很自然另一个却显得做作因为微妙的相位、噪声特性或极细微的时序差异影响了感知。因此客观指标必须与主观评测结合使用。3.2 主观评测协议标准化的人类评判主观评测是黄金标准但必须标准化以避免偏差。NVBench设计了一套严谨的主观评测协议评测环境要求评测者在安静的环境下使用质量一致的耳机进行。评测任务自然度评测MOS播放一段音频让评测者从1-5分评价其听起来像真人发声的自然程度。相似度评测SMOS播放一对音频合成 vs. 真实让评测者评价两者的相似度。情感匹配度评测播放一段音频和一段文本描述或一个情境让评测者评价音频与描述/情境的情感匹配程度。评测者筛选与训练评测者需要经过筛选和简单训练以确保他们对非语言发声有一定的感知一致性。通常需要一定数量的有效评测者如20人以上来平均掉个人差异。评测界面设计评测界面需要清晰、无引导性问题设置中立音频播放顺序随机化。3.3 双语评测的特殊考量“双语”特性给评测带来了额外维度。除了分别对中英文合成结果进行上述评测外NVBench还可能设计跨语言一致性评测。例如用同一个模型分别合成中文语境和英文语境下的“肯定回应”如中文的“嗯”和英文的“Mm-hmm”评测其是否在保留说话人音色的同时恰当地体现了语言文化带来的发声差异。这要求模型不仅学习发声本身还要理解文化语境对发声方式的微妙影响。4. 基于NVBench的模型构建与实践要点有了基准和数据集下一步就是如何构建一个能在此基准上取得好成绩的模型。这并非简单的TTS模型微调而需要全新的架构设计思路。4.1 模型架构选型从自回归到扩散模型当前主流的高质量语音合成方案有以下几种它们各有优劣适用于非语言发声合成自回归模型如VITS, FastSpeech 2原理基于Transformer或Flow的架构将输入文本或音素序列逐步生成梅尔频谱或波形。优势技术成熟在TTS上效果稳定对韵律和时长控制较好。挑战非语言发声没有明确的文本或音素序列作为输入。需要将输入如情感标签、强度标签转化为一个抽象的“条件序列”这对模型的表征能力要求极高。同时自回归生成速度较慢。适用场景适合需要与前后语音片段在韵律上紧密衔接的非语言发声如在一句话中间插入的思考声“嗯…”。生成对抗网络GAN模型如HiFi-GAN, StyleGAN原理一个生成器负责从随机噪声或条件向量生成音频一个判别器负责判断音频是真实的还是生成的两者对抗学习。优势可以生成非常高质量、细节丰富的音频速度快。挑战训练不稳定容易模式崩溃生成的声音多样性差。对于非语言发声这种需要精确控制细微情感变化的任务控制性相对较弱。适用场景适合生成独立的、高质量的单次非语言发声如一声惊叹。扩散模型如DiffWave, WaveGrad原理通过一个逐步去噪的过程将随机高斯噪声转化为目标音频。优势目前音频生成领域的SOTA能生成极高保真度和自然度的声音在歌声合成中已证明其强大。对复杂声学模式的建模能力极强。挑战采样速度慢尽管有加速技术计算资源消耗大。需要精心设计条件注入机制。适用场景当前非语言发声合成的最有前景的方向。尤其适合需要高度自然度和丰富细节的各类发声。实操建议对于刚入门的研究者或开发者可以从在VITS或FastSpeech 2框架上进行改造开始将文本编码器替换为情感标签/描述文本的编码器使用NVBench数据进行微调这是一个相对稳妥的起点。追求最高质量则必须探索基于扩散模型的方案。4.2 条件信息的设计与注入模型输入什么决定了它能输出什么。非语言发声合成的条件信息设计是关键创新点。类别标签最基础的条件如[cough],[laugh]。但过于粗糙。细粒度属性向量将NVBench标注的感知特征效价、唤醒度、强度等作为连续值条件向量输入。这能让模型学习到“轻笑”内部的光谱变化。文本描述使用自然语言描述如 “a soft, hesitant chuckle followed by a sigh”。这提供了最强的灵活性和表现力但要求模型具备强大的文本理解能力。可以结合CLIP等文本-音频跨模态模型来提取描述的条件嵌入。参考音频提供一段简短的真实非语言发声作为参考让模型学习其风格并生成相似或转换后的声音。这通常用于声音转换任务。上下文音频对于需要插入对话中的非语言发声提供前后几秒的语音上下文作为条件有助于生成在韵律、节奏上更贴合的发声。在模型内部这些条件信息需要通过交叉注意力Cross-Attention、特征拼接Concatenation或自适应层归一化AdaIN等技术有效地注入到生成过程的每一步。4.3 训练策略与损失函数训练一个非语言发声合成模型损失函数的设计需要兼顾多个目标重建损失如波形级的L1损失、频谱级的L1或MSE损失确保生成音频在信号层面接近目标。对抗损失如果使用GAN需要判别器损失提升生成音频的整体真实感。特征匹配损失要求生成器中间层的特征与真实音频在判别器中间层的特征分布相似有助于稳定训练和提升质量。感知损失使用预训练好的音频网络如VGGish、预训练的HuBERT提取特征计算特征空间的距离。这能更好地对齐人类听觉感知。对比损失对于需要区分不同细粒度类别的任务可以使用对比学习让模型学会将相似感知的发声在嵌入空间中拉近将不同的推远。一个实用的训练流程可能是使用大量通用语音数据如LibriTTS预训练一个基础TTS或音频生成模型让其学会合成人类声音的基本模式。在NVBench数据上用上述精心设计的条件信息和多目标损失函数进行微调。在验证集上综合使用客观指标和人工试听来调整超参数和选择模型。5. 应用场景、挑战与未来展望NVBench的建立不仅仅是为了学术比拼更是为了推动一系列实际应用的发展。5.1 核心应用场景沉浸式娱乐内容创作游戏为NPC生成实时、动态的非语言反应受伤的闷哼、发现宝藏的惊喜声、思考的沉吟大幅提升游戏世界的真实感。影视与动画配音自动生成或辅助生成背景人群的嘈杂声、角色的气息声、情绪反应音降低后期制作成本。有声书与广播剧为旁白和对话添加丰富的情绪音效使讲述更加生动。人机交互与虚拟数字人让虚拟助手、车载语音、智能客服在回应时不仅用语言还能用“嗯”、“哦”等声音进行即时反馈使对话更自然、更有“人情味”。虚拟数字人在直播或互动中能根据对话内容实时产生匹配的笑声、惊叹声增强表现力和亲和力。辅助技术与医疗为言语障碍者开发沟通设备不仅合成语言还能合成表达基本情绪和需求的声音。在心理治疗或情绪识别辅助工具中生成或分析特定的非语言声音。5.2 当前面临的主要挑战数据稀缺与长尾问题尽管NVBench是重要一步但其数据规模相对于复杂的非语言发声世界仍是九牛一毛。许多罕见或极其细微的发声类型如不同文化特有的感叹词数据仍然匮乏。主观评价的标准化难题如何设计出更高效、更可靠、成本更低的主观评测方法仍然是一个挑战。众包评测的质量控制、文化差异对感知的影响都是需要持续研究的问题。可控性与创造性的平衡模型如何既能精确响应细粒度的条件控制生成“强度为0.7的愉悦轻笑”又能在给定条件下保留一定的创造性和随机性避免所有“轻笑”听起来都一样与语言合成的无缝集成如何让非语言发声自然地嵌入到连续的语音流中在韵律、节奏、音色上完美过渡这是一个系统工程问题。5.3 未来可能的发展方向从我个人的实践和观察来看这个领域下一步的突破可能在于大模型与基础模型像ChatGPT统一了NLP任务一样未来可能会出现“音频基础模型”。它在大规模、多模态音频、文本、音乐数据上预训练能够通过提示Prompting或指令微调Instruction Tuning的方式零样本或少样本地完成包括非语言发声合成在内的多种音频生成任务。NVBench将成为评测这类模型在细分领域能力的关键标尺。个性化与上下文感知模型不仅学习通用的非语言发声模式还能根据特定用户的音色、习惯进行个性化适配并能深度理解当前对话的完整上下文生成最恰当、最个性化的反应声音。跨模态生成与驱动结合视觉信息如面部表情、肢体动作来生成或驱动非语言发声实现音画同步的虚拟人生成。评测指标的进一步演进出现更强大的、与人类主观评价相关性更高的客观指标或许会结合脑神经科学的研究直接对音频信号进行“感知编码”评价。NVBench作为一个开创性的基准已经为这片蓝海画下了第一张航海图。它告诉我们目标在哪里以及目前我们离目标还有多远。对于从业者而言无论是研究者还是应用开发者深入理解这个基准的内涵利用它提供的数据和工具去探索、去创新无疑是在下一代人机交互和内容创作竞争中抢占先机的关键。