February 9, 2025 · 2177 words · 5 min read

Hibiki：高保真同步语音到语音翻译

Hibiki (“echo” in Japanese), a system for streaming and expressive speech-to-speech (S2ST) and speech-to-text (S2TT) translation

想象一下，一位国际会议的同声传译员，在演讲者话音未落之时，便能流畅自然地用另一种语言同步表达演讲内容，实现无缝的跨语言沟通。这种如同“回声”一般即时且准确的翻译体验，正是我们今天要介绍的 Hibiki (日语中“回声”之意) 技术的追求。

Hibiki 是一种解码器模型，专为同声传译任务而设计。它创新性地利用多流语言模型，同步处理源语言和目标语言的语音，并联合生成文本和音频 tokens，从而实现语音到文本 (S2TT) 和语音到语音 (S2ST) 的双重翻译能力。

同步翻译的挑战与 Hibiki 的应对

与传统的离线翻译（模型在获取完整源语句子后才开始翻译）不同，同步翻译面临着更为严峻的挑战。它要求模型像人类同声传译员一样，实时决策，判断何时积累了足够的上下文信息，从而开始生成准确的翻译，并且需要逐块、逐步地进行翻译。

为了解决同步翻译的难题，Hibiki 引入了一种弱监督方法。该方法巧妙地利用现成的文本翻译系统的困惑度，来识别每个词语的最佳延迟时间，并以此创建对齐的合成数据。通过对这些数据进行监督学习，Hibiki 能够执行自适应的同声传译，并且在推理时仅需使用简单的温度采样技术。

Hibiki 的卓越性能

在法语-英语同声传译任务中，Hibiki 展示了最先进的性能，在翻译质量、说话人保真度和自然度方面均超越了以往的模型。更令人惊喜的是，Hibiki 的推理过程非常简洁，这使得它能够兼容批量翻译，甚至可以实时部署在设备端。

为了让大家更直观地感受 Hibiki 的魅力，作者提供了示例演示以及模型和推理代码。

Hibiki模型细节

Hibiki 的核心在于其多流架构，它能够同步接收源语言语音并生成目标语言语音。这种架构基于嵌套的全局和局部 Transformer，能够联合建模两个音频流，并通过预测分层的文本和音频 tokens 来完成翻译任务。

1. Neural Audio Codec (Mimi Codec)

Hibiki 采用了预训练的因果流式 Mimi 编解码器，将源语言和目标语言的语音编码成低帧率的离散 tokens 序列。Mimi 包含一个编码器和一个解码器，以及一个使用残差向量量化（RVQ）的信息瓶颈。

编码器将持续时间为 d 的输入波形转换为维度为 C，帧率为 fr（12.5 Hz）的潜在向量 U。然后，U 被投影到码本表中，并重复此过程 Q 次以获得更精细的量化表示。解码器则被训练为从投影张量的总和中重建输入波形。

对于语言建模，我们更关注码本条目的离散索引，即 (At,q)。按照惯例，第一个量化级别的输出 (At,1) 被称为语义 tokens，而 (At,q≥2) 则被称为声学 tokens。声学 tokens 以粗到精的方式排列，前者捕捉音频的主要特征，后者则精细地建模音频细节，确保平滑的感知效果。

2. 离散音频 Tokens 的联合建模

为了有效地建模离散音频 tokens，Hibiki 利用了 RQ-Transformer。它包含一个大型的时间 Transformer，以与编解码器相同的帧率 fr 运行，并接收到目前为止生成的所有 tokens。时间 Transformer 的输出 Zt 随后被输入到一个更小规模的深度 Transformer 中，深度 Transformer 自回归地建模量化器轴上的 tokens (At,1, ..., At,Q)。

为了引入声学延迟，模型实际上建模的是 (τ(A)t,q) 而不是 A。这种延迟在解码音频之前被移除。

3. 多流建模实现翻译

Hibiki 将目标语言解释 Y 的音频 tokens (AY) 与源语言语句 X 的 tokens (AX) 沿 q 轴连接起来，形成一个联合的 tokens 序列 Ā。虽然在推理时跳过了对源语言 tokens 的预测，但在训练时建模 AX 被证明是有益的。

与 [Defossez et al. 2024] 类似，Hibiki 还预测一个 Inner Monologue，即与生成音频内容对齐的填充文本 tokens 流 (Wt)。这种文本流充当语音生成的支架，并在推理时被积极使用。

4. 架构细节

Hibiki 的时间 Transformer 具有 2560 的潜在维度，24 层，以及每头 128 维。深度 Transformer 初始版本每码本 6 层，潜在维度 1024，每头 64 维，建模输出流的 Q=16 音频码本和输入流的相同数量的码本（仅在训练时）。为了减小深度 Transformer 的尺寸，Hibiki 采用了后训练蒸馏技术，将其缩减为一个更小的版本，参数量从 1.1B 减少到 449M。

上下文对齐与合成解释数据

Hibiki 的核心创新之一是上下文对齐方法，它用于估计和加强源语言和目标语言语句之间的因果依赖关系，从而实现同步翻译。

1. 文本域对齐

上下文对齐旨在找到理想的对齐方式 (aidealj)，指示目标语言中第 j 个词 (Tj) 应该等待源语言中哪个词 (Saidealj)，以最大程度地减少对 Tj 的不确定性。

为了估计理想对齐，Hibiki 引入了上下文对齐标准。它利用预训练的文本翻译语言模型 MADLAD-3B 计算条件对数似然 log(pj,i)，并假设当 i = aj 时，增量对数似然 δj,i = log(pj,i) − log(pj,i-1) 最大。通过这种方式，Hibiki 可以推导出上下文对齐 (actxj)。

2. 音频域对齐

在音频域中，Hibiki 使用 Whisper 模型转录源语言和目标语言的语音，并计算文本域的上下文对齐。如果目标语言语音 (Y) 不符合对齐，则通过在词语前插入足够的静音来调整 Y，或者使用对齐感知 TTS 模型重新合成 Y 以获得更自然的对齐数据。

语音迁移与条件训练

为了提升语音迁移效果，Hibiki 采用了条件训练。模型根据说话人相似度的分位数，将每个训练样本标记为不同的语音迁移分数类别（例如，非常好、好、中性、差、非常差），并将与每个类别相关的可学习嵌入添加到模型输入中。在推理时，始终传递“非常好”的标签。

此外，Hibiki 还采用了 Classifier-Free Guidance 技术，通过结合有条件和无条件 logits 进行采样，进一步增强了条件作用的影响，显著提高了语音迁移效果。

实验结果

Hibiki 在法语-英语语音翻译任务中进行了广泛的实验评估，并与离线基线模型以及 Seamless 和 StreamSpeech 等同步翻译模型进行了对比。

实验结果表明，Hibiki 在翻译质量 (ASR-BLEU) 上超越了所有离线基线模型。与同步翻译模型相比，Hibiki 在短句和长句翻译任务中均展现出卓越的性能，尤其是在 BLEU 分数、说话人相似度和 End Offset 延迟方面。人类评估也表明，Hibiki 在自然度和音频质量方面显著优于 Seamless，并且在同声传译体验上接近专业人类水平。

总结与展望

Hibiki 的出现，为同声传译领域带来了突破性的进展。它不仅在翻译质量、语音保真度和自然度方面达到了新的高度，更重要的是，其简洁的推理过程使其具备了实时性和设备端部署的潜力。

Hibiki 的成功，归功于其创新的多流架构、上下文对齐方法以及条件训练策略。这些技术的结合，使得 Hibiki 能够像人类同声传译员一样，实时、自适应地进行高质量的语音翻译，为未来的跨语言交流应用开辟了广阔的前景。

我们相信，随着 Hibiki 代码、模型和数据集的开源，将会有更多的研究人员和开发者加入到同声传译的研究和应用中来，共同推动这一领域的快速发展。

参考链接

Hibiki 示例演示: https://hf.co/spaces/kyutai/hibiki-samples

Hibiki 模型和推理代码: https://github.com/kyutai-labs/hibiki

CC BY-NC-SA 4.0