浏览器内文本转语音

打开 Kokoro TTS
音频工程 最后更新:2025‑01‑15

浏览器端 TTS 音频后期:响度、去齿音、均衡与限幅器实践

生成效果好的 TTS 也需要工程化的后期流程。本文给出易于落地的响度、EQ、去齿音与限幅器参数建议,以及适合 Web 的导出设置。

采样率与位深

  • 视频项目优先 48 kHz;音频类内容可用 44.1 kHz。
  • 编辑阶段使用 24‑bit WAV 保留余量,交付时再转压缩格式。

响度归一(LUFS)

建议目标:立体声 −16 LUFS(单声道 −19 LUFS)。在链路末端使用透明限幅器,峰值控制在 −1 dBTP,压缩量 1–2 dB 即可。

均衡与去齿音

  • 高架均衡:6–8 kHz 以上 +1–2 dB,让声音更通透。
  • 去齿音:5–8 kHz 范围,轻比率,仅在明显“s”音处工作。
  • 高通:60–80 Hz,去除低频杂讯,避免与 BGM 冲突。

交付设置

  • 网页:MP3 192–256 kbps CBR 或 AAC 160–192 kbps。
  • 归档/编辑:WAV 24‑bit;保留母带,便于后续更新。
  • 播客:遵循平台规范;确保真峰值低于 −1 dBTP。

参考链路

高通(70 Hz) → 轻度 EQ → 去齿音 → 限幅器(−1 dBTP, GR 1–2 dB) → LUFS 计量

检查清单

  • 无削波;峰值 ≤ −1 dBTP。
  • 综合响度接近目标值(−16 LUFS 立体声)。
  • 去齿音不过度;咬字清晰。
  • 导出设置与发布平台一致。

作者:Kokoro Web 团队 • 最后更新 2025‑01‑15