浏览器内文本转语音

打开 Kokoro TTS
性能 最后更新:2025‑01‑15

WebGPU 与 WASM 在浏览器端 TTS 推理中的性能取舍

Kokoro Web 同时支持 WebGPU 与 WebAssembly 两条执行路径。本文给出在实际落地中如何选择与调优:从延迟、兼容性到内存与分段策略,帮助你在不同设备与策略上获得稳定体验。

总体结论

  • WebGPU:延迟更低,适合频繁预览与脚本打磨。
  • WASM:兼容性最好;在无 GPU 或策略受限环境最稳妥。
  • 混合:开发时用 WebGPU,发布时提供 WASM 兜底。

分段与批量

按“意群”切分,每段 8–20 秒为宜。过长段落会提升峰值内存与失败概率;过短则管理开销过大。统一导出分段 WAV,最终在 DAW 或 ffmpeg 拼接。

浏览器与策略

  • 企业/教育环境:优先 WASM,减少驱动/权限不确定性。
  • 创作/现场演示:优先 WebGPU,加速主观听感迭代。

稳定性建议

  • 长时会话中保持单标签页生成,减少上下文切换。
  • 每 30–40 段重开标签页,可回收内存碎片。
  • 使用 44.1/48 kHz WAV 导出,避免采样率不一致导致伪失真。

参考流程

// WebGPU 首选
撰写 → 按意群切分 → WebGPU 预览 → 导出 WAV → 后期 → 发布

// WASM 兜底
撰写 → 按意群切分 → WASM 生成 → 导出 WAV → ffmpeg 拼接 → 发布

作者:Kokoro Web 团队 • 最后更新 2025‑01‑15