总体结论
- WebGPU:延迟更低,适合频繁预览与脚本打磨。
- WASM:兼容性最好;在无 GPU 或策略受限环境最稳妥。
- 混合:开发时用 WebGPU,发布时提供 WASM 兜底。
分段与批量
按“意群”切分,每段 8–20 秒为宜。过长段落会提升峰值内存与失败概率;过短则管理开销过大。统一导出分段 WAV,最终在 DAW 或 ffmpeg 拼接。
浏览器与策略
- 企业/教育环境:优先 WASM,减少驱动/权限不确定性。
- 创作/现场演示:优先 WebGPU,加速主观听感迭代。
稳定性建议
- 长时会话中保持单标签页生成,减少上下文切换。
- 每 30–40 段重开标签页,可回收内存碎片。
- 使用 44.1/48 kHz WAV 导出,避免采样率不一致导致伪失真。
参考流程
// WebGPU 首选
撰写 → 按意群切分 → WebGPU 预览 → 导出 WAV → 后期 → 发布
// WASM 兜底
撰写 → 按意群切分 → WASM 生成 → 导出 WAV → ffmpeg 拼接 → 发布
作者:Kokoro Web 团队 • 最后更新 2025‑01‑15