一、为什么选择“零上传”
- 合规:内部资料、客户信息、未公开脚本不离开设备。
- 稳定:无需云端 API,峰值时段不排队、不限速。
- 成本:按需本地计算,避免高额并发调用费用。
二、环境与架构
优先使用支持 WebGPU 的现代浏览器;若环境受限,则采用 WebAssembly(线程/SIMD)路径。首次模型下载约 150MB,将缓存在本地,后续离线可用。
三、标准流程(SOP)
- 脚本准备:按“意群”切分,每段 1–3 句,≤20 秒;标注停顿与重读。
- 生成与导出:逐段预览→微调标点→导出 WAV(44.1/48 kHz)。
- 后期与合成:响度归一(−16 LUFS 立体声),软限幅,必要时去齿音;最后拼接导出。
四、合规与权限控制
- 设备级:通过 MDM/组策略限定可用浏览器与版本,确保 WebGPU/WASM 路径可用。
- 数据级:在内部 Wiki 公开“零上传”原则与缓存位置说明,避免误解。
- 素材级:仅使用已获授权的配乐/音效;保留来源记录与许可证。
五、性能优化(WebGPU 与 WASM)
- WebGPU:更低延迟,适合脚本反复打磨与现场预览。
- WASM:兼容性更强;在无 GPU 或虚拟化环境中稳定运行。
- 切分与批量:每段 ≤20 秒,导出分段 WAV;最终在 DAW 或 ffmpeg 拼接。
# 使用 ffmpeg 拼接多段旁白
ffmpeg -i 01.wav -i 02.wav -i 03.wav \
-filter_complex "[0:a][1:a][2:a]concat=n=3:v=0:a=1[out]" \
-map "[out]" narration.wav
六、质量控制清单
- 每段只表达一个完整意思;标点清晰,必要时加(停顿)。
- 声线与品牌调性一致;语速适中、吐字清楚。
- 响度目标:−16 LUFS(立体声),峰值不过 0 dBTP。
- 导出:编辑保留 WAV,发布使用 MP3 192–256 kbps。
七、典型落地场景
- 培训与内训:快速生成课程片头片尾与章节摘要。
- 市场物料:产品发布、功能讲解、App 预告片旁白。
- 客服与知识库:在 FAQ 中嵌入“语音版”回答,完全本地生成。
八、常见问题
问:首次加载很慢怎么办?
答:保持页面激活直至进度完成;后续命中缓存会显著加速。
问:某些专有名词读音不理想?
答:在脚本中加入拼读提示或调整拼写,以引导发音。
作者:Kokoro Web 团队 • 最后更新 2025‑01‑15