一、规划故事与拆解章节(2–3 分钟)
明确视频的单一承诺,如“教会观众用快捷键快速整理桌面”。将 5 分钟内容拆成 4–6 个小节,每节 30–60 秒。
二、写作与切分脚本(5–8 分钟)
句子要短;每段不超过 20 秒。加入提示词与停顿,帮助 Kokoro 把握语气与节奏。
[亲切] 欢迎回来!(停顿 300ms)
今天我们一起整理 Mac 桌面。(微笑)
先从三个文件夹开始:工作、个人、临时。
三、选择声线与语速(2 分钟)
从 2–3 个声线中对比预览;根据目标受众选择更亲切或更专业的音色。通过标点与短句控制语速,保证清晰度。
四、生成与导出 WAV(5–10 分钟)
- 在 Kokoro Web 粘贴第一段文本,点击预览。
- 若节奏不自然,补充逗号或(短暂停顿)。
- 导出 WAV 并按顺序命名:
001-开场.wav、002-步骤1.wav等。 - 对所有段落重复以上流程。
五、响度与清晰度(3 分钟)
目标 −16 LUFS(立体声);轻微高频搁架均衡与软限幅可让声音更通透。若“s”音突出,可轻度去齿音。
六、拼接与与视频对齐(5 分钟)
# 用 ffmpeg 按顺序拼接旁白
ffmpeg -i 001-开场.wav -i 002-步骤1.wav -i 003-步骤2.wav -i 004-总结.wav \
-filter_complex "[0:a][1:a][2:a][3:a]concat=n=4:v=0:a=1[out]" \
-map "[out]" 旁白.wav
在剪辑软件中将“旁白.wav”拖到时间线下方;先对齐章节分割,再补充 B‑roll。若有 BGM,将其响度控制在 −26 到 −28 LUFS,避免压住人声。
六、检查清单
- 每段传达一个核心点,无长难句。
- 语速与受众匹配;吐字清楚。
- 最终响度靠近 −16 LUFS;无削波。
- 素材命名规范、可回溯;保留 WAV 母带。
常见问题
Q:离线可用吗?
A:首轮下载模型后即可离线生成。
Q:遇到节奏生硬?
A:增加逗号与(短暂停顿),或拆成两段生成。
作者:Kokoro Web 团队 • 最后更新 2025‑01‑15