浏览器内文本转语音

打开 Kokoro TTS
分步教程 最后更新:2025‑01‑15

5 分钟 YouTube 视频中文旁白制作:用 Kokoro TTS 的完整流程

面向创作者与产品市场同学的实战教程:从脚本写作、分段生成到后期混音与视频对齐,全部在浏览器内完成,零上传、可复用、效率高。

一、规划故事与拆解章节(2–3 分钟)

明确视频的单一承诺,如“教会观众用快捷键快速整理桌面”。将 5 分钟内容拆成 4–6 个小节,每节 30–60 秒。

二、写作与切分脚本(5–8 分钟)

句子要短;每段不超过 20 秒。加入提示词与停顿,帮助 Kokoro 把握语气与节奏。

[亲切] 欢迎回来!(停顿 300ms)
今天我们一起整理 Mac 桌面。(微笑)
先从三个文件夹开始:工作、个人、临时。

三、选择声线与语速(2 分钟)

从 2–3 个声线中对比预览;根据目标受众选择更亲切或更专业的音色。通过标点与短句控制语速,保证清晰度。

四、生成与导出 WAV(5–10 分钟)

  1. 在 Kokoro Web 粘贴第一段文本,点击预览。
  2. 若节奏不自然,补充逗号或(短暂停顿)。
  3. 导出 WAV 并按顺序命名:001-开场.wav002-步骤1.wav 等。
  4. 对所有段落重复以上流程。

五、响度与清晰度(3 分钟)

目标 −16 LUFS(立体声);轻微高频搁架均衡与软限幅可让声音更通透。若“s”音突出,可轻度去齿音。

六、拼接与与视频对齐(5 分钟)

# 用 ffmpeg 按顺序拼接旁白
ffmpeg -i 001-开场.wav -i 002-步骤1.wav -i 003-步骤2.wav -i 004-总结.wav \
  -filter_complex "[0:a][1:a][2:a][3:a]concat=n=4:v=0:a=1[out]" \
  -map "[out]" 旁白.wav

在剪辑软件中将“旁白.wav”拖到时间线下方;先对齐章节分割,再补充 B‑roll。若有 BGM,将其响度控制在 −26 到 −28 LUFS,避免压住人声。

六、检查清单

  • 每段传达一个核心点,无长难句。
  • 语速与受众匹配;吐字清楚。
  • 最终响度靠近 −16 LUFS;无削波。
  • 素材命名规范、可回溯;保留 WAV 母带。

常见问题

Q:离线可用吗?
A:首轮下载模型后即可离线生成。

Q:遇到节奏生硬?
A:增加逗号与(短暂停顿),或拆成两段生成。


作者:Kokoro Web 团队 • 最后更新 2025‑01‑15