ブラウザー内テキスト読み上げ

Kokoro TTS を開く
ステップ 最終更新:2025‑01‑15

5分のYouTubeナレーションをKokoro TTSで作る(ステップバイステップ)

台本を短い意味単位に分割し、Kokoroで各セグメントを試聴→調整→WAV書き出し。最後に音量(−16 LUFS目安)を整え、動画に同期します。

1) 物語設計(2–3分)

動画の約束を1つに絞り、4–6章に分けて配分します。

2) 台本作成と分割(5–8分)

短文+句読点でリズムを安定させ、(小休止)や[やさしく]等の指示を括弧で追記します。

3) ボイスとテンポの選択(2分)

候補ボイスで2–3セグメントを試聴し、句読点や速度を微調整します。

4) 生成とWAV書き出し(5–10分)

  • 各セグメントを試聴→調整→WAVとして001.wavのように連番保存。
  • 1セグメントは20秒以内を目安に。

5) マスタリングと結合(3分)

目標は −16 LUFS(ステレオ)。軽いリミッターと必要最小限のディエッサーで仕上げます。

6) 動画タイムラインへ配置(5分)

ffmpeg -i 001.wav -i 002.wav -i 003.wav -i 004.wav \
  -filter_complex "[0:a][1:a][2:a][3:a]concat=n=4:v=0:a=1[out]" \
  -map "[out]" voiceover.wav

著者:Kokoro Web チーム • 最終更新 2025‑01‑15