オフラインで使えますか？

初回のモデル取得後は、ネット接続なしで生成できます。

不自然な抑揚を直すには？

短文＋適切な句読点、括弧での（小休止）指示、必要に応じて表記ゆれの調整を行ってください。

初回の読み込みが遅いのは？

モデルが大きいためです。進捗バー完了後はキャッシュで大幅に高速化します。

5分のYouTubeナレーションをKokoro TTSで作る（ステップバイステップ）

5分の動画は、実は TTS にとってちょうど扱いやすい長さです。長すぎて管理不能でもなく、短すぎて構成が曖昧でもないからです。この記事では、台本設計から分割、試聴、書き出し、簡易マスタリング、動画への同期までを一気通貫で整理します。

まず全体の考え方を押さえたい場合は、Kokoro Web のホームか Workflow Playbook を先に見ると流れがつかみやすいです。このページは 5 分動画の実務に絞っています。

まず全体像を決める

5分のナレーションで失敗しやすいのは、いきなり本文を書き始めることです。先に“何を伝える動画なのか”を 1 つに絞り、その上で章立てを作ると、TTS の編集がかなり楽になります。動画全体の役割が曖昧だと、ナレーションも曖昧になります。

おすすめは、冒頭で問題提起、中央で説明、最後にまとめという三層構造にすることです。5分なら 4〜6 章くらいが扱いやすく、各章が 40〜70 秒程度に収まると編集しやすくなります。

1) 企画と構成を先に決める（2–3分）

動画の約束を1つに絞り、4–6章に分けて配分します。例えば「Kokoro TTS を使って YouTube イントロを作る」という動画なら、次のように構成できます。

導入：なぜ音声が必要か
準備：どのブラウザーとどの脚本を使うか
生成：どう分割するか
後処理：どう整えるか
まとめ：何を再利用できるか

この段階で章ごとの役割が決まっていれば、後から“ここは長すぎる”“ここは情報が薄い”といった問題が起きにくくなります。

2) 台本作成と分割（5–8分）

短文＋句読点でリズムを安定させ、（小休止）や［やさしく］等の指示を括弧で追記します。重要なのは、“読みやすい文章”ではなく“読み上げやすい文章”にすることです。

台本を書くときは、まず自然な日本語で書き、そのあとで合成向けに整えます。たとえば「まずはブラウザーを開いて、Kokoro TTS を起動します」といった文は、すでに十分読みやすいですが、さらに安定させたいなら「まずブラウザーを開きます。次に Kokoro TTS を起動します。」のように分割できます。

この変換は地味ですが、読みやすさが一段上がります。とくにナレーションが説明的な内容では、短い文のほうが聞き手の負荷が低くなります。

3) ボイスとテンポの選択（2分）

候補ボイスで2–3セグメントを試聴し、句読点や速度を微調整します。ここでのコツは、全編を試すのではなく“冒頭・中盤・締め”の三点を見ることです。

冒頭では最初の印象、中盤では説明の聞き取りやすさ、締めでは余韻の出方を確認します。もし一つのボイスが全部に合わないなら、速度を微調整してから再判断します。

場面	確認ポイント
冒頭	最初の 10 秒でトーンが伝わるか。
中盤	説明が速すぎず、聞き返し不要か。
締め	結論が自然に収束するか。

4) 生成とWAV書き出し（5–10分）

各セグメントを試聴→調整→WAVとして001.wavのように連番保存。
1セグメントは20秒以内を目安に。
失敗したセグメントだけ再生成できるよう、ファイル名は固定する。

ここで大事なのは、出力ファイルを“後で探せる”ようにすることです。ナレーション制作では、品質が 90 点でもファイル命名が雑だと、再利用性が一気に下がります。

001_intro.wav
002_problem.wav
003_solution.wav
004_demo.wav
005_outro.wav

5) マスタリングと結合（3分）

目標は −16 LUFS（ステレオ）。軽いリミッターと必要最小限のディエッサーで仕上げます。YouTube なら、過度に大きくしすぎるよりも、言葉が聞き取りやすいほうが大切です。

もし BGM を乗せるなら、ナレーションを先に整えてから BGM を被せる方が良いです。先に BGM を選ぶと、ナレーションが埋もれてしまうことがあります。

6) 動画タイムラインへ配置（5分）

ffmpeg -i 001.wav -i 002.wav -i 003.wav -i 004.wav \
  -filter_complex "[0:a][1:a][2:a][3:a]concat=n=4:v=0:a=1[out]" \
  -map "[out]" voiceover.wav

この段階でやるべきことは単純です。生成した音声を動画の該当位置に置いて、言い換えが必要な箇所だけ後から差し替えます。最初から完璧を狙うより、差し替え前提で作るほうが実務では速いです。

7) よくある失敗と対策

冒頭が長すぎる場合は、最初の一文を短くする。
固有名詞が不自然なら、表記を一度書き換えてから再出力する。
一部だけ浮いて聞こえる場合は、そのセグメントの前後を再確認する。
全体が淡白なら、句読点を増やしてメリハリを作る。

8) 5分動画に向く理由

5分は、TTS で最も扱いやすい実用ゾーンの一つです。1分動画ほど短くないので構成の意味があり、10分超ほど長くないので分割や差し替えの負担も大きくありません。初めての人がワークフローを覚えるのにも向いています。

9) そのまま使える簡易チェック

冒頭 10 秒でテーマが分かるか。
1 章あたりの長さが似ているか。
固有名詞の読みが全部揃っているか。
セグメント名から順番が追えるか。
最後の一文が急に切れていないか。

このチェックを通すだけでも、完成度はかなり上がります。ナレーションは“全部が最高”である必要はなく、“どの部分も破綻していない”ことがまず重要です。

10) 5分動画の簡単な台本例

導入：今日は、Kokoro TTS を使って 5 分のナレーションを作ります。
本編：台本を短く分けて、ブラウザーで試聴しながら調整します。
補足：最後に WAV を書き出して、音量を整えてから動画へ入れます。
締め：この流れを覚えると、次回からかなり早くなります。

このレベルの骨組みがあれば、後は情報量を増やすだけです。まず構成、次に音、最後に見せ方の順で進めると、無駄が少なくなります。

11) 手戻りを減らすためのチェック表

確認項目	見るポイント
構成	各章が独立して役割を持っているか。
音声	冒頭、中盤、結尾でトーンが崩れていないか。
命名	後から見ても順番が分かるか。

12) こういうときは設計に戻る

もし何度も手直しが発生するなら、後期や声ではなく台本の構造に問題があることが多いです。文が長すぎる、章が曖昧、終わり方が急、という状態では、どの声線を選んでも改善は限定的です。

そんなときは一度主ワークフロー文書に戻って、脚本→分割→生成→書き出しの順番を見直すと、修正の方向が整理しやすくなります。

13) そのまま使える制作カード

テーマを一文で書く。
4〜6章に分ける。
各章は 30〜60 秒を目安にする。
ファイル名に順番を入れる。
WAV 母体を残しておく。

このカードがあるだけで、次の動画を作るときの迷いがかなり減ります。特に初心者は、毎回“何から始めるか”で時間を失いがちなので、先にこの5項目を固定してしまうのが効果的です。

14) 失敗しやすいポイント

・最初の一文が長すぎる
・固有名詞の読みが章ごとに違う
・BGM を先に決めてしまう
・書き出し後にファイル名が分からなくなる

これらはすべて、事前に構造を決めておけば防げます。つまり、細かい修正よりも先に、作り方そのものを整えるほうが効率的です。必要であれば、まず Kokoro Web のホームに戻って全体の位置づけを確認してから、再度この手順に戻ると整理しやすいです。

15) 5分に収めるコツ

5分に収めるには、説明を詰め込みすぎないことが大切です。ひとつの章で話す内容は 1 つか 2 つに絞り、補足したい内容は次の動画に回しても構いません。TTS では、短く切ったほうが音の修正も楽になり、あとで差し替えたい箇所だけを再生成できます。

また、最後のまとめは短くても十分です。視聴者が覚えてほしいのは細かな文言ではなく、流れと再現方法だからです。

16) 実務での使い分け

もしこの形式を何度も作るなら、毎回ゼロから考えるより、テンプレをひとつ決めておくほうがずっと速いです。開場、方法、例、まとめという 4 ブロックだけを固定し、テーマごとに中身だけ差し替えれば、制作のばらつきがかなり減ります。

この考え方は Workflow Playbook の考え方とも一致します。つまり、まず作業の流れを安定させ、その上で細部の調整をしていく、という順番です。

17) 一度決めたら変えすぎない

テンプレを作ったあとに毎回大きく変えると、せっかくの再利用性が下がります。まずは同じ順番、同じ長さ、同じ締め方で 2〜3 本続けて作ってみて、必要なところだけ少しずつ直す方が結果的に速いです。

このやり方なら、ホームに戻って全体を見直す必要があるときも、Kokoro Web の制作入口と Workflow Playbook を出発点に整理しやすくなります。

18) 公開前チェック

タイトルで「5分で何を作るか」が分かる。
サンプルに実務で使える具体性がある。
最後に次の行動が一つ書かれている。

この 3 点がそろっていれば、ページは単なる短文ではなく、実際に使える案内ページとして見えやすくなります。AdSense の観点でも、読み手が目的を持って滞在できるページのほうが評価しやすいはずです。

19) チーム共有で気をつけること

複数人で作業する場合は、最初に“どの段落を誰が触るか”を決めておくと混乱が減ります。特に YouTube の音声原稿は、途中で一文だけ変えると全体のリズムが崩れやすいので、編集範囲を小さく保つのがコツです。

もし誰かが途中で迷ったら、Workflow Playbook に戻って、脚本・生成・書き出しの順番を見直すと整理しやすくなります。

著者：Kokoro Web チーム • 最終更新 2025‑01‑15