1最初の1回だけ:セットアップ(Mac)
ターミナルを開いて、上から順にコピペで実行。
① ffmpeg(音声変換に使用)
brew install ffmpeg
※ Homebrew が無い場合は先に brew.sh から導入。
② 文字起こしエンジン
pip3 install -U faster-whisper
2スクリプトをダウンロード
下のボタンから transcribe.py を入手して、文字起こししたい音声と同じフォルダに置いてください。
3使い方(毎回これだけ)
1
音声ファイル(
.wav / .m4a / .mp3 など)を transcribe.py と同じフォルダに置く2
ターミナルでそのフォルダに移動して実行:
python3 transcribe.py 収録ファイル名.wav
3
終わると同じ場所に
.txt(本文)と .srt(字幕形式)ができます💡 処理中は喋った文がどんどん画面に流れるので、途中でも中身を確認できます。容量の大きいWAVでも大丈夫(スクリプトが自動で軽量化してから処理します)。
4精度と速度を選ぶ(モデル)
2つ目の引数でモデルを指定できます。まず tiny で全体をざっと見て、本番は medium がおすすめ。
| モデル | 特徴 | 使いどころ |
|---|---|---|
tiny | 爆速・粗い | 中身の当たり付け |
medium | 日本語で実用精度(既定) | 本番・記事化用 |
large-v3 | 最高精度・重い | 固有名詞が多い回 |
python3 transcribe.py 収録.wav medium
5文字起こし → 記事にする
テキストはそのままだと読みづらいので整えます。Claudeに任せるのが一番速いです。下の指示書をClaude(Claude Code / claude.ai)に読ませてから、文字起こし結果を渡してください。
⬇ Claude用の手順書をダウンロードClaudeに貼るだけの依頼文(コピー)
ポッドキャストの文字起こしテキストを、対談インタビュー記事に整形して。
ルール:
・収録前後の雑談はカット、本編だけ記事化
・聞き取り誤りは文脈から補正。確証のない固有名詞は〔要確認〕を付ける
・フィラーや言いよどみは整理して読みやすく(意味は変えない)
・話者ラベルを付ける(※Whisperは話者判別しないので推定でOK、断定しすぎない)
・音声にない発言は創作しない
・見出しとリード文を付ける。最後に読みやすいHTMLにもして
手作業で整えるときのコツ:①収録前後の雑談カット ②固有名詞・専門用語の誤変換を直す ③フィラー整理 ④対談なら話者名を付ける。
!知っておくべき注意点
話者は自動で判別されません
このツールは「誰が喋ったか」を分けません(テキスト化のみ)。記事の話者ラベルは文脈からの推定です。通常の2人対談なら実用上問題なし。3人以上の正確な切り分けが必要なら話者分離(whisperX + pyannote 等)が別途必要です。
固有名詞は要チェック
人名・社名・専門用語・作品名は誤変換しやすいので、公開前に必ず目視確認を。
機密について: このツールは音声・文字起こしを一切外部に送信しません(すべて自分のMac内で完結)。未公開の収録回でも安全に使えます。