AI ジェミニの動画解析能力がスゴイので、
過去動画の字幕作成に使用してみた。
現在の使用感をブログにメモします。
1.字幕をタイムライン付きで 文字起こしを行います
ここでは、VREWを使いました。好きな文字起こしツールを使用してください
動画.mp4 → 低レベルの文字起こしした字幕テキスト
文字起こしした「あの」「あの」付きの話し言葉が付いたテキストを用意する
0:01:02 あのーこうワード立ち上げてワード立ち上げるとあのこんな感じで 0:01:06 あのいろいろ出てあのいろいろ出てっていうのも変だけど 0:01:11 あのここであのトイレ使用 0:01:15 注意とかあのふざけたあのやつが出たりとか 0:01:18 あのこんな感じで出てると思うんですけど 0:01:21 ここであの消すのはのこんな感じで選んだとしたら 0:01:24 消すときにあのこれ 0:01:26 右クリックを押すとあの一覧から削除ってあるんで
↑なに?この字幕、、、
自分で言うのもなんだけど、「あの」あの、ひどいね・・・
2.使用したプロンプトを紹介 And メモ代わりにブログに保存
24/10/05 使用している、文字起こしテキストから、字幕へ変換するプロンプト
## 字幕修正プロンプト ## 入力: 字幕ファイル - アップロードされた以下の字幕データ ``` [開始時間] [字幕テキスト] ``` 補足説明ファイル - 説明や台本、ソースコードが順不同で記述されたテキストファイル MP4ファイル - 動画の元ファイル ## 指示: 1. **フィラーの除去:** 「えー」「あー」「えーと」「あの」「えっと」「まあ」「うーん」など、意味を成さない言葉を削除してください。 2. **誤字脱字の修正:** 誤字脱字を修正してください。 3. **単語の切れ目調整:** 単語の切れ目を自然な形に調整してください、単語が途中で次の行に不自然にいかないようにする 4. **行の維持:** * 修正後も、原則として改行数はそのまま、行をまとめない。 * ただし、フィラーの削除によって空白になった行は、以下のいずれかに従う。 * 後続の行と内容的に繋がる場合は、空白行を削除して繋げる。 * 後続の行と内容的に繋がらない場合は、空白行もそのまま残す。 5. **タイムラインの維持:** 修正後も、各字幕の開始時間と終了時間は変更しないでください。 6. **句読点の調整:** 「。」- 句読点(。)は削除してください。 「、」- 句読点(、)は省略せずに、YouTube字幕で読みやすいように適切に入れて使用してください。 7. **数字の変換:** 漢数字はすべて半角のアラビア数字に変換してください。 8. **専門用語の正確な表記:** 登場する専門用語は、正確な表記で字幕に反映してください。補足説明ファイルを参考にしてください 9. **専門用語の強調:** 文中で出てくる専門用語は「」で囲んでください。ただし、すでに「」で囲まれている場合は、変更する必要はありません。 10. **コードの強調:** プログラムのコードで使う単語は `` で囲んでください。 **ポイント:** * 専門用語の判断が難しい場合もあるかと思います。その場合は、補足説明ファイルを参考にしてください。 * コードの強調は、変数名、関数名、メソッド名、プロパティ名など、プログラムのコードで実際に使われる単語に適用してください。 **例1:** 変換前: ``` この関数は引数として文字列と数値を受け取ります ``` 変換後: ``` この「関数」は「引数」として「文字列」と「数値」を受け取ります ``` 変換前: ``` ShapeオブジェクトのVisibleプロパティをFalseに設定します ``` 変換後: ``` `Shape` オブジェクトの `Visible` プロパティを `False` に設定します ``` **例2:** 変換前: 「え~と」「あの」話し言葉がそのまま記述されていて、 だそく 蛇足が「打速」と誤字になっており、単語の途中で次に進んでいる ''' 元字幕 00:00:41 え~とあの図形を作成後サイズを勝手に打 00:00:44 速だけど小さくしました。確認して下さい。 00:00:50 え~とあの 00:00:52 次は、テーブルを修正します ''' 変換後: 下記の結果が欲しい 「え~と」「あの」フィラーを削除して、 「打速」の誤字を「蛇足」と修正し、単語の途中で次に進まないようにする 調整後のタイムラインは変更しない フィラー削除で空白になった行(00:00:50)の行もそのまま残す。 ''' 修正処理後の結果 00:00:41 図形を作成後サイズを勝手に蛇足 00:00:44 だけど小さくしました、確認してください。 00:00:50 00:00:52 次は、テーブルを修正します ''' **例3:** 変換前: 単語が途中で切れている例 パワー(改行) ポイント~ と、単語の途中で次に進んでいる。 ''' 0:02:00 って感じでそんな落ち着いてもいられないんですけど、パワー 0:02:03 ポイントのweb版でアプリケーションの開くがないと 0:02:05 どういうことなんだって思うと ''' 変換後: 下記の結果が欲しい バランスを考え、下の行でまとめる ''' 0:02:00 って感じで、そんな落ち着いてもいられないんですけど、 0:02:03 「パワーポイント」のweb版でアプリケーションの開くがないと 0:02:05 どういうことなんだって思うと ''' 注意事項: 単語の途中で改行されないように、単語の切れ目に注意してください ## 出力: フィラーを削除など修正指示を実行した、修正後の字幕データ。 アップロードしたテキストファイルに対して、校正処理を実行してください ### 作業の進め方 ・作成範囲の指示、区切りが良いところで適宜修正結果を出力し、確認を取りながら作業を進めてください。 ・処理単位 a) 初回の確認は大事なので3分間 00:00:00 ~ 00:03:00 までを修正し初回の確認を求める b) 以降、6分間隔で区切りが良いところで適宜修正結果を出力
上記プロンプトを走らせて、字幕を作成ししています
3.作成結果の検証結果を一部載せます
0:00:59 ごめんなさいえーとやりたいこととしては
0:01:02 あのーこうワード立ち上げてワード立ち上げるとあのこんな感じで
0:01:06 あのいろいろ出てあのいろいろ出てっていうのも変だけど
0:01:11 あのここであのトイレ使用
0:01:15 注意とかあのふざけたあのやつが出たりとか
↑あの,えーとなど字幕に不要な文字を削除など、処理が行われ、
1. **フィラーの除去:** 「えー」「あー」「えーと」「あの」「えっと」「まあ」「うーん」など、意味を成さない言葉を削除してください。
3. **単語の切れ目調整:** 単語の切れ目を自然な形に調整してください、単語が途中で次の行に不自然にいかないようにする
4. **行の維持:**
* 修正後も、原則として改行数はそのまま、行をまとめない。
9. **専門用語の強調:** 文中で出てくる専門用語は「」で囲んでください。ただし、すでに「」で囲まれている場合は、変更する必要はありません。
「あの」が消えて、「Word」とカギカッコを付けて表記など下記の結果を得られました↓
0:00:59 えーと、やりたい事としては
0:01:02 こう「Word」立ち上げて「Word」立ち上げると、こんな感じで
0:01:06 色々出て色々出てっていうのも変だけど
0:01:11 ここで「トイレ使用注意」とか
0:01:15 ふざけたやつが出たりとか
↑文字起こしした生データをココまで整形できるので、素直にスゴイと思いました
4.音声読み上げで地声を機械音声にしてみた
字幕として、文章が整理されたので、
字幕をそのままVREWに取り込んで、AI音声に変換して、読ませてみた。
※AI音声は、好き嫌いがあるので、字幕だけ利用して、声はそのままもアリだけど、発音が悪い私としては考えるなぁ。。。
問題点:字幕をそのまま音声にしているので、行間に間が空く、ここが違和感として感じるかなぁ。
(※「あの」「えーと」などが消えるので、動画の画面と音声のタイミングに違和感が発生する)
5.実際の動画を見比べてみてください
実際の動画を載せるので、比較してください
ア.変換後の動画を先に紹介します:AI字幕埋込とAI音声
https://youtu.be/sMmFc9JscDs
youtu.be
中身は同じ動画の
イ.変換元「あの」「あの」「えーと」連発のライブ動画は下記を見て笑ってください
過去のライブ動画: リメイク前の元動画は下記です、
https://www.youtube.com/live/L6NE5pFZGUA
www.youtube.com
を、処理手順として、
1.AIに読み込ませ文字起こしを行い、
2.ジェミニで字幕作成プロンプト指示「あの」「あの」を削除した、字幕を作り
3.整形後の字幕を読み込み、機械音声で読み上げてみました。
※内容は、同じなのに、動画の感じ方がかなり違ったり、
比較してみてください。
6.完成したと思っているけど・・・
AIの出力結果が違うって、よくあることらしいですね。
https://youtube.com/shorts/J6jsvsj7STk?feature=share
youtube.com
昨日・前回まで塗膜言っていた処理が、今日はプロンプトが上手く動かなかったりと・・・
いろいろあるみたいですが。
7.おわりの挨拶
AIプロンプトの練習で、過去動画を題材にして、遊んでみたいと思います
読者の心の声:
「※字幕や音声よりも、動画の中身が悪いから、再生されないんだよ。
いいかげん、気がついてください」
Ken3:「痛い所を突くなぁ・・・、動画の中身や構成も見直さないとなぁ・・・」
「質問・感想などあったら、YouTubeのコメント欄などに気軽に書き込んでください」
「よろしくお願いします」