技術解説 — ritAI

ritAIプロジェクトの技術的な構成とパイプラインの詳細です。

プロジェクト概要に戻る

アーキテクチャ概要

ritAIのパイプラインは、「目」と「口」を分離したアーキテクチャを採用しています。

🎮DQ5 プレイ動画
📸フレーム抽出1秒おき
👁️Vision分析Gemini 3 Flash Preview
🧠実況生成Gemini 3.1 Pro Preview
🔊TTS音声合成
💬コメント生成・反応
🎬動画合成最終出力

目(1秒おき): 画面を常時監視して戦闘ログを蓄積
口(10〜15秒おき): 蓄積された情報を基に発話を生成

パイプライン詳細

各ステップをクリックすると詳細が表示されます。

📸Step 1フレーム抽出と「目」の監視1秒おき
👁️Step 2画面理解と「口」のトリガー10〜15秒おき
🧠Step 3ritAI実況テキスト生成
💬Step 4視聴者コメント生成
↩️Step 5コメント反応生成
🔊Step 6TTS音声合成
🎬Step 7動画合成

モデル構成

RTX 5080 (16GB VRAM) をデバッグ・オフライン作業用に併用しつつ、本番パイプラインはGemini 3 Flash Preview (Vertex AI)に統一しています。

役割モデル量子化VRAM備考
実況生成(Part2〜)Gemini 3.1 Pro PreviewAPI (Vertex AI Context Caching)0GB実況テキスト生成を担当。巨大なコンテキストをキャッシュ化し、高品質と低コストを両立。
画面理解 + 台本生成(Part1)Gemini 3 Flash PreviewAPI (Vertex AI)0GBVision分析および初期の台本生成を担当。SFCドット文字も高精度で読み取り可能
画面理解(旧構成)Qwen3-VL 8BQ4_K_M~6GB初期テストで使用。SFCドット文字の誤読が多く、Geminiに移行
台本生成(旧構成)Qwen3 14BQ4_K_M~10GB初期テストで使用。繰り返し・英語混入・知識捏造の問題がありGeminiに移行
💡
DQ5のアドバンテージ: DQ5はLLMの学習データに大量に含まれているため、Vision LLMが画面を多少誤読しても、テキストLLMが「DQ5の知識」で補完できます。例えば、Visionが「緑のモンスター」と読み取った場合、LLMは「ニセたいこうだな」と正しく推論できます。

モデル選定の経緯

当初はローカルLLMだけで全て完結させる計画でしたが、品質検証を経てGemini 3 Flash Previewへの全面移行に至りました。

🚩ローカルLLMの壁

Qwen3-VL 8BはSFCドット文字のOCR精度が低く、主人公名「エーアイ」を「エーライ」「エアーリ」などと誤読。screen_type分類も全146セグメント中127件が「戦闘」に誤分類され、手動修正に丸1日を費やしました。

🚩台本品質の問題

qwen3:14bで生成した台本には、同じセリフの3回連続出現、「Bianca」「Papas」などの英語混入、存在しないゲーム仕様の捏造、初見プレイヤーのような発言など、深刻な問題が多数見つかりました。

Gemini 3 Flash Previewへの移行

Vertex AI経由での接続を確立し、全工程を移行。コストは146セグメントで約21円。繰り返しゼロ、ゲーム知識が正確、既プレイ視点が安定し、品質は劇的に向上しました。

出力比較例

ローカルLLM (qwen3:14b)

この部屋、何か隠れてる気がするよね。Papasの会話、後で役立つかもね。

Gemini 3 Flash Preview

さて、出発前に宿屋の備品は一通り漁っておかないとね。パパスが見てる前でタンス開けるの、冷静に考えるとかなり図太いけど。

💡
学んだこと: 「コスト0」を追求した結果、手動修正に膊大な時間を費やしました。数十円のAPI費用で品質が劇的に向上するなら、迷う理由はありません。ローカルLLMはデバッグ・オフライン作業では引き続き有用です。

反復学習ループ

AIの出力品質を段階的に高めるため、「本人の実況との比較学習ループ」を組み込んでいます。

1
本人が実況プレイ動画と音声を録画
2
文字起こし&データ化ゴールドデータとして蓄積
3
AIが同じ動画を実況※本人の実況データは非公開
4
比較検証&改善プロンプト・ペルソナを調整
⚠️
カンニング防止設計: AIに実況させる際、「その動画の文字起こしデータ」は一切渡しません。これにより、未来の展開を知っているかのような不自然な発言(未来予知)を防止しています。

処理時間の見積もり

RTX 5080でのオフラインバッチ処理の想定時間です。リアルタイム処理ではなく、時間をかけて品質の高い動画を生成します。

入力動画セグメント数推定処理時間
3分(テスト用)~12〜1830〜60分
10分~40〜602〜4時間
30分~120〜1806〜12時間

※ Gemini 3 Flash Preview (Vertex AI) 経由のため、ローカルGPUの処理時間ではなくAPIレスポンスが主なボトルネックです。セグメント単位でのレジューム(中断・再開)機能も搭載しています。

関連ページ