技術解説 — ritAI
ritAIプロジェクトの技術的な構成とパイプラインの詳細です。
アーキテクチャ概要
ritAIのパイプラインは、「目」と「口」を分離したアーキテクチャを採用しています。
目(1秒おき): 画面を常時監視して戦闘ログを蓄積
口(10〜15秒おき): 蓄積された情報を基に発話を生成
パイプライン詳細
各ステップをクリックすると詳細が表示されます。
モデル構成
RTX 5080 (16GB VRAM) をデバッグ・オフライン作業用に併用しつつ、本番パイプラインはGemini 3 Flash Preview (Vertex AI)に統一しています。
| 役割 | モデル | 量子化 | VRAM | 備考 |
|---|---|---|---|---|
| 実況生成(Part2〜) | Gemini 3.1 Pro Preview | API (Vertex AI Context Caching) | 0GB | 実況テキスト生成を担当。巨大なコンテキストをキャッシュ化し、高品質と低コストを両立。 |
| 画面理解 + 台本生成(Part1) | Gemini 3 Flash Preview | API (Vertex AI) | 0GB | Vision分析および初期の台本生成を担当。SFCドット文字も高精度で読み取り可能 |
| 画面理解(旧構成) | Qwen3-VL 8B | Q4_K_M | ~6GB | 初期テストで使用。SFCドット文字の誤読が多く、Geminiに移行 |
| 台本生成(旧構成) | Qwen3 14B | Q4_K_M | ~10GB | 初期テストで使用。繰り返し・英語混入・知識捏造の問題がありGeminiに移行 |
モデル選定の経緯
当初はローカルLLMだけで全て完結させる計画でしたが、品質検証を経てGemini 3 Flash Previewへの全面移行に至りました。
Qwen3-VL 8BはSFCドット文字のOCR精度が低く、主人公名「エーアイ」を「エーライ」「エアーリ」などと誤読。screen_type分類も全146セグメント中127件が「戦闘」に誤分類され、手動修正に丸1日を費やしました。
qwen3:14bで生成した台本には、同じセリフの3回連続出現、「Bianca」「Papas」などの英語混入、存在しないゲーム仕様の捏造、初見プレイヤーのような発言など、深刻な問題が多数見つかりました。
Vertex AI経由での接続を確立し、全工程を移行。コストは146セグメントで約21円。繰り返しゼロ、ゲーム知識が正確、既プレイ視点が安定し、品質は劇的に向上しました。
出力比較例
この部屋、何か隠れてる気がするよね。Papasの会話、後で役立つかもね。
さて、出発前に宿屋の備品は一通り漁っておかないとね。パパスが見てる前でタンス開けるの、冷静に考えるとかなり図太いけど。
反復学習ループ
AIの出力品質を段階的に高めるため、「本人の実況との比較学習ループ」を組み込んでいます。
処理時間の見積もり
RTX 5080でのオフラインバッチ処理の想定時間です。リアルタイム処理ではなく、時間をかけて品質の高い動画を生成します。
| 入力動画 | セグメント数 | 推定処理時間 |
|---|---|---|
| 3分(テスト用) | ~12〜18 | 30〜60分 |
| 10分 | ~40〜60 | 2〜4時間 |
| 30分 | ~120〜180 | 6〜12時間 |
※ Gemini 3 Flash Preview (Vertex AI) 経由のため、ローカルGPUの処理時間ではなくAPIレスポンスが主なボトルネックです。セグメント単位でのレジューム(中断・再開)機能も搭載しています。