技術解説 — ritAI
ritAIプロジェクトの技術的な構成とパイプラインの詳細です。
アーキテクチャ概要
ritAIのパイプラインは、「目」と「口」を分離したアーキテクチャを採用しています。
🎮DQ5 プレイ動画
→
📸フレーム抽出1秒おき
↓
👁️Vision LLMQwen3-VL 8B
→
🧠実況生成Qwen3 14B
→
🔊TTS音声合成
↓
💬コメント生成・反応
→
🎬動画合成最終出力
目(1秒おき): 画面を常時監視して戦闘ログを蓄積
口(10〜15秒おき): 蓄積された情報を基に発話を生成
パイプライン詳細
各ステップをクリックすると詳細が表示されます。
Step 1フレーム抽出と「目」の監視1秒おき▼
Step 2画面理解と「口」のトリガー10〜15秒おき▼
Step 3ritAI実況テキスト生成▼
Step 4視聴者コメント生成▼
Step 5コメント反応生成▼
Step 6TTS音声合成▼
Step 7動画合成▼
モデル構成
RTX 5080 (16GB VRAM) での動作を前提に、交互ロード方式(Vision→アンロード→Text→アンロード→…)で限られたVRAMを最大活用します。
| 役割 | モデル | 量子化 | VRAM | 備考 |
|---|---|---|---|---|
| 画面理解(Vision) | Qwen3-VL 8B | Q4_K_M | ~6GB | OCR精度・日本語対応が大幅向上したQwen3世代のVisionモデル |
| 高精度分析(フォールバック) | Gemini 2.5 Flash | API | 0GB | ローカルVision LLMの信頼度が低い場合に使用 |
| 実況・反応生成(Text) | Qwen3 14B | Q4_K_M | ~10GB | Thinkingモード搭載。日本語品質が高く推論精度も優秀 |
DQ5のアドバンテージ: DQ5はLLMの学習データに大量に含まれているため、Vision LLMが画面を多少誤読しても、テキストLLMが「DQ5の知識」で補完できます。例えば、Visionが「緑のモンスター」と読み取った場合、LLMは「ニセたいこうだな」と正しく推論できます。
反復学習ループ
AIの出力品質を段階的に高めるため、「本人の実況との比較学習ループ」を組み込んでいます。
1
本人が実況プレイ動画と音声を録画
→
2
文字起こし&データ化ゴールドデータとして蓄積
→
3
AIが同じ動画を実況※本人の実況データは非公開
→
4
比較検証&改善プロンプト・ペルソナを調整
カンニング防止設計: AIに実況させる際、「その動画の文字起こしデータ」は一切渡しません。これにより、未来の展開を知っているかのような不自然な発言(未来予知)を防止しています。
処理時間の見積もり
RTX 5080でのオフラインバッチ処理の想定時間です。リアルタイム処理ではなく、時間をかけて品質の高い動画を生成します。
| 入力動画 | セグメント数 | 推定処理時間 |
|---|---|---|
| 3分(テスト用) | ~12〜18 | 30〜60分 |
| 10分 | ~40〜60 | 2〜4時間 |
| 30分 | ~120〜180 | 6〜12時間 |
※ オフライン処理のため、就寝中に回すことも可能です。セグメント単位でのレジューム(中断・再開)機能も搭載しています。