技術解説 — ritAI

ritAIプロジェクトの技術的な構成とパイプラインの詳細です。

プロジェクト概要に戻る

アーキテクチャ概要

ritAIのパイプラインは、「目」と「口」を分離したアーキテクチャを採用しています。

🎮DQ5 プレイ動画
📸フレーム抽出1秒おき
👁️Vision LLMQwen3-VL 8B
🧠実況生成Qwen3 14B
🔊TTS音声合成
💬コメント生成・反応
🎬動画合成最終出力

目(1秒おき): 画面を常時監視して戦闘ログを蓄積
口(10〜15秒おき): 蓄積された情報を基に発話を生成

パイプライン詳細

各ステップをクリックすると詳細が表示されます。

📸Step 1フレーム抽出と「目」の監視1秒おき
👁️Step 2画面理解と「口」のトリガー10〜15秒おき
🧠Step 3ritAI実況テキスト生成
💬Step 4視聴者コメント生成
↩️Step 5コメント反応生成
🔊Step 6TTS音声合成
🎬Step 7動画合成

モデル構成

RTX 5080 (16GB VRAM) での動作を前提に、交互ロード方式(Vision→アンロード→Text→アンロード→…)で限られたVRAMを最大活用します。

役割モデル量子化VRAM備考
画面理解(Vision)Qwen3-VL 8BQ4_K_M~6GBOCR精度・日本語対応が大幅向上したQwen3世代のVisionモデル
高精度分析(フォールバック)Gemini 2.5 FlashAPI0GBローカルVision LLMの信頼度が低い場合に使用
実況・反応生成(Text)Qwen3 14BQ4_K_M~10GBThinkingモード搭載。日本語品質が高く推論精度も優秀
💡
DQ5のアドバンテージ: DQ5はLLMの学習データに大量に含まれているため、Vision LLMが画面を多少誤読しても、テキストLLMが「DQ5の知識」で補完できます。例えば、Visionが「緑のモンスター」と読み取った場合、LLMは「ニセたいこうだな」と正しく推論できます。

反復学習ループ

AIの出力品質を段階的に高めるため、「本人の実況との比較学習ループ」を組み込んでいます。

1
本人が実況プレイ動画と音声を録画
2
文字起こし&データ化ゴールドデータとして蓄積
3
AIが同じ動画を実況※本人の実況データは非公開
4
比較検証&改善プロンプト・ペルソナを調整
⚠️
カンニング防止設計: AIに実況させる際、「その動画の文字起こしデータ」は一切渡しません。これにより、未来の展開を知っているかのような不自然な発言(未来予知)を防止しています。

処理時間の見積もり

RTX 5080でのオフラインバッチ処理の想定時間です。リアルタイム処理ではなく、時間をかけて品質の高い動画を生成します。

入力動画セグメント数推定処理時間
3分(テスト用)~12〜1830〜60分
10分~40〜602〜4時間
30分~120〜1806〜12時間

※ オフライン処理のため、就寝中に回すことも可能です。セグメント単位でのレジューム(中断・再開)機能も搭載しています。

関連ページ