技術解説 — ritAI

ritAIプロジェクトの技術的な構成とパイプラインの詳細です。

◆ プロジェクト概要に戻る

アーキテクチャ概要

ritAIのパイプラインは、「目」と「口」を分離したアーキテクチャを採用しています。

🎮DQ5 プレイ動画

→

📸フレーム抽出1秒おき

↓

👁️Vision LLMQwen3-VL 8B

→

🧠実況生成Qwen3 14B

→

🔊TTS音声合成

↓

💬コメント生成・反応

→

🎬動画合成最終出力

目（1秒おき）: 画面を常時監視して戦闘ログを蓄積
口（10〜15秒おき）: 蓄積された情報を基に発話を生成

パイプライン詳細

各ステップをクリックすると詳細が表示されます。

📸Step 1フレーム抽出と「目」の監視1秒おき▼

👁️Step 2画面理解と「口」のトリガー10〜15秒おき▼

🧠Step 3ritAI実況テキスト生成▼

💬Step 4視聴者コメント生成▼

↩️Step 5コメント反応生成▼

🔊Step 6TTS音声合成▼

🎬Step 7動画合成▼

モデル構成

RTX 5080 (16GB VRAM) での動作を前提に、交互ロード方式（Vision→アンロード→Text→アンロード→…）で限られたVRAMを最大活用します。

役割	モデル	量子化	VRAM	備考
画面理解（Vision）	Qwen3-VL 8B	Q4_K_M	~6GB	OCR精度・日本語対応が大幅向上したQwen3世代のVisionモデル
高精度分析（フォールバック）	Gemini 2.5 Flash	API	0GB	ローカルVision LLMの信頼度が低い場合に使用
実況・反応生成（Text）	Qwen3 14B	Q4_K_M	~10GB	Thinkingモード搭載。日本語品質が高く推論精度も優秀

💡

DQ5のアドバンテージ: DQ5はLLMの学習データに大量に含まれているため、Vision LLMが画面を多少誤読しても、テキストLLMが「DQ5の知識」で補完できます。例えば、Visionが「緑のモンスター」と読み取った場合、LLMは「ニセたいこうだな」と正しく推論できます。

反復学習ループ

AIの出力品質を段階的に高めるため、「本人の実況との比較学習ループ」を組み込んでいます。

本人が実況プレイ動画と音声を録画

→

文字起こし＆データ化ゴールドデータとして蓄積

→

AIが同じ動画を実況※本人の実況データは非公開

→

比較検証＆改善プロンプト・ペルソナを調整

⚠️

カンニング防止設計: AIに実況させる際、「その動画の文字起こしデータ」は一切渡しません。これにより、未来の展開を知っているかのような不自然な発言（未来予知）を防止しています。

処理時間の見積もり

RTX 5080でのオフラインバッチ処理の想定時間です。リアルタイム処理ではなく、時間をかけて品質の高い動画を生成します。

入力動画	セグメント数	推定処理時間
3分（テスト用）	~12〜18	30〜60分
10分	~40〜60	2〜4時間
30分	~120〜180	6〜12時間

※ オフライン処理のため、就寝中に回すことも可能です。セグメント単位でのレジューム（中断・再開）機能も搭載しています。