ritAI — デジタルツインプロジェクト
Image generated by Google Gemini ritの思考プロセス、ユーモアのロジック、対話スタイルを学習し、
ゲーム実況において自律的に振る舞う「デジタル分身」を構築するプロジェクトです。
単なる過去の模倣ではなく、「ritらしい閃き」に基づいた即興的な茶番と普通の会話を両立させることを目指しています。
コンセプト
SFC版DQ5 AI実況
対象ゲームはSFC版ドラクエ5。レトロフリークで録画したプレイ動画をAIが「実況」します。LLMの事前知識を活かしたドヤ顔解説がコンセプト。
閃きの再現
ritの茶番における「閃き」のパターンを構造化し、AIが類似の思考プロセスを踏んでユーモアを生成できるよう設計しています。
反復学習ループ
本人の実況とAIの実況を比較検証し、プロンプトやペルソナを継続的に改善。動画ごとにAIの「ritっぽさ」が進化していきます。
開発の軌跡
プロジェクト開始から現在までの主要なマイルストーンです。
プロジェクト始動・基盤設計
プロジェクト構造の設計、学習データの形式策定、コアとなるペルソナ定義の作成を実施。AIが「ritらしさ」を再現するための基盤を構築。
学習データの蓄積
複数タイトルの配信アーカイブから、AIの学習に使用する高品質なデータセット(ゴールドデータ)を130件以上作成。
茶番ロジックの体系化
ritの「閃き」によるユーモアのパターンを分類・構造化。AIが茶番を再現するための設計図を完成。
AI対話型コメント生成システム
Gemini APIを活用した擬似視聴者コメント生成パイプラインを構築。配信中にリアルタイムでAIコメントを生成し、それにritが反応する仕組みを実現。
ローカルVision LLM環境構築
ローカルGPUでのVision LLM動作環境を構築。ゲーム画面のスクリーンショットからステータスやテキストをほぼ完璧に読み取ることに成功。
自律配信動画生成パイプライン設計
対象ゲーム(SFC版DQ5)、Vision設計(目と口の分離アーキテクチャ)、反復学習ループ、エピソード管理など、パイプライン全体の設計を完了。
モデル選定アップデート
Vision用・テキスト生成用ともに最新世代のQwen3シリーズに更新を決定。OCR精度・日本語対応・推論能力が大幅に向上。
Phase A テスト実行
SFC版DQ5 Part1(30分)を使用した初回パイプラインテスト。フレーム抽出→Vision→実況テキスト生成の一連の流れを実行し、本人の実況と比較検証。
カスタム音声モデル学習
配信アーカイブからrit本人の音声を抽出・学習し、AIが「ritの声」で実況できるようにする。
技術スタック
完全ローカル処理を基本とし、必要に応じてクラウドAPIをフォールバックとして使用する設計です。
Vision(画面理解)
- Qwen3-VL 8B
- Gemini 2.5 Flash(フォールバック)
Text(実況生成)
- Qwen3 14B(Thinkingモード)
コメント生成
- Gemini API
- ストリーマープロファイル制御
TTS(音声合成)
- VOICEVOX(プレースホルダー)
- カスタム音声モデル(構築中)
インフラ
- RTX 5080 (16GB VRAM)
- ollama
- ローカル完結処理