ritAI — デジタルツインプロジェクト

Image generated by Google Gemini

🤖 Digital Twin Project

ritの思考プロセス、ユーモアのロジック、対話スタイルを学習し、
ゲーム実況において自律的に振る舞う「デジタル分身」を構築するプロジェクトです。

単なる過去の模倣ではなく、「ritらしい閃き」に基づいた即興的な茶番と普通の会話を両立させることを目指しています。

コンセプト

🎮

SFC版DQ5 AI実況

対象ゲームはSFC版ドラクエ5。レトロフリークで録画したプレイ動画をAIが「実況」します。LLMの事前知識を活かしたドヤ顔解説がコンセプト。

🧠

閃きの再現

ritの茶番における「閃き」のパターンを構造化し、AIが類似の思考プロセスを踏んでユーモアを生成できるよう設計しています。

🔁

反復学習ループ

本人の実況とAIの実況を比較検証し、プロンプトやペルソナを継続的に改善。動画ごとにAIの「ritっぽさ」が進化していきます。

開発の軌跡

プロジェクト開始から現在までの主要なマイルストーンです。

🏗️

M-0012026年3月完了

プロジェクト始動・基盤設計

プロジェクト構造の設計、学習データの形式策定、コアとなるペルソナ定義の作成を実施。AIが「ritらしさ」を再現するための基盤を構築。

📚

M-0022026年3月〜4月完了

学習データの蓄積

複数タイトルの配信アーカイブから、AIの学習に使用する高品質なデータセット（ゴールドデータ）を130件以上作成。

🎭

M-0032026年4月完了

茶番ロジックの体系化

ritの「閃き」によるユーモアのパターンを分類・構造化。AIが茶番を再現するための設計図を完成。

💬

M-0042026年4月完了

AI対話型コメント生成システム

Gemini APIを活用した擬似視聴者コメント生成パイプラインを構築。配信中にリアルタイムでAIコメントを生成し、それにritが反応する仕組みを実現。

👁️

M-0052026年4月29日完了

ローカルVision LLM環境構築

ローカルGPUでのVision LLM動作環境を構築。ゲーム画面のスクリーンショットからステータスやテキストをほぼ完璧に読み取ることに成功。

📐

M-0062026年4月29日〜30日完了

自律配信動画生成パイプライン設計

対象ゲーム（SFC版DQ5）、Vision設計（目と口の分離アーキテクチャ）、反復学習ループ、エピソード管理など、パイプライン全体の設計を完了。

🔄

M-0072026年4月30日〜5月1日完了

モデル選定アップデート

Vision用・テキスト生成用ともに最新世代のQwen3シリーズに更新を決定。OCR精度・日本語対応・推論能力が大幅に向上。

🚀

M-008予定進行中

Phase A テスト実行

SFC版DQ5 Part1（30分）を使用した初回パイプラインテスト。フレーム抽出→Vision→実況テキスト生成の一連の流れを実行し、本人の実況と比較検証。

🎙️

M-009予定予定

カスタム音声モデル学習

配信アーカイブからrit本人の音声を抽出・学習し、AIが「ritの声」で実況できるようにする。

技術スタック

完全ローカル処理を基本とし、必要に応じてクラウドAPIをフォールバックとして使用する設計です。

👁️

Vision（画面理解）

Qwen3-VL 8B
Gemini 2.5 Flash（フォールバック）

🧠

Text（実況生成）

Qwen3 14B（Thinkingモード）

💬

コメント生成

Gemini API
ストリーマープロファイル制御

🔊

TTS（音声合成）

VOICEVOX（プレースホルダー）
カスタム音声モデル（構築中）

⚡

インフラ

RTX 5080 (16GB VRAM)
ollama
ローカル完結処理