ritAI — デジタルツインプロジェクト

ritとritAI(デジタルツイン)が向かい合い手を合わせるイラストImage generated by Google Gemini
🤖 Digital Twin Project

ritの思考プロセス、ユーモアのロジック、対話スタイルを学習し、
ゲーム実況において自律的に振る舞う「デジタル分身」を構築するプロジェクトです。

単なる過去の模倣ではなく、「ritらしい閃き」に基づいた即興的な茶番と普通の会話を両立させることを目指しています。

コンセプト

🎮

SFC版DQ5 AI実況

対象ゲームはSFC版ドラクエ5。レトロフリークで録画したプレイ動画をAIが「実況」します。LLMの事前知識を活かしたドヤ顔解説がコンセプト。

🧠

閃きの再現

ritの茶番における「閃き」のパターンを構造化し、AIが類似の思考プロセスを踏んでユーモアを生成できるよう設計しています。

🔁

反復学習ループ

ローカルLLMからGemini 3 Flash Previewへの移行を経て、本人の実況との比較検証で品質を継続改善中。コストと品質のバランスを追求しています。

開発の軌跡

プロジェクト開始から現在までの主要なマイルストーンです。

🏗️
M-0012026年3月完了

プロジェクト始動・基盤設計

プロジェクト構造の設計、学習データの形式策定、コアとなるペルソナ定義の作成を実施。AIが「ritらしさ」を再現するための基盤を構築。

📚
M-0022026年3月〜4月完了

学習データの蓄積

複数タイトルの配信アーカイブから、AIの学習に使用する高品質なデータセット(ゴールドデータ)を130件以上作成。

🎭
M-0032026年4月完了

茶番ロジックの体系化

ritの「閃き」によるユーモアのパターンを分類・構造化。AIが茶番を再現するための設計図を完成。

💬
M-0042026年4月完了

AI対話型コメント生成システム

Gemini APIを活用した擬似視聴者コメント生成パイプラインを構築。配信中にリアルタイムでAIコメントを生成し、それにritが反応する仕組みを実現。

👁️
M-0052026年4月29日完了

ローカルVision LLM環境構築

RTX 5080上でQwen3-VL 8B + Qwen3 14Bの2モデル構成を構築。ゲーム画面のフレーム抽出→Vision分析→台本生成のフローを確立。

📐
M-0062026年4月29日〜30日完了

自律配信動画生成パイプライン設計

対象ゲーム(SFC版DQ5)、Vision設計(目と口の分離アーキテクチャ)、反復学習ループ、エピソード管理など、パイプライン全体の設計を完了。

🔄
M-0072026年4月30日〜5月1日完了

モデル選定・ローカルLLMテスト

Qwen3シリーズでのテスト実行。SFCドット文字のOCR精度やscreen_type分類に課題が見つかり、手動修正に丸1日を費やす。品質の壁に直面。

🚀
M-0082026年5月2日〜4日完了

Phase A テスト実行・品質検証

ローカルLLM(qwen3:14b)で146セグメントの台本を生成。レビューの結果、セリフの繰り返し・英語混入・ゲーム知識の捏造など深刻な品質問題を確認。

🎙️
M-0092026年5月完了

カスタム音声モデル作成完了

Style-Bert-VITS2を用いたrit本人の音声モデル作成が完了。PyTorch DDP問題を解決してパイプラインを安定化させ、自然な声での実況を可能にしました。

M-0102026年5月5日〜6日完了

Gemini 3 Flash 全面移行

ローカルLLMの品質限界を受け、OCR・台本生成の全工程をGemini 3 Flash (Vertex AI) に移行。コスト21円/回で品質が劇的に向上。繰り返しゼロ、ゲーム知識正確、既プレイ視点が安定。

📝
M-0112026年5月5日〜6日完了

Part1 台本レビュー・品質検証

Gemini 3 Flashで生成した146セグメントの台本を全件レビュー。暗転ループの制御、既プレイ視点の統一、プロンプト改修を経て品質基準をクリア。

🎬
M-0122026年5月7日〜10日完了

Part1 動画素材作成完了

TTS音声合成(カスタムSBV2モデル)、コメント生成、動画合成の全工程を完了。画面解析から台本生成まで全プロセスをGemini 3 Flash Previewに統一し、Part1の動画素材を完成。

📤
M-0132026年5月11日完了

Part1 最終編集・投稿

Adobe Premiereで最終編集を実施し、YouTubeに初投稿完了。

🔧
M-0142026年5月完了

Vision パイプライン Gemini統合

vision_analyzer.pyをGemini 3 Flash Preview対応に改修完了。ローカルLLM(Qwen3系)への依存を完全に解消。さらに高密度フレーム分析(30frames/seg)と拡張コンテキストウィンドウ(50seg)をPart2向けに導入済み。

📤
M-0152026年5月16日完了

Part2 完成・投稿

Gemini 3.1 Pro Preview + Context Cachingへの移行により、コスト約95%減と品質向上を両立。persona.mdによるコア人格統合、動的ステータス注入など大幅なアーキテクチャ改善を経て、Part2をYouTubeに投稿完了。

技術スタック

当初はローカルLLM完結を目指しましたが、品質検証の結果、Gemini 3 Flash Preview (Vertex AI) に全工程を統一しました。

👁️

Vision(画面解析)

  • Gemini 3.1 Pro Preview
  • Gemini 3 Flash Preview
🧠

Text(実況生成)

  • Gemini 3.1 Pro Preview
  • Vertex AI Context Caching
💬

コメント生成

  • Gemini 3 Flash Preview (Vertex AI)
  • ストリーマープロファイル制御
🔊

TTS(音声合成)

  • Style-Bert-VITS2(学習完了・稼働中)
  • 旧: VOICEVOX(プレースホルダー)

インフラ

  • Vertex AI + サービスアカウント
  • RTX 5080 (16GB VRAM)
  • 全工程Gemini統一済み

関連ページ