ritAI — デジタルツインプロジェクト
Image generated by Google Gemini ritの思考プロセス、ユーモアのロジック、対話スタイルを学習し、
ゲーム実況において自律的に振る舞う「デジタル分身」を構築するプロジェクトです。
単なる過去の模倣ではなく、「ritらしい閃き」に基づいた即興的な茶番と普通の会話を両立させることを目指しています。
コンセプト
SFC版DQ5 AI実況
対象ゲームはSFC版ドラクエ5。レトロフリークで録画したプレイ動画をAIが「実況」します。LLMの事前知識を活かしたドヤ顔解説がコンセプト。
閃きの再現
ritの茶番における「閃き」のパターンを構造化し、AIが類似の思考プロセスを踏んでユーモアを生成できるよう設計しています。
反復学習ループ
ローカルLLMからGemini 3 Flash Previewへの移行を経て、本人の実況との比較検証で品質を継続改善中。コストと品質のバランスを追求しています。
開発の軌跡
プロジェクト開始から現在までの主要なマイルストーンです。
プロジェクト始動・基盤設計
プロジェクト構造の設計、学習データの形式策定、コアとなるペルソナ定義の作成を実施。AIが「ritらしさ」を再現するための基盤を構築。
学習データの蓄積
複数タイトルの配信アーカイブから、AIの学習に使用する高品質なデータセット(ゴールドデータ)を130件以上作成。
茶番ロジックの体系化
ritの「閃き」によるユーモアのパターンを分類・構造化。AIが茶番を再現するための設計図を完成。
AI対話型コメント生成システム
Gemini APIを活用した擬似視聴者コメント生成パイプラインを構築。配信中にリアルタイムでAIコメントを生成し、それにritが反応する仕組みを実現。
ローカルVision LLM環境構築
RTX 5080上でQwen3-VL 8B + Qwen3 14Bの2モデル構成を構築。ゲーム画面のフレーム抽出→Vision分析→台本生成のフローを確立。
自律配信動画生成パイプライン設計
対象ゲーム(SFC版DQ5)、Vision設計(目と口の分離アーキテクチャ)、反復学習ループ、エピソード管理など、パイプライン全体の設計を完了。
モデル選定・ローカルLLMテスト
Qwen3シリーズでのテスト実行。SFCドット文字のOCR精度やscreen_type分類に課題が見つかり、手動修正に丸1日を費やす。品質の壁に直面。
Phase A テスト実行・品質検証
ローカルLLM(qwen3:14b)で146セグメントの台本を生成。レビューの結果、セリフの繰り返し・英語混入・ゲーム知識の捏造など深刻な品質問題を確認。
カスタム音声モデル作成完了
Style-Bert-VITS2を用いたrit本人の音声モデル作成が完了。PyTorch DDP問題を解決してパイプラインを安定化させ、自然な声での実況を可能にしました。
Gemini 3 Flash 全面移行
ローカルLLMの品質限界を受け、OCR・台本生成の全工程をGemini 3 Flash (Vertex AI) に移行。コスト21円/回で品質が劇的に向上。繰り返しゼロ、ゲーム知識正確、既プレイ視点が安定。
Part1 台本レビュー・品質検証
Gemini 3 Flashで生成した146セグメントの台本を全件レビュー。暗転ループの制御、既プレイ視点の統一、プロンプト改修を経て品質基準をクリア。
Part1 動画素材作成完了
TTS音声合成(カスタムSBV2モデル)、コメント生成、動画合成の全工程を完了。画面解析から台本生成まで全プロセスをGemini 3 Flash Previewに統一し、Part1の動画素材を完成。
Part1 最終編集・投稿
Adobe Premiereで最終編集を実施し、YouTubeに初投稿完了。
Vision パイプライン Gemini統合
vision_analyzer.pyをGemini 3 Flash Preview対応に改修完了。ローカルLLM(Qwen3系)への依存を完全に解消。さらに高密度フレーム分析(30frames/seg)と拡張コンテキストウィンドウ(50seg)をPart2向けに導入済み。
Part2 完成・投稿
Gemini 3.1 Pro Preview + Context Cachingへの移行により、コスト約95%減と品質向上を両立。persona.mdによるコア人格統合、動的ステータス注入など大幅なアーキテクチャ改善を経て、Part2をYouTubeに投稿完了。
技術スタック
当初はローカルLLM完結を目指しましたが、品質検証の結果、Gemini 3 Flash Preview (Vertex AI) に全工程を統一しました。
Vision(画面解析)
- Gemini 3.1 Pro Preview
- Gemini 3 Flash Preview
Text(実況生成)
- Gemini 3.1 Pro Preview
- Vertex AI Context Caching
コメント生成
- Gemini 3 Flash Preview (Vertex AI)
- ストリーマープロファイル制御
TTS(音声合成)
- Style-Bert-VITS2(学習完了・稼働中)
- 旧: VOICEVOX(プレースホルダー)
インフラ
- Vertex AI + サービスアカウント
- RTX 5080 (16GB VRAM)
- 全工程Gemini統一済み