エピソード一覧 — ritAI
ritAIが生成した擬似配信動画のエピソード一覧ページです。
SFC版ドラゴンクエスト5 — AI実況シリーズ
ritAIが自律的に生成した擬似配信動画をパートごとに公開しています。
パートごとのプロンプト・改善ログ
各パートで使用した主要なプロンプト設定と、制作過程で発見・改善した点をまとめています。
ローカルLLMからGemini 3 Flash Previewへの全面移行を含む、パイプライン全体の確立と品質基盤の構築を行ったパート。
🎯 主要プロンプト設定
あなたはゲーム配信者「rit」のデジタルツインAIです。SFC版DQ5を何周もプレイした熟練プレイヤーとして、既プレイの知識を活かした解説・茶番・ツッコミを交えて実況してください。初見プレイヤーのような「この先何があるんだろう?」というリアクションは禁止です。
SFCドット文字のOCR。画面種別(フィールド/戦闘/メニュー/イベント/店)の分類、戦闘ログの時系列抽出、パーティステータスの読み取り。非戦闘時はbattle_logを空配列、party_statusをnullとすること。
暗転・ロゴ画面はプログラム側で自動スキップ(LLM呼び出しなし)。キャラクター名はOCR補助用辞書として渡し、「画面に存在しないキャラを捏造しない」ルールを厳守。読み取れない文字はDQ5知識で補正し、完全に不明な場合は「読取不能」と記載。
擬似視聴者コメントを2〜4件生成。ツッコミ系・感想系・質問系など多様なペルソナが自然な反応を返す。ritAIは全コメントではなく選択的に反応(ツッコミ系には高確率で反応)。
🔄 改善・修正点
- ローカルLLM(Qwen3系)の品質限界を確認し、Gemini 3 Flash Preview (Vertex AI) に全面移行
- Vision LLMの暗転画面での「空白の暴走」を発見。プロンプトに逃げ道(暗転用JSON)を追加し解決
- num_ctx: 32768 → 8192に削減し、VRAMタイムアウトを完全解消
- 暗転セグメントはプログラム側でスキップする制御を導入(LLM呼び出しゼロ)
- 初見プレイ視点 → 既プレイ(熟練者)視点へのプロンプト修正
- キャラクター名をパーティメンバー固定ではなくOCR補助用辞書に変更し、ハルシネーション防止
📝 技術メモ
- 画面解析から台本生成まで全プロセスをGemini 3 Flash Preview (Vertex AI) に統一
- 146セグメント × Gemini 3 Flash Preview = コスト約21円/回
- Vision分析: 1セグメントあたり8フレーム、前3セグメント分のコンテキストを参照
- Vision分析: ピラーボックス除去(16:9→4:3クロップ)+ リサイズで送信データ1/6化
- カスタムSBV2音声モデルによるTTS(VOICEVOXから移行)
- Part2向けに高密度フレーム分析(30frames/seg)と拡張コンテキスト(50seg)へ改修済み
台本生成モデルをGemini 3.1 Pro Previewへアップグレード。Context Cachingによりコストを劇的に削減(約95%減)しつつ、コア・ペルソナ定義(persona.md)をシステムに完全統合した進化版パイプライン。
🎯 主要プロンプト設定
独立した persona.md からritの「根本の性格・口癖(お願いしまーす等)・茶番の型(フラグ建築等)」を読み込み、プロンプトの最優先ベース人格として注入するアーキテクチャに変更。
プレイヤーの強さ(現在のレベル、装備、習得呪文など)を動的に注入。メタ的な実況や、成長に伴う「余裕の表現(脅威の再評価)」を可能に。
🔄 改善・修正点
- Gemini 3.1 Pro Preview への移行により、複雑な状況理解と高度なボケ・ツッコミの文脈処理能力が大幅向上
- Vertex AI Context Caching を活用し、膨大な過去実況データ(ゴールドデータ)のコンテキスト処理コストを約$30 → 約$3に圧縮(全体生成コストは約1000円)
- フレーム精度での「茶番」連携:映像フレーム数から逆算し、「フリ(事前準備)」と「オチ(発動)」のセグメントを分けて指示
- Vision LLMの「長考中」判定しきい値を 4フレーム(2秒) → 10フレーム(5秒) に厳格化し、誤認を激減
📝 技術メモ
- Gemini 3.1 Pro Preview のコンテキストキャッシュ利用(200万トークン対応)により、ゴールドデータ全169件を毎回参照可能に
- Vision分析: 2fps(0.5秒おき)のフレーム抽出で高精度OCR。長考判定は戦闘中のみ10フレーム(5秒)のメッセージ無変化で検知
- 直近15セグメント分のスクリプトを参照範囲として設定し、文脈の一貫性を大幅強化
- persona.md を介した全ゲーム共通のベース人格継承システムの実装
- 110セグメント × Vision(Flash) + Script(3.1 Pro + Cache) = 合計コスト約$6.8(¥1,050程度)