Prompt Engineering 2026年4月12日

マルチモーダルプロンプティング：画像×テキストでVLMを使いこなす実践設計

画像・テキストを組み合わせたVision Language Modelへの効果的なプロンプト設計手法を解説。

#prompt-engineering #multimodal #vision #vlm #image-analysis

マルチモーダルプロンプティングとは

マルチモーダルプロンプティングは、テキストだけでなく画像・PDF・動画フレームなどの視覚情報をLLMへの入力に含め、複合的な推論を行わせる技術です。GPT-4V、Claude 3.5以降、Gemini 1.5以降のVision Language Model（VLM）の登場により、2025〜2026年にかけて実用段階に入りました。

テキストのみのプロンプティングと比較して、視覚情報を組み合わせることで、UI分析、ドキュメント解析、図表の理解などのタスクで大幅な精度向上が報告されています。

基本テクニック

明示的なタスク指定

VLMに画像を渡す際、何を分析してほしいのかを具体的に指定することが最も重要です。「この画像を説明して」のような曖昧な指示は、焦点の定まらない出力を生みます。

以下の画像はECサイトの商品一覧ページのスクリーンショットです。

以下の観点で分析してください:
1. レイアウトの視覚的な階層構造（情報の優先度が適切か）
2. CTA（Call to Action）ボタンの配置と視認性
3. モバイルでのタップターゲットサイズの推定（44px以上か）
4. アクセシビリティ上の懸念点

各項目について「良い点」と「改善点」を分けて報告してください。

領域指定（グラウンディング）

画像内の特定領域に注目させるテクニックです。座標やバウンディングボックスで対象を限定することで、分析の精度が向上します。

添付画像のダッシュボードについて分析してください。

特に以下の領域に注目してください:
- 画像左上のKPIカード群（売上・ユーザー数・コンバージョン率）
- 中央の折れ線グラフ（月次推移）
- 右下のテーブル（地域別データ）

KPIカード群の数値に、折れ線グラフのトレンドとの矛盾がないかを確認してください。

AppleのFerretモデルやSoM-LLaVA（Set-of-Mark）のような研究では、画像内のオブジェクトにマーカーを付与することで、空間的な理解精度が大幅に向上することが示されています。

Few-Shot Visual Prompting

テキストのFew-shotと同様に、画像と期待出力のペアを例示として提供する手法です。

以下の例を参考に、添付画像のワイヤーフレームからコンポーネント構造を抽出してください。

【例1】
画像: [ログインフォームのワイヤーフレーム]
出力:
- Form コンテナ
  - TextField（メールアドレス）
  - TextField（パスワード）
  - Checkbox（ログイン状態を保持）
  - Button（ログイン、primary）
  - Link（パスワードを忘れた方）

【例2】
画像: [ナビゲーションバーのワイヤーフレーム]
出力:
- NavBar コンテナ
  - Logo
  - NavLink × 4（ホーム、製品、料金、お問い合わせ）
  - Button（無料で始める、primary）

では、添付画像を分析してください。

応用テクニック

Chain-of-Thought × Vision

視覚的な推論タスクにCoTを適用する手法です。VLMに画像とテキストの両方を使って段階的に推論させます。

添付のシステム構成図を分析し、以下の手順で潜在的なボトルネックを特定してください。

ステップ1: 図に含まれるすべてのコンポーネント（サーバー、DB、キャッシュ等）を列挙する
ステップ2: コンポーネント間の通信経路と方向を特定する
ステップ3: 単一障害点（Single Point of Failure）がないか確認する
ステップ4: トラフィック増加時にスケールしにくい箇所を特定する
ステップ5: 改善提案を優先度付きで提示する

WACV 2025の研究では、VLMにCoTプロンプティングを適用することで、視覚的な質問応答タスクにおいてゼロショットと比較して有意な精度向上が確認されています。

Image-of-Thought（IoT）プロンプティング

VLM特有の手法で、画像から段階的に視覚的な根拠を抽出してから推論を行います。ファインチューニング不要で、複雑な視覚推論タスクの精度を向上させます。

添付画像（オフィスの写真）について、以下の手順で安全性を評価してください。

1. まず画像内のすべての物体・設備を識別してください
2. 次に、各物体の配置と状態を記述してください
3. 消防法・労働安全衛生法の基準に照らして問題点を特定してください
4. 最後に、リスクの高い順に改善提案をまとめてください

マルチ画像比較

複数の画像を同時に入力し、比較・差分分析を行うテクニックです。

以下の2枚の画像は、同じWebページのリデザイン前（画像1）とリデザイン後（画像2）です。

以下の観点で比較分析してください:
- 情報構造の変更点
- 色彩・タイポグラフィの改善度
- ユーザビリティへの影響（ポジティブ/ネガティブ）

変更点ごとに「変更内容 → 影響 → 評価（改善/悪化/中立）」の形式で報告してください。

実務での活用シーン

ユースケース	入力	期待出力
UIレビュー	スクリーンショット	デザイン改善提案
コード生成	ワイヤーフレーム画像	HTML/CSSコード
ドキュメント解析	PDF・帳票画像	構造化データ（JSON）
バグ報告の分析	エラー画面のスクショ	原因推定と対処法
ER図のレビュー	データモデル図	正規化の問題点指摘

いつ使うべきか

視覚的な情報が主要な入力となるタスク: UI/UXレビュー、デザイン分析
テキスト化が困難な情報の処理: 手書きメモ、ホワイトボード、複雑な図表
ドキュメントの自動処理: 請求書・レシートからのデータ抽出
コードとビジュアルの橋渡し: デザインカンプからのコンポーネント生成

注意点・限界

トークンコストが高い: 画像1枚あたり数百〜数千トークンを消費する。高解像度画像はさらにコストが増加
細かいテキストの読み取り精度: 画像内の小さな文字や低解像度のテキストは誤読されやすい。テキストリッチな文書（PDF等）では、OCR併用が推奨
空間推論の限界: VLMは画像内の正確な位置関係（「Aの右上にB」等）の把握が完全ではない
ハルシネーション: 画像に存在しない要素を「見た」と報告するリスクがある。重要な判断には人間のレビューが必須
モデル間の能力差: GPT-4o、Claude 3.5 Sonnet、Gemini 1.5 Proなどモデルによって得意な視覚タスクが異なる