Chain-of-Thought Prompting:推論の連鎖でLLMの思考力を引き出す
中間推論ステップを明示させることでLLMの推論精度を劇的に向上させるChain-of-Thought(CoT)Promptingの原理、実践例、効果データを解説します。
Chain-of-Thought Prompting とは
Chain-of-Thought(CoT)Prompting は、LLMに中間的な推論ステップを明示的に出力させることで、複雑な推論タスクの精度を向上させる手法です。Wei et al.(2022)の論文「Chain-of-Thought Prompting Elicits Reasoning in Large Language Models」で提案され、プロンプトエンジニアリングの中でも最もインパクトの大きいテクニックの一つです。
通常のプロンプティングでは、モデルは入力から直接最終回答を生成します。CoTでは「答えに至る思考過程」を段階的に書き出させることで、モデルが複雑な問題を分解して処理できるようになります。
直感的な理解
人間が数学の問題を解くとき、頭の中で暗算するよりも途中の計算を紙に書いた方が正確です。CoTはこれと同じ原理をLLMに適用したものです。中間ステップを「外部化」することで、モデルの推論能力を引き出します。
具体的なプロンプト例
例1:算術推論(Few-shot CoT)
Q: カフェで、コーヒーが1杯450円、ケーキが1個380円です。
3人でコーヒーを1杯ずつ注文し、2人がケーキも注文しました。
合計金額はいくらですか?
A: ステップごとに考えましょう。
コーヒー: 450円 × 3杯 = 1,350円
ケーキ: 380円 × 2個 = 760円
合計: 1,350円 + 760円 = 2,110円
答えは2,110円です。
Q: 本屋で、小説が1冊1,200円、漫画が1冊550円です。
小説を2冊と漫画を5冊買いましたが、
合計3,000円以上で10%割引が適用されます。
支払い金額はいくらですか?
A:
モデルの出力例:
ステップごとに考えましょう。
小説: 1,200円 × 2冊 = 2,400円
漫画: 550円 × 5冊 = 2,750円
割引前合計: 2,400円 + 2,750円 = 5,150円
3,000円以上なので10%割引が適用されます。
割引額: 5,150円 × 10% = 515円
支払い金額: 5,150円 - 515円 = 4,635円
答えは4,635円です。
Few-shot CoTでは、例示に推論の過程を含めます。モデルはこのパターンを模倣し、新しい問題でも段階的に推論を展開します。
例2:論理的推論
Q: 以下の条件から、田中さんの趣味を特定してください。
- 社員は田中、佐藤、鈴木の3人
- 趣味は読書、料理、ランニングのいずれか(重複なし)
- 佐藤は屋外の趣味を持っている
- 鈴木は本を最近買った
A: 順序立てて推論します。
1. 佐藤は屋外の趣味 → 読書・料理は室内 → 佐藤はランニング
2. 鈴木は本を最近買った → 読書の可能性が高い → 鈴木は読書
3. 残りの田中は料理
答え: 田中さんの趣味は料理です。
Q: 以下の条件から、会議室Aを使うチームを特定してください。
- チームはAlpha、Beta、Gammaの3つ
- 会議室はA(大)、B(中)、C(小)
- Betaチームは5人で、中サイズ以上の部屋が必要
- Gammaチームは2人で、小さい部屋を好む
- Alphaチームは10人の大チーム
A:
例3:コード設計の推論
以下の要件に対する技術選定を、トレードオフを考慮して段階的に推論してください。
要件:
- リアルタイムチャット機能
- 同時接続ユーザー数: 最大1,000人
- メッセージの永続化が必要
- 既存のNode.jsバックエンドに統合
推論してください:
コード設計や技術選定のような、正解が一意でない問題でもCoTは有効です。判断の根拠を明示させることで、より論理的で説得力のある回答が得られます。
効果データ
Wei et al.(2022)の研究による主な成果は以下の通りです。
| ベンチマーク | タスク種別 | 改善幅 |
|---|---|---|
| GSM8K(数学文章題) | 算術推論 | 540Bパラメータモデルで当時のSOTA達成 |
| 算術タスク全般 | 算術推論 | 最大+18%の精度向上 |
| CommonsenseQA | 常識推論 | 有意な改善 |
| StrategyQA | 多段階推論 | 有意な改善 |
特筆すべきは、540Bパラメータモデル(PaLM)にわずか8個のCoT例示を与えるだけで、ファインチューニング済みのGPT-3+検証器を上回る精度をGSM8Kで達成した点です。
いつ使うべきか
- 多段階の推論が必要なタスク:算術、論理パズル、法的判断など
- 根拠の説明が必要なタスク:技術選定の理由、診断結果の根拠など
- エラー分析が重要なタスク:推論過程が可視化されるため、どのステップで間違えたかを特定しやすい
- Few-shotで精度が不足するとき:単純なパターンマッチングでは解けない問題
逆に、単純な分類・翻訳・要約タスクにはCoTは不要です。無駄にトークンを消費し、レイテンシが増加するだけです。
注意点・限界
モデルサイズへの強い依存
CoTは「創発的能力(Emergent Ability)」の一つであり、おおよそ100Bパラメータ以上のモデルでのみ効果を発揮します。小規模モデルでは、CoTプロンプティングを行っても推論の質が向上せず、むしろ不正確な中間ステップを生成して精度が低下することがあります。
推論モデルでの効果減少(2026年の視点)
Meincke et al.(2025)の研究「The Decreasing Value of Chain of Thought in Prompting」によると、o1やDeepSeek-R1などの推論特化モデルでは、明示的なCoTプロンプティングの追加効果がほぼ消失します。これらのモデルは内部的にCoTを実行しているため、プロンプトで改めて指示する必要がありません。
一方で、Claude 3.5 SonnetやGPT-4oなどの汎用モデルでは、CoTは依然として有効であり、特に複雑な推論タスクで精度を改善します。
中間ステップの「もっともらしい誤り」
CoTの推論過程は必ずしも正確ではありません。モデルが「もっともらしいが間違った」中間ステップを生成し、それに基づいて誤った最終回答に到達することがあります。推論過程の検証が重要です。
コストとレイテンシ
推論過程を出力するため、通常のプロンプティングに比べて出力トークン数が大幅に増加します。リアルタイム性が求められるアプリケーションでは、CoTの使用を慎重に判断する必要があります。
発展テクニック
CoTを発展させた手法がいくつか存在します。
- Zero-shot CoT:「ステップバイステップで考えてください」と指示するだけのシンプルなバリエーション(Kojima et al., 2022)
- Self-Consistency:複数の推論パスを生成し、多数決で最終回答を決定する手法(Wang et al., 2022)
- Auto-CoT:例示を手動で作成する代わりに、自動的に推論チェーンを生成する手法(Zhang et al., 2022)
参考文献
- Wei et al. (2022) “Chain-of-Thought Prompting Elicits Reasoning in Large Language Models”
- Chain-of-Thought Prompting | Prompt Engineering Guide
- Meincke et al. (2025) “The Decreasing Value of Chain of Thought in Prompting”
- Zhang et al. (2022) “Automatic Chain of Thought Prompting in Large Language Models”