Analytical Report  ·  April 2026

数式シミュレーションは
何を証明しているのか

物理コア・シナリオ仮定・検証範囲の分離評価 — 真鍋淑郎博士の温暖化予測を題材に

All models are wrong, but some are useful. George E. P. Box (1976)
§ 01  —   Foundations

数式シミュレーションの基本的な考え方

シミュレーションは「予言」ではない。条件付き命題を出力する装置である。

数式シミュレーションが出力するのは、「Aという条件のもとでBが起きる」という条件付き命題である。それ以上でも、それ以下でもない。現実の世界はずっと複雑であり、ある程度割り切って代表的な条件を定め、傾向を出すのが本来の役割である。

この性質を踏まえると、シミュレーション結果を評価するときに、混同してはならない三つの層がある。

— Three Layers of Simulation —
Layer A
シナリオ仮定
境界条件・初期条件・
外部強制力の時間発展
Layer B
物理コア
系の応答を記述する
数式・パラメータ群
Output
予測値
条件付き命題としての
系の振る舞い
Layer C: 検証範囲  —   モデルが校正・検証された条件の範囲。この外側で使えば、内部論理が正しくても保証は失われる。

「シミュレーションが現実を予測した」かどうかを評価するには、この三層を分けて議論しなければならない。物理コアが正しかったのか、シナリオ仮定が現実と一致したのか、そもそも検証範囲内の使用だったのか — これらは別個の問いである。

1.1内的整合性 ≠ 外的妥当性

もう一つ重要な区別がある。「シミュレーションが正しい」という言葉自体が、二層に分けられる。

Internal Consistency
内的整合性
与えられた前提と物理に対して、計算が正しく解かれているか。コードのバグ、数値解法の安定性、保存則の遵守などが論点。
External Validity
外的妥当性
その出力が、現実の現象を予測しているか。モデルの抽象化が現実を捉えているか、適用範囲は適切かが論点。

両者は独立である。内的整合性が完璧でも外的妥当性が低いケースは普通にある。逆に、粗い経験式が、たまたまその領域では実機を当てる、というのも現場ではよくある。「シミュレーションが正しい」「予測が当たる」「現実を言い当てる」をぼんやり同義に使う議論は、肯定にせよ否定にせよ、議論の精度が足りない。

§ 02  —   Failure Modes

数式シミュレーションが外れるパターン

内部論理として完璧でも、現実とずれる経路は複数ある。それぞれ層が違う。

Pattern 01
シナリオ仮定の乖離
物理コアは健全だが、入力に置いた外生条件が現実の進路と違ってしまう。シミュレーションが対象としている計算自体は正しく解かれている。
Hansen (1988) のScenario A は、CFC規制(モントリオール議定書)を織り込まずCFC増加を仮定したため、温度上昇を高めに予測。物理は健全だがシナリオが外れた。
Pattern 02
モデル外要因の支配
シミュレーションが対象としている現象以外の要因が、現実では大きく効いてしまう。モデルに含まれていないので原理的に追えない。
WLTC燃費と実走燃費の乖離。エアコン使用、道路勾配、交通流、運転者の癖といった「モード走行が捨てた要素」が現実では効く。シミュレーションは与えられたモードについては正しく解いている。
Pattern 03
適用範囲外への外挿
モデルが校正・検証された条件の外で使うと、当たる保証がなくなる。モデル自体は壊れていないが、適用が射程外。
半導体プロセスのTCADが、検証済みのプロセス窓では実機CDを再現するのに、新材料・新構造に外挿すると合わなくなる。物理パラメータが校正された範囲を出ている。
Pattern 04
確率的・カオス的な予測限界
系の本質的な性質として、初期値鋭敏性やランダム性により「いつ・どこで」は原理的に予測不能。アンサンブル予測で「分布」として正しくても「個別実現」は外す。
気象の長期予測、地震、株価。モデルが完璧でも、確定的な点予測は不可能。だからこそ確率分布として評価する必要がある。
Pattern 05
構造変化の見落とし
モデルは過去のデータで校正されるため、構造変化(技術革新、政策変更、市場の質的変化)が起きると追従できない。前提そのものが時代遅れになる。
EV普及予測が中国市場で外れる事例。補助金、規制、メーカー戦略の構造が予測時点の前提から離れた。物理的予測ではなく「現状の延長」が予測の本質だったため、構造が変わると外れる。
§ 03  —   Misuse Problems

使われ方の問題 — 「意図せず」誤用される構造

世に出るシミュレーションは、条件内では大半が正しい。問題はモデルにではなく、その流通と使われ方にある。

前章で挙げた5つのパターンは、いずれもモデル側の議論だった。しかし実態として、シミュレーション結果が現実と乖離して問題になる場面の多くは、モデルそのものの不出来ではなく、条件付き命題が条件抜きで流通してしまう構造に起因する。しかも悪意なく、意図せずに起きる。

これはシミュレーション技術の問題ではなく、コミュニケーションと情報流通の問題として捉える必要がある。発信者・媒介者・受信者のいずれの段階でも誤用は起きうるし、しばしばそれぞれが「自分は誤用していない」と思っている。

Misuse Pattern 01
情報非対称 — 前提条件が利用者に届かない
シミュレーションを作った人は、前提条件・適用範囲・キャリブレーション履歴を知っている。しかし結果を使う人(意思決定者、メディア、別部署、政策立案者)は、たいてい「数値」だけを受け取る。発信者が誠実に条件を明示していても、その情報が流通の途中で失われる。
論文の補足資料に書いてある適用条件が、プレゼン資料には載らず、ニュース記事では完全に落ちる。受け手は「権威ある数値」だけを手にする。
Misuse Pattern 02
条件節の蒸発 — 伝言ゲームで前提が落ちる
「Aという条件下ではBになる」という条件付き命題は、伝達コストが高い。短く伝えようとすると条件節が落ち、「結局Bになる」という無条件命題に変換される。これは認知バイアスというより、情報伝達の物理的制約に近い。
「2050年にカーボンニュートラルを達成した場合、電力コストはX円になる」というシミュレーションが、「2050年に電力コストはX円になる」と要約される。前提となるシナリオが落ちる典型。
Misuse Pattern 03
射程外への適用 — 権威ラベルの過剰一般化
「権威ある機関の高精度シミュレーション」というラベルは、検証範囲の外でも有効だと錯覚されやすい。シミュレーション側は誠実に条件を明示しているのに、受け手が射程外に持ち出してしまう。
WLTC燃費のラベル値を実走燃費と同一視する。WLTCはモード走行という特定条件下での測定値であり、実走を予測するものではない。それを「公式の燃費」として実走と比較し、メーカーがズルしていると非難する誤用。
Misuse Pattern 04
批判側の射程取り違え — 反論にも同じ罠
シミュレーション批判の側も、しばしば射程の取り違えをやる。「実走と違うじゃないか」「現実はこうじゃない」という批判が、そもそも対象としていない条件への外挿を理由に成立しているケース。誤用は擁護側だけでなく、批判側にも起きる。
気候モデルの過去再現性を「2010年代の停滞期(ハイエイタス)を再現できていない」と批判するが、それはアンサンブル平均の性質上、内部変動の個別実現は再現しないのが正しい。射程を理解していない批判。
Misuse Pattern 05
最初の印象が残る — 後の訂正は届かない
「誤用された」と発信者が後から訂正しても、最初に流れた数値の方が記憶に残る。条件節の蒸発(Pattern 02)と組み合わさると、誤った無条件命題が定着し、後の正確な評価が届かない。
Hansen (1988) のScenario Aが「Hansenの予測が外れた」という形で広まり、Hausfather (2020) が「物理は健全、シナリオが違っただけ」と分離評価で整理しても、最初の印象が消えない。

問題の所在は発信側・媒介側・受信側のいずれかであることが多く、シミュレーションそのものの不出来は実は少数派である。しかも個々人の悪意ではなく、情報流通のシステム的な性質として「意図せず」起きる。

使われ方の問題の構造

3.1対処は発信者の努力だけでは完結しない

厄介なのは、この問題が発信者の努力だけでは解決しないことである。論文や報告書で前提を丁寧に書いても、それが伝言ゲームで落ちることを止められない。発信者が後から訂正しても、最初に流れた印象を上書きできない。

実務的に効くのは三方向のアプローチである。発信側は 条件節を「省略可能な詳細」ではなく「結論と不可分」として書く。IPCC が projection と prediction を使い分けるのはまさにこれ。受信側は 数値を見たら反射的に「何の条件下での値か」を聞く習慣を持つ。中間層(報道・要約・社内報告)は 要約するときに条件節を落とさない自覚を持つ。

これらが社会全体に広がるかは別問題で、しかも普及しないことの責任はシミュレーションの作り手にも使い手にも単純には帰せない。システムとしての問題として、個別の啓蒙や制度設計を地道に積み重ねるしかない、という性質の話である。

§ 04  —   Case Study

事例: Manabe (1970) は何を予測し、何を予測しなかったか

「半世紀後の現在まで当たっている」という評価を、三層分離で検証する。

1970年、Syukuro Manabe博士は短い論文で、CO2が25%増加した場合に2000年までに約 +0.8℃ の気温上昇が起こるとの予測を発表した。半世紀以上を経た現在、しばしば「見事に当たっている」と評される。本当だろうか — そして、もし当たっているとしたら、それは何が当たったのか?

What was modeled
予測したもの(物理コア)
  • 大気中CO2濃度の変化に対する地表気温応答
  • 水蒸気フィードバック(温度上昇 → 水蒸気増 → 強制力増)の定式化
  • 平衡気候感度 ECS ≈ 2.3 K (CO2倍増あたり)
  • 放射対流平衡モデルによる垂直温度構造
Outside the model
予測しなかったもの
  • メタン、N2O、CFC類などの非CO2 GHGの効果
  • 硫酸エーロゾルの冷却効果
  • 海洋・陸域へのCO2吸収率(濃度予測の精度に効く)
  • 人為的排出量の将来推移(外生シナリオ仮定)

CO2が25%増加した場合、2000年までに約0.8℃の気温上昇 — これは条件付き命題であり、「2000年までにCO2が25%増えるかどうか」自体は予測していない。

Manabe (1970) の予測の射程

3.1なぜ結果として観測と整合したか

Manabe 1970は、極めて単純なモデルだった。温室効果ガスとして水蒸気・二酸化炭素・オゾンしか扱わず、現代から見れば膨大な要因が抜け落ちている。それにもかかわらず予測値が観測と整合した理由を分解すると、物理の必然シナリオの幸運 が重なっている。

— 当たった理由の分解 —
必然
物理コアが健全だった。CO2の放射強制力は分子の吸収スペクトルから計算でき、当時の段階で十分精度があった。Manabeの最大の貢献である水蒸気フィードバックの定式化が正しく、これが気候感度の主要因。
幸運
非CO2 GHG ↔ エーロゾルが偶然キャンセル。20世紀後半、メタン・CFC類などによる温暖化と、SO2を主体とする硫酸エーロゾル冷却が同程度のオーダーで相殺。結果として正味の追加強制力はCO2単独に近づいた。
幸運
CO2増加率の見積もりが現実に近かった。Manabeのモデル外で別途仮定された「CO2が25%増える」というシナリオは、実際の排出量と海洋吸収率の組み合わせの結果として、現実とそう離れない範囲に収まった。

3.2Hausfather 2020 による分離評価

この「物理コアとシナリオの分離」を体系的にやった論文が、Hausfather et al. (2020) である。1970年〜2007年に発表された17の気候モデル予測を、二つの軸で評価した。

Hausfather 2020 における17予測の評価 — 時系列比較では10/17が観測と統計的に一致、強制力で補正したimplied TCRで見ると14/17が一致。差分の4予測は、シナリオ仮定(CO2増加率の予測)を外したことによるもので、物理コアは健全であった。 Source: Hausfather, Z., Drake, H. F., Abbott, T., & Schmidt, G. A. (2020). Geophys. Res. Lett., 47, e2019GL085378.

結果のポイントは、「強制力で補正すると当たる」モデルが多いという事実が示すのは、物理コア(=ある強制力に対する温度応答)はほぼ正しく、ずれの主因はシナリオ側にあったということ。Manabe 1970は両軸で良好なスコアだった。

つまり、当初の「単純すぎるから偶然では?」という疑念は半分正しい — シナリオパートに幸運が含まれていたという意味で。しかしもう半分は外れていて、物理コアは偶然ではなく当時から本質を捉えていた。Manabe博士のノーベル賞の対象が「2000年の気温を当てた」ことではなく「気候感度を計算可能にした」ことであった意味が、この分離評価で浮き上がる。

§ 05  —   Implications

実務上の含意 — 評価を歪めないために

シミュレーション結果を意思決定に使う場面で、肯定方向にも否定方向にも誤らないための作法。

物理ベースのシミュレータを盲信せず、必ず実機データで校正・検証する
半導体プロセス開発が「TCADは傾向を出す道具、絶対値は実測で校正」という二層構造で動いているのは、まさにこの作法の実装である。
シナリオ仮定の感度解析を行い、結論のロバスト性を評価する
単一シナリオでの予測値を絶対視せず、シナリオを動かしたときに結論がどれだけ揺らぐかを定量化する。揺らぎが大きければ、それは「シミュレーションの不確実性」ではなく「シナリオ選択の不確実性」である。
妥当性検証された範囲を明示し、外挿には不確実性の警告を付ける
校正された条件と異なる領域に出るとき、モデルの内的整合性が保たれていても、外的妥当性は保証外。レポートに「検証範囲」「外挿警告」を明記する文化が要る。
"Prediction" と "Projection" を言葉として区別する
IPCCがこの二語を使い分けるのはまさに本稿のテーマのため。Projection は「条件付きシミュレーション」 — シナリオ仮定込みの命題 — であり、Prediction とは性質が異なる。日本語では「予測」と「投影」あるいは「条件付き予測」のように書き分ける。

4.1肯定方向と否定方向の両方の誤用

三層分離をせずに「当たり外れ」を単一の評価軸で論じる議論は、肯定にも否定にも転びうる。両者は同じ誤りの裏表である。

Over-evaluation
Manabeはピタリ当てた → 物理が完璧
過大評価。シナリオの幸運(他GHGとエーロゾルの偶然のキャンセル等)も結果に含まれているのに、すべてを物理コアの精度に帰してしまう。
Under-evaluation
単純なモデルなのに当たった → ただの偶然
過小評価。物理パートの健全性まで否定してしまう。「シナリオに幸運が含まれていた」と「物理コアも偶然」は別の主張。

ある場面でシミュレーション結果を絶対視し、別の場面で同じ種類のシミュレーションの不確実性を批判する論者がいるとすれば、その論者はどの層を評価しているのか自分でも整理できていない可能性が高い。物理コアへの批判と、シナリオ仮定への批判と、検証範囲外使用への批判は、論点が違う。混ぜれば議論ではなくポジショントークになる。

§ 06  —   Summary

まとめ

数式シミュレーションが「証明」しているもの

数式シミュレーションが証明しているのは、与えられた前提条件のもとで、定式化された物理に従った場合の系の振る舞いである。それ以上でも以下でもない。条件付き命題の出力装置であり、現実そのものを予言する魔法ではない。

したがって「シミュレーションが当たった/外れた」を論じるには、以下の作法が要る:

  • 物理コア / シナリオ仮定 / 検証範囲 を切り分ける
  • 内的整合性と外的妥当性を区別する
  • 当たり外れも、この分離の上で論じる
  • 予測していないことを「合った/外れた」と言わない

Manabe 1970は、物理コアの健全性とシナリオ仮定の幸運が重なって、結果的に半世紀にわたって観測と整合した。この評価はManabe博士の業績を矮小化するものではない — むしろ、ノーベル賞の対象が「2000年の気温を当てた」ことではなく「気候感度を計算可能にし、水蒸気フィードバックを定式化した」ことであった意味が、三層分離によって明確になる。物理コアの貢献こそが、シミュレーションが半世紀を生き延びる理由である。

逆に言えば、シミュレーションとしては内部論理が正しくても、現実の現象を言い当てられない場面は多々ある。シナリオ仮定の乖離、モデル外要因の支配、適用範囲外の外挿、確率的限界、構造変化 — いずれも物理コアとは別の層の問題である。これらを物理コアの問題と混同することは、シミュレーションの過大評価にも過小評価にも繋がる。

そして実態として、シミュレーションそのものの不出来よりも、使われ方の問題のほうが圧倒的に多い。条件付き命題が条件抜きで流通する、射程外に外挿される、批判側も射程を取り違える、最初の印象が訂正されない — これらは技術の問題ではなく、情報流通とコミュニケーションの問題である。しかも意図せずに起きるからこそ厄介で、発信者の努力だけでは完結しない。シミュレーションを巡る誤用問題は、技術的な評価作法の整理(本稿の §01〜§02、§04〜§05)とは別に、社会的な実装課題(§03)として並行して取り組む必要がある。

「シミュレーションが正しい」「予測が当たる」「現実を言い当てる」 — この三者は、しばしば同義に使われるが、層が違う。層を分けて議論すること、それがシミュレーションを評価する際の基本作法である。