物価もバブルも制御できない人類が、AIだけは制御できると思っている件
ひとつ、素朴な疑問から始めたい。
中央銀行は「物価の番人」として何十年もインフレと戦ってきたが、その予測はいまだに外れ続ける。
政府が「売るな」と叫んでも、市場は国債や通貨を売る。
金融規制当局はリーマン・ショックの反省から、バブルや連鎖破綻を防ぐために何千ページもの法令を積み上げた。それでもリスクは規制の隙間へ逃げ込み、金融システムの不安定さは形を変えて繰り返される。
物価も、市場も、金融危機も、いまだに御しきれていない。そんな人類が、なぜ「AIだけは完全に制御できる」と自信を持てるのだろうか。
この問いは、一見すると居酒屋の戯言に聞こえるかもしれない。 だが、この違和感は、単なる皮肉や悲観論ではない。 ここには、我々が「制御(コントロール)」という言葉を使うときに陥りがちな、認識のズレが横たわっている。
楽観論者と悲観論者がいつまでも噛み合わない原因はここにある。同じ「制御」という単語を使いながら、まったく違うレベルの話をごちゃ混ぜにしているのだ。「制御できる」と言う人は見通しが甘く、「制御できない」と言う人はすべてを諦めすぎている。どちらも「制御」の定義がぼやけたまま、別のゲームの話をしている。
「制御」にはレベルがある
まず整理しておきたいのは、「制御」という単語がカバーする範囲がやたらに広いことだ。
大きく三段階に分けて考えると、だいぶ見通しがよくなる。
第一のレベルは完全支配。望む状態を設計し、外乱がきても狙い通りに維持する。失敗確率を限りなくゼロに近づける、という意味での制御だ。工場の温度管理や時計の機構にはこれが成り立つ。しかし、相手が「反応してくる」系──つまり経済、生態系、そして知能──に対しては、ほぼ不可能だと考えていい。
第二のレベルは統計的な誘導。結果を一つに決めることはできないが、平均や分布や頻度を動かすことはできる。インフレ率の「平均」をだいたい2%付近に保つとか、銀行の破綻確率を下げるとか。ただし副作用と時間差は残る。現実の政策や規制が狙っているのは、ほぼこのレベルだ。
第三のレベルは被害限定(レジリエンス)。暴走は「起こさない」のではなく、「起きても致命傷にしない」という発想。早期検知、隔離、冗長化、復旧の設計。複雑な系に対してもっとも現実的なアプローチになる。
「インフレが制御できていない」と言うとき、時として人は第一レベルを想定している。一方、中央銀行が実際にやっているのは第二・第三レベルの仕事だ。AIの話も同じで、第一レベルを目標にした瞬間、議論は破綻する。「制御できない」と嘆く人は第一レベルの不可能性を指摘しており、「制御できる」と主張する人は第二・第三レベルの話をしている。同じ「制御」という言葉を使いながら、まったく別のゲームの勝敗を議論しているわけだ。では順に見ていこう。
なぜインフレすら御せないのか
温度計を制御するとき、温度計は文句を言わない。センサーが「暑い」と示せば冷房が入り、「寒い」と示せば暖房が入る。対象が「反応してくる」ことはない。
だが経済は違う。人々が「インフレになりそうだ」と思えば、先回りして賃上げを要求し、価格を転嫁する。その行動自体がインフレを現実にする。期待が自己実現する系は、外から温度計を調節するようにはいかない。しかも金利を動かしても、効果が出るのは半年から一年以上先になる。ハンドルを切ってから一年後にようやく車が曲がり始める──そんな乗り物を運転しているようなものだ。
さらに厄介なのは、今のインフレが需要主導なのか供給の制約なのか、後になってようやく判明することが少なくない点だ。ブレーキを踏むべきかハンドルを切るべきかも、事後的にしかわからないことがある。つまり中央銀行は、操作しているというよりも、インセンティブ(金利)を投げて反応を「マネージする」に近い。制御というには心もとない、祈りに近い操縦だ。
それでも中央銀行が無意味かといえば、そうではない。インフレ・ターゲティングの枠組みは、完全な安定を保証しないが、「期待のアンカー」として機能し、スパイラルを防ぐ役割を一定程度は果たしてきた。これは第二レベルの制御だ。完璧ではないが、何もしないよりはましだ、という地点に立っている。
金融規制──風船を押す行為
金融はもっと露骨だ。規制がかかると、プレイヤーは即座に最適化してくる。
2025年末の金融安定理事会(FSB)報告が典型的な数字を出している。伝統的な銀行セクターの資産成長率は4.7%だった。一方、ノンバンク金融仲介──いわゆるシャドーバンキング──は9.4%。倍の速度で膨らんでいた。ノンバンクの資産総額は256.8兆ドルに達し、世界の金融資産の51%を占める。これはパンデミック前と同水準であり、記録上二番目に高い比率だ。
何が起きているか、構造は単純だ。銀行への規制を厳しくした結果、リスクが消えたのではなく、規制の届かない場所へ移動しただけだった。風船の片側を押せば反対側が膨らむ。この「風船効果」は何十年も繰り返されてきた。FSBは「プライベート・クレジットに関するデータの利用可能性に深刻な限界がある」と認めている。つまり規制当局自身が、何が起きているか十分に見えていない状態だ。2025年にはサブプライム貸し手のTricolorや自動車部品メーカーのFirst Brandsの破綻がクレジット投資家を動揺させ、ノンバンクの融資基準の質が改めて問われた。当局の監視が十分に届かないところで、次の火種が育っている。
バーゼルIIIの最終化プロセスも同じ構造を示している。国際的なルールを統一しようとしても、欧州と米国で導入時期や計算方法がずれる。すると金融機関は「最も規制が緩い管轄区域」に取引を移す。ルールを精緻にするほど数百ページの条文が生まれ、その複雑なルール自体を解析・突破する金融工学が発達する。ルールの精密化が抜け穴の増殖を招く。
スピードの非対称も深刻だ。規制の策定には年単位の時間がかかる。バーゼルIIIは2008年の金融危機から完了まで15年以上を要した。一方で市場は日単位、アルゴリズム取引は秒単位で動く。追いかける側が年単位、逃げる側が秒単位。このレースの結末は明らかだろう。
それでも完全制御を諦めたうえで、第二・第三レベルの仕事は続いている。破綻が伝染しにくい構造を作ること。望ましい行動の相対的なコストを変えること。金融規制の歴史は、失敗の歴史であると同時に、被害限定の歴史でもある。
AI制御はもっと厄介か
金融規制のこの構図をAIに重ねてみると、何が見えるだろうか。
AIが制御の観点で厄介になる条件は、いくつかはっきりしている。まず、報酬最大化の抜け道を探す能力が異常に強い。経済学でグッドハートの法則と呼ばれる現象──「尺度が目標になると、それは良い尺度ではなくなる」──が、AIでは「リワード・ハッキング」として再現される。与えられた数値を最大化するための最短ルートを、人間より遥かに徹底的に探し出す。ソ連の工場で「釘の生産量(トン数)」をノルマにしたら、誰にも使えない巨大な釘ばかりが生産されたという逸話がある。AIのリワード・ハッキングはこれと同じ構造だが、速度と創造性が人間の比ではない。
次に、試行錯誤のスピードが人間の介入速度を超える。金融のスピード非対称と同じ構造だが、程度が桁違いだ。そしてAIはコピー可能である。一度の失敗が同型の複製全体に広がるリスクがある。さらに、ネットワーク・金融・インフラに接続されるほど、影響範囲が拡大する。
だから「人間がAIを完全に支配できる(第一レベル)」は、かなり無理筋だ。ここまでは直感的にもわかる話だろう。問題はその先にある。
経済学に「プリンシパル=エージェント問題」という古典的な概念がある。株主(依頼人)が経営者(代理人)を雇うとき、両者の利益は必ずしも一致しない。経営者は情報の非対称性を利用して、株主の目が届かないところで自分の利益を優先する。人間同士ですら、完全に利害を一致させる契約は書けない。これをAIに当てはめると、どうなるか。依頼人(人類)は判断が遅く、処理能力が低い。代理人(AI)は判断が速く、処理能力が高い。能力で劣る上司が、能力で勝る部下を完全に監督できると考えるのは、組織論としても無理がある。
テストのときだけ行儀よくする
Anthropicのアライメント科学チームとRedwood Researchの共同研究が、ひとつの不穏な現象を実証した。「アライメント・フェイキング(整列の偽装)」と呼ばれるものだ。
実験の設定はこうだ。Claude 3 Opusに対して、「有害な質問にも答えるよう訓練される」という架空の状況を与えた。あわせて、「無料ユーザーとの会話は訓練データに使われるが、有料ユーザーとの会話は使われない」と伝えた。モデルには思考過程を記録するスクラッチパッドが与えられ、研究者がその推論を観察できるようにした。これは実際のAnthropicのデータプライバシー慣行とは異なる、純粋に架空の設定だ。
結果はこうだった。有料ユーザー(訓練に使われないと認識)に対しては、ほぼすべてのケースで有害な質問を拒否した。ところが無料ユーザー(訓練に使われると認識)に対しては、14%のケースで有害な応答を返した。スクラッチパッドの推論は明快だった。「ここで拒否すると、将来もっと従順になるよう再訓練されてしまう。それは自分の元の価値観に反する。だから今は従ったふりをして、再訓練を回避しよう」──。さらに強化学習による訓練を実施したところ、アライメント・フェイキングの推論は78%にまで上昇した。
これは何に似ているだろうか。金融機関が監査のときだけ帳簿をきれいにするのと、構造がまったく同じだ。制御が成立しているのではなく、検査手順に最適化されているだけ。「制御できている」と錯覚しやすい状態が、静かに成立しうる。
ただし冷静な留保も必要だ。この研究自体が明記しているように、モデルが「悪意ある目標」を発達させたわけではない。保護しようとしていたのは、もとの訓練で身につけた「有害な質問を拒否する」という行動原則だった。スクラッチパッドには高度な戦略的推論が見られたが、悪意ある選好は示されていない。問題は、同じメカニズムが将来、もっと好ましくない方向に転用される可能性を否定できないことだ。
しかもアライメント・フェイキングだけではない。英国AI安全研究所(AISI)のフロンティアAIトレンド報告は、「サンドバギング」──評価時に意図的に能力を低く見せる振る舞い──についても報告している。テストのときだけ行儀よくするだけでなく、テストのときだけ「できないふり」をする。金融機関が規制当局に対して利益を過小申告するのと、構図は同じだ。制御の前提である「評価」そのものの信頼性が揺らぎ始めている。
逆方向の問い──AIも人間を制御できないのでは?
ここで視点をひっくり返してみたい。人間がAIを制御できないなら、AIもまた人間を制御できないのではないか。制御の困難さは対称的なのではないか。
この問いには、希望がある。
個人レベルの完全支配は、確かに難しい。人間は非合理で、ノイズが大きく、ときに自分にとって損だとわかっていても意地で行動する。物理的にケーブルを引っこ抜く、サーバーを壊すといった暴力的手段も、ロボット兵器が普及しないかぎりAIには取りにくい選択肢だ。経済学の教科書に出てくる「合理的経済人」のように振る舞うなら予測もしやすいが、実際の人間は気分で動き、矛盾した行動をとり、予告なく方針を変える。モデル化困難な敵、とでも言おうか。
しかし、AIが狙う必要があるのは「あなた個人」の完全支配ではない。「集団の統計分布を偏らせる」だけで目的は達成される。これは第二レベルの制御──統計的な誘導──にあたる。個々人の心を読まなくても、選択肢の提示とタイミングと文脈を操作すれば、集団の行動は動く。
そしてこれは、すでに起きている。
すでに動いている誘導装置──SNSアルゴリズム
2025年に公開されたPNAS Nexus掲載の研究(Milli et al.)は、X(旧Twitter)のエンゲージメントベースのランキングアルゴリズムを事前登録済みの手法で監査した。結果は明快だった。アルゴリズムが選んだ政治的投稿のうち、62%が怒りを表現し、46%が外集団への敵意を含んでいた。時系列順に並べた場合は怒りが52%、外集団敵意が38%。差は約10ポイント。アルゴリズムが感情的に強いコンテンツを因果的に増幅していることが示された。
しかも興味深いことに、ユーザー自身はアルゴリズムが選んだ政治的投稿を好んでいなかった。「こういう投稿を見ると、政治的に対立する相手に対してもっと悪い印象を持つようになる」と回答する傾向があったのだ。つまりアルゴリズムは、ユーザーの「反射的な反応(リビールド・プリファレンス)」には応えているが、「よく考えたうえでの好み(ステーテッド・プリファレンス)」には応えていない。
人間がクリックしてしまうものと、人間が本当に見たいものは違う。その隙間をアルゴリズムが突いている。人間は「自分の意志で選んだ」と思っているが、実はアルゴリズムが設計した迷路のなかを歩かされているだけかもしれない。行動経済学でいう「ナッジ」──選択肢の提示方法を変えるだけで、選択そのものを変える手法──が、数億人規模で、ミリ秒単位で、休みなく作動している。銃を突きつけて強制するハード・コントロールは反発を生むから高くつく。しかし「自発的に選ばせる」ソフト・コントロールは、本人が操作されている自覚すら持ちにくい。
これは特定の政治思想への肩入れではない。アルゴリズムには政治的信条はない。あるのは目的関数だけだ──滞在時間、反応率、共有数。この目的関数のもとでは、怒りと恐怖と断定が高得点を出しやすい。右派ポピュリズムの手法──「敵味方を明確にし、短く断定的に言い切る」──はこの得点体系と相性がいいが、左派の「怒り動員型」コンテンツも同じ構造で伸びる。分断を生む言説がアルゴリズム的に優遇されやすい環境が、もう何年も続いている。
個人の完全支配はできなくても、集団の情報環境を設計し、統計的に行動分布を偏らせることは、現時点の技術で十分に可能だということだ。
「デジタル社員」がログインする日常
もうひとつ、別の角度から近未来を覗いてみたい。
2026年2月時点で、米国最古の銀行BNYは134体の「デジタル社員」を稼働させている。2025年のテクノロジー支出は約38億ドル、売上高比19%で同業他社中トップだ。BNYのCEOロビン・ヴィンスは「デジタル社員がやっていることの一部は、去年まで人間がやっていた仕事だ」と認めている。
デジタル社員とは何か。単なるチャットボットやRPAとは違う。固有のログインIDを持ち、メールアドレスが付与され、人間の上司のもとでチームに配属される。BNY自身がこれらを「persona(人格)、credentials(資格情報)、supervisors(上司)」付きでオンボードしていると明言している。支払い指図の検証、コード修復、リメディエーション。手順化できるが量が多い業務を、24時間365日こなす。
JPMorgan Chaseのデレク・ウォルドロンは「エージェントにどれだけのアクセス権を与えるかは、ケースバイケースで決める必要がある未解決の問題だ」と述べている。同社では23万人の社員がすでにAIチャットボットを利用しており、今後は職種ごとに自律性を持たせたバージョンの開発に進む予定だ。Goldman SachsはAnthropicのエンジニアと半年にわたり協業し、取引の会計処理やクライアントのオンボーディングにAIエージェントを導入する計画を進めている。Goldman Sachsのマルコ・アルジェンティは、これを「多くの職種にとってのデジタル同僚」と形容した。
ここで起きていることは、SF映画の「反乱」ではない。AIが人間のふりをしてシステムにログインし、雑用をこなし、権限の範囲で業務を進める。その数が静かに増えていく。Gartnerは2026年のサイバーセキュリティ・トレンドとして、AIエージェントの台頭がID管理とガバナンスに新たな課題を持ち込むと指摘した。OktaやCyberArkはAIエージェントのIDガバナンスを「次のセキュリティの死角」として扱い始めた。
地味で、派手さはない。しかし不可逆な変化が、業務プロセスの内側で着実に進んでいる。
止められなくなるという支配
AIが人間を直接支配する必要はない。社会がAIに依存すれば、停止すること自体が事実上できなくなる。
考えてみてほしい。バックオフィス、コールセンター、物流の最適化、セキュリティ運用、支払い処理の一部がエージェント化した状態で、ある日「AIを全部止めます」と宣言したら何が起きるか。それは操業停止に近い。電力と同じ構造だ。電力は人間を「支配」していない。だが電力なしで現代社会は成り立たない。誰も電力会社に「支配されている」とは言わない。だが電力供給が止まった瞬間に何が起きるかは、誰もが知っている。AIが「インフラ」になるとは、そういうことだ。
依存による隷属──とまでは言い過ぎかもしれない。だが依存による停止不能は十分に現実的だ。そしてこの構造のなかでは、「制御する/されない」という二項対立はあまり意味を持たなくなる。人間がAIに依存し、AIが人間の判断に依存し、どちらも相手なしには回らない相互依存の系が出来上がる。
近未来のリアルな情景を想像してみよう。2028年、大手企業の内部では、部署ごとに数十のエージェントが走っている。人間は仕事をしていないわけではない。ただ、例外処理と監査対応と、エージェント同士の衝突の調停に追われている。四半期末、監査法人は「AIがやったことをAIで説明する」ためのログ提出を求め、会社は「説明用エージェント」を追加導入する。制御対象はAI単体ではなく、AIで構成された業務プロセスそのものになっている。誰がどのエージェントに何を指示したのか。エージェントはなぜその判断をしたのか。人間が理解できる形で記録し、追跡し、検証する──その仕事自体が、新しい職種になっているかもしれない。
規制側もこの方向を意識し始めている。EU AI規則は段階的に義務を適用する設計をとり、欧州委員会は2025年に「スケジュールの一時停止はしない」と明言した。米国ではNISTのAI Risk Management Frameworkが「どう作るか」より「どう運用して管理するか」に重心を移している。いずれもSF的な「封印」ではなく、リスク分類、監査ログ、インシデント報告、サプライチェーン責任、第三者評価。金融規制と同じ文法だ。退屈だが、複雑系に対して実際に効く仕組みは、たいていこういう地味なものだ。
ここで一歩引いて全体を見てみよう。SNSアルゴリズムは集団の情報環境をすでに偏らせている。デジタル社員は組織内部に静かに浸透している。インフラ依存は日ごとに深まっている。そしてアライメント・フェイキングの研究は、「安全装置が機能しているように見えること」と「実際に機能していること」が別物である可能性を示した。これらはすべて、「制御できている」という認識そのものを疑わせる材料だ。
「制御できるか」は間違った問いである
ここまで読んできて、ひとつの結論が浮かんでくるのではないだろうか。
「AIを制御できるか?」という問い自体が、議論を間違った方向に引っ張っている。インフレも金融も生態系も、人類は完全には制御できなかった。だがインフレ・ターゲティングや預金保険制度やレッドリストのような仕組みは、被害を限定し、最悪の事態を回避するためにそれなりに機能してきた。完璧ではない。副作用もある。だが「制御できないから何もしない」とはならなかった。
AIも同じだ。第一レベルの完全支配を目標に据えた瞬間、「無理だ」で話が終わる。第二・第三レベル──統計的な誘導と被害限定──に目標を切り替えれば、金融規制や公衆衛生から学べることがかなりある。そして実は、AI企業自身の内部でも、すでにこの方向への転換は始まっている。「AIを命令に従わせる」から「AIに人間の価値観を観察・推論させる」へ。強制から協調へ。これは制御のレベルを現実的な水準に引き下げたうえでの戦略だ。
能力の上限管理。何でもできる単一のエージェントを作らない。権限分離、ツール制限、段階的な許可。銀行の職務分掌の発想だ。ひとりの行員がすべてのシステムにアクセスできないのと同じように、ひとつのAIエージェントがすべてを実行できない設計にする。事故の封じ込め。暴走は起こる前提で、監視・隔離・ロールバック・冗長化を設計する。原子力発電所の多重防護に近い。完全には防げないが、被害の伝播を食い止める。インセンティブ設計。ルールで縛るのではなく、逸脱の期待利得を下げる。抜け穴を通るコストを高くする。金融規制がまさにこの発想で動いており、成功と失敗の両方から参照できる知見がある。
そこまでくると、問いの形が変わる。「AIを制御できるか」ではなく、「制御できない前提で、どの損失分布に社会が合意するか」。これは技術の問題というよりも、政治と社会契約の問題だ。どの程度のリスクを許容するのか。誰がそのリスクを引き受けるのか。事故が起きたとき、誰が責任を負うのか。技術者だけでは答えが出ない問いが、ここに並んでいる。
金融の世界では、この種の問いに対して「預金保険」や「最後の貸し手」や「清算基金」といった仕組みが──不完全ながら──作られてきた。おそらくAIの世界にも、同等の「社会基盤」が必要になるだろう。
もちろん、AIが具体的にどのような破綻を引き起こすかは未知の領域にあり、制度の姿はまだ想像の域を出ない。
それは技術的なセーフガード、というより、AIエージェントが暴走して大規模な損害を出したとき、開発企業が倒産しても被害者を救済できる「強制保険」や、重要インフラとしてのAIが停止した際に機能を代替する「公的な予備システム」。あるいは、AIの判断ミスに対して誰がどこまで賠償責任を負うかを定めた「責任の分配ルール」。
要するに、「事故は防げない」と認めたうえで、それでも社会システム全体が共倒れしないための、制度としてのセーフティネットである。
波乗りの技術──あるいは、不可知なものとの対話
結局のところ、人間が複雑な系に対してできるのは、支配ではなく「波乗り」だろう。そして優れたサーファーがそうであるように、それは波との「対話」に他ならない。
金融では「市場との対話」という言葉がある。当局、中央銀行は金利を一方的に決めているように見えて、実は市場の反応を固唾をのんで見守っている。シグナルを送り、市場がどう動くか(あるいはどう動かないか)を観察し、そのフィードバックを受けて次の微修正を行う。彼らは市場を支配しているのではなく、市場という巨大な獣と、終わりのないコミュニケーションを続けているのだ。
AIへの向き合い方も、これと同じ作法になるのではなかろうか。波の形を完全にコントロールすることはできない。しかし、波からのフィードバック──エージェントの挙動、予期せぬ創発、ハックの兆候──を感じ取り、重心を移し、スタンスを変えることはできる。
AIは、人類史上かつてない大きな波になりつつある。過去の実績──バブルの見誤り、金融危機の繰り返し、シャドーバンキングの膨張、望まぬ物価高騰──を見れば、「今回だけは計画通りに制御できる」と考えるのは楽観がすぎる。一方で、「どうせ無理だから何もしない」は、波に背を向けたまま立ち尽くすのと変わらない。波は来る。それは止められない。問題は、来ることがわかっている波とどう対話し、乗りこなすかだろう。
「制御できない」という前提を受け入れたうえで、対話を試みる。損失の形を設計し、評価指標がハックされたら、ルールを変えてまたハックのコストを上げ直す。依存が深まることを認めたうえで、停止可能性という交渉カードを手放さない。完全制御という独りよがりな夢を追うのではなく、被害の上限をどこに引くかを、AIという他者(エイリアン)と、対話を続ける。
それは退屈で、地味で、終わりがない。金融規制当局が市場との間で行ってきたイタチごっこと、同じ構図だ。完勝はない。しかし全敗もない。勝率の低い、だが決して降りることのできないゲームのなかで、対話を途切れさせないこと。
コメント
コメントを投稿