アントロピックCEO：「私たちは、自らが生み出したAIがどのように機能するのか理解していない」

Anthropic の Dario Amodei と Daniela Amodei。 — アントロピックのダリオ・アモデイ氏とダニエラ・アモデイ氏。写真：アントロピック

スタートアップ企業アンスロピックは、世界で最も話題のAI企業の一つであり、最近の評価額は615億ドルでした。CEOのダリオ・アモデイ氏はエッセイの中で、「業界外の人々は、私たちが自らのAIがどのように機能するかを理解していないことを知って、しばしば驚き、警戒します。彼らが懸念するのは当然です。このような理解不足は、テクノロジーの歴史において本質的に前例のないことです」と述べています。アモデイ氏は、これが意図しない、そして潜在的に有害な結果をもたらすリスクを高めていると指摘し、AIが不可能なレベルにまで進歩する前に、業界はいわゆる「解釈可能性」に目を向けるべきだと主張しました。

「これらのシステムは経済、テクノロジー、国家安全保障にとってまさに中心的な存在となり、非常に高い自律性を持つため、人類がその仕組みを全く知らないということは基本的に受け入れられないと思う」とアモデイ氏はエッセイに記した。

アモデイ氏は、特定のタスクを実行するように明示的にプログラムされた従来のソフトウェアとは異なり、AIシステムが出力を生成する際になぜそのような決定を下すのかを真に理解している人は誰もいないと述べた。最近、OpenAIは、o3およびo4-miniモデルが以前のバージョンよりも幻覚的な結果を示す理由を理解するために「さらなる研究が必要」であると認めた。

参照：アントロピックの生成AI研究は、法学修士号がセキュリティとバイアスにどのように影響するかについてさらに明らかにする

「植物や細菌のコロニーを育てるのに似ています。成長を方向づけ、形作る高レベルの条件を私たちが設定するのです」とアモデイ氏は記している。「しかし、最終的にどのような構造が形成されるかは予測不可能で、理解や説明が難しいのです。」

これがAIの安全性に関するあらゆる懸念の根源だとアモデイ氏は続けた。AIが何をしているのか理解できれば、有害な行動を予測し、それを防ぐシステムを自信を持って設計できる。例えば、生物兵器やサイバー兵器に関する情報へのアクセスを可能にする脱獄を体系的にブロックするなどだ。また、AIが人間を欺いたり、制御不能なほど強力になったりすることも根本的に防ぐことができるだろう。

このスタートアップのCEOが、AIに対する理解不足への懸念を声高に表明したのは今回が初めてではない。11月の講演で彼は、「チャットボットが少し予測できないことを言うと、人々は笑う」としながらも、AIがより悪質な能力を開発する前に制御することの重要性を浮き彫りにしていると述べた。

アントロピックはモデルの解釈可能性について長い間取り組んできた

アモデイ氏によると、アンスロピックをはじめとする業界関係者は、AIのブラックボックスを解明するために数年にわたり取り組んできた。最終的な目標は、「AIモデルの内部構造を完全に解明し、モデルの嘘の傾向や脱獄の欠陥といった問題を特定できる、高精度で正確なMRIのようなもの」を作り出すことだ。

研究の初期段階で、アモデイ氏らは、モデル内のニューロンが単一の人間が理解できる概念に直接マッピングできることを特定しました。しかし、その大部分は「様々な単語や概念の支離滅裂な寄せ集め」であり、研究の進展を阻んでいました。

「このモデルは重ね合わせを用いています。重ね合わせによってニューロンの数よりも多くの概念を表現できるようになり、より多くの学習が可能になるからです」とアモデイ氏は記している。最終的に、研究者たちは信号処理を用いて特定のニューロンの組み合わせを人間が理解できる概念に対応付けることができることを発見した。

参照：英国の国際AI安全性報告書は、猛スピードで進歩していることを示す

これらの概念は「特徴」と呼ばれ、アモデイ氏によると、ニューラルネットワーク内でその重要性を増減できるため、AI研究者はある程度の制御が可能になるという。これまでに約3000万の特徴がマッピングされているが、アモデイ氏によると、これは小規模なモデルでさえ見つかる特徴数のほんの一部に過ぎない可能性が高いという。

現在、研究者たちは「回路」と呼ばれる特徴の集合を追跡・操作しており、これによりモデルが入力語からどのように概念を生成し、それがどのように出力につながるかについて、より深い洞察が得られる。アモデイ氏は、「AIのためのMRI」が5年から10年後には実現すると予測している。

「一方で、AI自体の進歩があまりにも速いため、私たちにはこの時間さえ残されていないのではないかと懸念している」と彼は書いている。

解釈可能性への3つのステップ

Anthropic の CEO は、解釈可能性をより早く実現するために実行できる 3 つのことを概説しました。

研究者はモデルの解釈可能性に直接取り組む必要がある。彼はGoogle、DeepMind、OpenAIといった企業に対し、この取り組みにさらなるリソースを割り当てるよう促し、神経科学者にもAIへの移行を促した。
政府は、企業に対し、AIテストにおける解釈可能性の活用方法の開示を義務付けるべきだ。アモデイ氏は、規制によって進歩が阻害されることは望んでいないと明言しているが、この義務付けによって知識の共有が促進され、企業が責任ある行動をとるインセンティブが高まることは認めている。
政府は輸出規制を用いて民主主義国家がAI分野で主導権を握れるよう支援し、その優位性を解釈可能性の確保に「費やす」べきだ。アモデイ氏は、民主主義国家は安全を確保するために進歩の遅れを受け入れるだろうが、中国のような独裁国家はそうではないかもしれないと考えている。