
生成AIの意思決定を監視することは安全性にとって不可欠ですが、テキストや画像の出力につながる内部の仕組みは依然として不透明です。7月15日に発表されたポジションペーパーでは、モデルを監視する方法として、思考連鎖(CoT)による監視可能性が提案されています。
この論文は、Anthropic、OpenAI、Google DeepMind、AI Safetyセンターなどの研究者によって共同執筆されました。OpenAIの元チーフサイエンティストでSafe Superintelligenceの共同創設者であるイリヤ・スツケヴァー氏、Anthropicの研究者サミュエル・R・ボウマン氏、Thinking Machinesのチーフサイエンティストであるジョン・シュルマン氏、そしてディープラーニングの第一人者であるジェフリー・ヒントン氏など、著名なAI専門家からも支持されています。
思考の連鎖とは何ですか?
思考連鎖とは、生成AIモデルが出力を生成する過程で言語化する中間的な推論ステップを指します。一部のディープラーニングモデルは、その時点で行っている処理についてユーザーにレポートを生成します。人間が読めるデータを生成する前にモデルが行っている処理を評価することは解釈可能性と呼ばれ、Anthropicはこの分野を精力的に研究しています。
しかし、AIが高度化するにつれて、意思決定の「ブラックボックス」を監視することはますます困難になります。思考の連鎖の解釈可能性が数年後に実現するかどうかは誰にもわかりませんが、今のところ、研究者たちはかなり急いで研究を進めています。
「CoTの監視可能性は脆弱である可能性があるため、フロンティアモデルの開発者は開発上の決定がCoTの監視可能性に与える影響を考慮することを推奨する」と研究者らは書いている。
思考連鎖の監視により、高度なAIモデルの「不正行為」をチェックできる可能性がある
「人間の言語で『考える』AIシステムは、AIの安全性確保において他に類を見ない機会を提供します。AIシステムの思考の連鎖(CoT)を監視すれば、不正行為の意図を察知できるからです」と研究者らは述べています。不正行為には、報酬関数の不正操作、ユーザーの操作、プロンプトインジェクション攻撃の実行などが含まれる可能性があります。思考の連鎖は、AIが一つの目標を追求しながら、別の目標の追求を隠蔽していることを明らかにすることがあります。
CoT自体はAIによって生成されたコンテンツであり、幻覚を含む可能性があるため、研究者たちはその信頼性をまだ研究中です。具体的には、研究者たちは「これらの例で示されたCoTの監視可能性のうち、検討対象のタスクにおいてモデルが音声で推論する必要性によるものと、その傾向によるもののどちらがどの程度なのかは不明である」と述べています。
AIを監視可能にする要因と監視可能性の評価方法について、より多くの研究者が研究する必要があると著者らは述べています。これは、監視を行うLLMと監視されるLLMの間で競争が生じる可能性を示唆しています。さらに、高度なLLMは、監視対象であることを知らされた場合、異なる反応を示す可能性があります。著者らは、監視可能性はモデルの安全性にとって重要な要素であり、フロンティアモデルの開発者はそれを評価するための標準的な指標を開発すべきだと述べています。
「CoTモニタリングは、最先端のAIの安全対策に貴重な追加機能を提供し、AIエージェントがどのように意思決定を行うかを垣間見ることができる貴重な機会となります」と研究者らは記している。「しかし、現在のレベルの可視性が今後も維持される保証はありません。研究コミュニティと最先端のAI開発者の皆様には、CoTモニタリングを最大限に活用し、それをどのように維持できるかを研究していただくようお願いいたします。」
水中データセンターは AI 業界の根深い冷却問題を解決できるでしょうか?