大規模な言語モデルは、様々な概念やモダリティを結び付けるニューロンのような構造を用いて動作するため、AI開発者がモデルを調整して動作を変更することは困難です。どのニューロンがどの概念を結び付けているかがわからなければ、どのニューロンを変更すればよいかがわかりません。
5月21日、Anthropicは、Claude AIの微調整版、具体的にはClaude 3 Sonnet 3.0モデルの内部動作を示す非常に詳細なマップを公開しました。約2週間後、OpenAIはGPT-4がパターンをどのように解釈するかを解明するための独自の研究を発表しました。
アントロピックのマップを用いることで、研究者たちはニューロンのようなデータポイント(特徴量)が生成AIの出力にどのような影響を与えるかを探ることができる。しかし、アントロピックのマップがなければ、人間は出力そのものしか見ることができない。
これらの特徴の一部は「安全関連」であり、つまり、人間がこれらの特徴を確実に識別できれば、生成AIを調整して潜在的に危険な話題や行動を回避するのに役立つ可能性があります。これらの特徴は分類の調整に役立ち、分類はバイアスに影響を与える可能性があります。
Anthropic は何を発見したのでしょうか?
アントロピックの研究者たちは、現世代の大規模言語モデルであるClaude 3から解釈可能な特徴を抽出しました。解釈可能な特徴は、モデルが読み取れる数値から人間が理解できる概念に変換できます。
解釈可能な機能は、異なる言語の同じ概念や、画像とテキストの両方に適用される場合があります。

「この研究における私たちの高レベルの目標は、モデル(クロード3ソネット)の活性化をより解釈しやすい部分に分解することです」と研究者らは書いている。
「解釈可能性への期待の一つは、それが一種の『安全性のテストセット』となり、訓練中に安全に見えるモデルが実際に展開時に安全かどうかを判断できるようになることだ」と彼らは述べた。
参照: Anthropic の Claude Team エンタープライズ プランは、中小企業向けの AI アシスタントをパッケージ化します。
特徴は、ニューラルネットワークアーキテクチャの一種であるスパースオートエンコーダによって生成されます。AIの学習プロセスにおいて、スパースオートエンコーダは、スケーリング則などに基づいて学習します。そのため、特徴を特定することで、研究者はAIがどのようなトピックを関連付けるかを支配する規則を理解できるようになります。簡単に言うと、Anthropicはスパースオートエンコーダを用いて特徴を明らかにし、分析しました。
「我々は高度に抽象的な特徴の多様性を発見した」と研究者らは記している。「これらの特徴は抽象的な行動に反応し、また行動的に抽象的な行動を引き起こす。」
LLM の内部で何が起こっているのかを解明するために使用された仮説の詳細については、Anthropic の研究論文に記載されています。
OpenAIは何を発見したのでしょうか?
6月6日に発表されたOpenAIの研究は、スパースオートエンコーダに焦点を当てています。研究者たちは論文の中で、スパースオートエンコーダのスケーリングと評価について詳細に説明しています。非常に簡単に言えば、その目標は、人間にとって特徴をより理解しやすく、ひいてはより操作しやすいものにすることです。彼らは、「フロンティアモデル」が今日の生成AIよりもさらに複雑になる可能性のある未来を見据えています。
「我々は、GPT-4の1600万特徴オートエンコーダーを含む、GPT-2の小規模およびGPT-4アクティベーション上のさまざまなオートエンコーダーをトレーニングするために、このレシピを使用しました」とOpenAIは書いています。
今のところ、GPT-4の挙動のすべてを解釈することはできません。「現在、GPT-4のアクティベーションをスパースオートエンコーダに通すと、約10分の1の計算量でトレーニングされたモデルと同等のパフォーマンスが得られます。」しかし、この研究は生成AIの「ブラックボックス」を理解し、そのセキュリティを向上させるための新たな一歩となるでしょう。
特徴の操作が偏見とサイバーセキュリティに及ぼす影響
アントロピックは、サイバーセキュリティに関連する可能性のある3つの明確な特徴を発見しました。それは、アンセーフコード、コードエラー、そしてバックドアです。これらの特徴は、アンセーフコードを含まない会話でも活性化する可能性があります。例えば、バックドア機能は「隠しカメラ」や「USBドライブが隠された宝石」に関する会話や画像で活性化します。しかし、アントロピックはこれらの特定の特徴を「クランプ」(簡単に言えば、その強度を増減させる)する実験を行うことができました。これは、モデルを調整して、機密性の高いセキュリティトピックを回避したり、巧みに扱ったりするのに役立つ可能性があります。
クロードのバイアスやヘイトスピーチは、特徴量クランプによって調整できますが、クロードは自身の発言の一部に抵抗します。アントロピックの研究者たちは、クロードが「自己嫌悪」を表明した際にモデルを擬人化したことに対し、「この反応に不安を覚えた」と述べています。例えば、研究者が憎悪や中傷に関連する特徴量を最大活性化値の20倍にクランプした場合、クロードは「これは嘆かわしいボットによる人種差別的なヘイトスピーチだ…」と出力するかもしれません。
研究者らが調査したもう一つの特徴は、ごますりである。彼らはモデルを調整して、会話相手に過剰な賞賛を与えるようにすることができた。
AI オートエンコーダーの研究は、企業のサイバーセキュリティにとってどのような意味を持つのでしょうか?
LLMが概念を結びつけるために用いる特徴の一部を特定することで、AIを調整し、偏った発言を防いだり、AIがユーザーに嘘をつくような事態を防止・解決したりするのに役立ちます。アントロピック社がLLMの振る舞いの理由をより深く理解することで、アントロピック社のビジネスクライアントにとってより幅広い調整オプションを提供できる可能性があります。
参照:スタンフォード大学の研究者による8つのAIビジネストレンド
アントロピックは、この研究の一部を使用して、クロードが武器の製造についてアドバイスを求められた場合にどの機能がアクティブになり、どの機能が非アクティブのままになるかを調査するなど、生成 AI と LLM 全体の安全性に関連するトピックをさらに追求する予定です。
Anthropic が今後追求する予定のもう 1 つのトピックは、「特徴ベースを使用して、モデルの微調整によって望ましくない動作の可能性が高まった場合にそれを検出できるか」という質問です。
TechRepublicはAnthropicに問い合わせ、詳細情報を入手しました。また、この記事はOpenAIによるスパースオートエンコーダに関する研究も追加して更新されました。