生成AIの幻覚を減らし、データを信頼する:Cognite CPO Moe Tanabian氏へのインタビュー

生成AIの幻覚を減らし、データを信頼する:Cognite CPO Moe Tanabian氏へのインタビュー
回路基板は青色で強調表示されており、AI がプリントされたチップが搭載されています。
画像: Shuo/Adobe Stock

今日のビジネス界では生成 AI が急増しており、AI アプリケーションがデータをどこから取得し、誰がそのデータにアクセスできるかを組織が理解することが重要です。

産業用ソフトウェア企業Cogniteの最高製品責任者であり、元Microsoft Azureグローバルバイスプレジデントのモー・タナビアン氏に、信頼できるデータの取得、AIの幻覚、そしてAIの未来について話を聞きました。以下はタナビアン氏へのインタビューの記録です。インタビューは長さと読みやすさを考慮して編集されています。

ジャンプ先:

  • 信頼できるデータは、人間とAIの知識の組み合わせから生まれます
  • 公開情報と非公開情報のバランスが重要
  • AI幻覚を減らすために尋ねるべき質問

信頼できるデータは、人間とAIの知識の組み合わせから生まれます

Megan Crouse:あなたにとって信頼できるデータとは何か、そして Cognite ではそれをどのように捉えているかを定義します。

Moe Tanabian:データには2つの側面があります。1つはデータの実際の価値と、それが表すパラメータです。例えば、工場内の資産の温度などが挙げられます。もう1つは、温度センサーのソースが他のデータ生成元とどのように関連しているかを示す、データの関係性です。このデータの価値指向の側面と関係性の側面は、どちらもデータの品質、信頼性、そしてデータの履歴、改訂、バージョン管理にとって重要です。

当然のことながら、通信パイプラインがあり、データソースがデータプラットフォームに接続する場所に十分な信頼性とセキュリティが確保されていることを確認する必要があります。データが整合性を保ちながら転送され、悪意のある行為から保護されていることを確認してください。

参照:大手テクノロジー企業がAIの安全性とサイバーセキュリティに関するガイドラインを支持、これは最近のホワイトハウスの勧告に類似している(TechRepublic)

まず、データ プラットフォーム内でデータを取得し、それが形作られ始め、データのリレーショナルな側面を検出して構築できるようになります。

デジタル領域において、現実世界をかなり正確に再現する必要があるのは明らかです。私たちはそれをCognite Data Fusionを通して実現しています。人工知能は作業の97%を完璧にこなしますが、最後の3%については、常に何かが欠けています。AIモデルがその3%に向けてトレーニングされていなかったり、その3%のトレーニングに使用したデータが高品質ではなかったりするのです。そのため、プロセスには常に監査メカニズムが存在します。人間を介入させ、人間がそれらの3%、つまりデータ品質の欠陥やデータの正確性の欠陥を捕捉します。そして、それがAIエンジンのトレーニングサイクルとなります。次回、AIエンジンは同じミスを犯さないだけの知識を身に付けているのです。

ChatGPTに知識グラフ、つまりデジタルツイン、つまり柔軟なデータモデルを参照させています。これにより、幻覚の発生率を低下させることができます。つまり、物理世界を表現する知識と、自然言語クエリをコンピュータが理解できるクエリ言語に変換できる大規模な言語モデルを組み合わせることで、魔法が生まれるのです。

公開情報と非公開情報のバランスが重要

メーガン・クラウス:コグナイトは、どのようなデータを扱うのかを制御するためにどのような対策を講じているのでしょうか?

内部サービスがどのような内容でトレーニングされており、生成 AI はどのような公開情報にアクセスできますか?

Moe Tanabian:業界内では対応策を巡って意見が分かれています。WindowsやMicrosoft DOS、あるいはPC業界の初期の頃のように、利用パターンがまだ確立されていなかった時代です。今後1年ほどで安定したアーキテクチャが確立されると思います。しかし現時点では、2つの方法があります。

一つは、先ほど申し上げたように、社内AIモデル(私たちはこれを生徒モデルと呼んでいます)を使用する方法です。このモデルは顧客の個人データで学習され、顧客のオンプレミスやクラウドテナントの外部には持ち出されません。そして、ChatGPTやその他のLLMを基本とする教師モデル(Big Teacher Model)は、一連のAPIを介してこのモデルに接続します。これにより、データは顧客のテナント内に留まり、外部に流出することはありません。これは現在実践されているアーキテクチャの一つであり、マイクロソフトもこれを推進しています。これは、マイクロソフトの生徒-教師アーキテクチャの発明です。

2つ目の方法は、ChatGPTや公開ホストのLLMを使わず、独自のLLMをホストすることです。

LlamaのようなLLMです。Meta社は最近Llama 2を発表しました。[LlamaとLlama 2]は現在、オープンソースで商用利用可能です。これは業界における非常に大きな地殻変動です。これは非常に大きな出来事で、私たちはまだその影響を理解していません。その理由は、突如として、かなりよく訓練された事前学習済みのトランスフォーマーが手に入るようになったからです。[筆者注:ここでのトランスフォーマーとは、生成AIのためのフレームワークです。GPTは生成事前学習済みトランスフォーマーの略です。] そして、顧客として、あるいは私たちのようなソフトウェアベンダーとして、独自のLLMをホストすることができます。こうすることで、顧客データは保護されます。データが外部に漏れることなく、パブリックにホストされているLLMに送られるのです。

AI幻覚を減らすために尋ねるべき質問

Megan Crouse: AI の幻覚を懸念する技術専門家は、生成 AI 製品を使用するかどうかを判断する際に何を念頭に置くべきでしょうか。

Moe Tanabian:まず第一に、私はどのように物理世界を表現しているのか、そして私の知識はどこにあるかということです。

2つ目は、ナレッジグラフに取り込まれるデータです。そのデータは高品質でしょうか?データの出所は把握していますか?データの系統は?正確でしょうか?タイムリーでしょうか?現在、データには多くの側面があります。最新のデータ運用プラットフォームは、これらすべてに対応できます。

そして最後は、幻覚やデータ損失を避けるために、生成 AI 大規模言語モデルをデータ プラットフォームやデジタル ツインと連携できるメカニズムがあるかどうかです。

これら 3 つの質問に対する答えが明確であれば、かなり良い基礎ができたことになります。

Megan Crouse:生成 AI に関して現在最も期待していることは何ですか?

モー・タナビアン:ジェネレーティブAIは、ソフトウェアが世界を変えたように、基盤技術の一つです。マーク・アンドリーセン(シリコンバレーのベンチャーキャピタル、アンドリーセン・ホロウィッツのパートナー)は2011年に「ソフトウェアが世界を飲み込みつつある」と述べましたが、ソフトウェアはすでに世界を飲み込んでいます。ソフトウェアがそうなるまでには40年かかりました。AIは今後5年以内に、私たちの生活、そして生き方やビジネスのやり方に新たなパラダイムシフトをもたらすと私は考えています。

Tagged: