パブリックAIソリューションとプロプライエタリAIソリューション、どちらがあなたのビジネスに適していますか?専門家アーロン・カルブ氏へのインタビュー

パブリックAIソリューションとプロプライエタリAIソリューション、どちらがあなたのビジネスに適していますか?専門家アーロン・カルブ氏へのインタビュー
人工知能モデルを使用している人の概念図。
画像: Adob​​e Stock/putilov_denis

生成型人工知能(GAI)に関して、組織はパブリックAIとプロプライエタリAIのどちらを選択すべきでしょうか?まず、これらの選択肢の主な違いを検討する必要があります。

パブリックAIは幅広い知識ベースを持ち、多くのタスクを実行できます。しかし、パブリックAIはそれらのデータをモデルの学習データにフィードバックする可能性があり、セキュリティ上の脆弱性が生じる可能性があります。代替案として、独自のデータを用いて社内で学習・ホスティングされたAIはより安全ですが、より多くのインフラストラクチャを必要とします。

サムスンを含む一部の企業は、セキュリティリスクを理由に、公開されている生成AIの企業利用を禁止しています。こうした懸念を受けて、ChatGPTを開発するOpenAIは、2023年4月にユーザーがデータの利用を制限するオプションを追加しました。

データ分析会社Alationの共同創業者兼最高戦略責任者であるアーロン・カルブ氏は、データ分析における生成AIの活用方法と、この急速に進化する分野の現状から他の組織が何を学ぶことができるかについて語ってくれました。Siriのエンジニアとしての経験から、公開AIデータセットと独自仕様のAIデータセットのどちらを選ぶかなど、組織が新興技術を選択する際に考慮すべき点について深い洞察を得ています。

以下はカルブ氏とのインタビューの記録です。長さと明瞭性を考慮して編集されています。

ジャンプ先:

  • 独自の AI をトレーニングするか、公共サービスを利用しますか?
  • AIが企業に適しているかどうかを判断する方法
  • AIが使用するデータの所有権の決定
  • 独自のAIで「ブラックボックス」を覗き見できる
  • 有用性とプライバシーのバランスを見つける

独自の AI をトレーニングするか、公共サービスを利用しますか?

メーガン・クラウズ:企業が独自のプライベートデータプールを持ち、それを AI に供給するのが将来の方向だと思いますか。それとも、パブリック AI と独自の AI が混在することになると思いますか。

Aaron Kalb:内部の大規模言語モデルは興味深いですね。インターネット全体を対象とした学習にはメリットとリスクがあり、誰もがそれを実行できるわけではありませんし、そもそも実行したいという人さえいません。大規模な事前学習済みモデルを微調整したり、迅速なエンジニアリングを行うことで、どれほどの成果が得られるかに驚かされました。

小規模な企業にとって、既に存在する再利用可能なAIは、多くの用途で活用できるでしょう。自社でAIを開発できる余裕のある大規模企業は、そうしたくなるでしょう。例えばAWSやGoogle Cloud Platformを見ると、これらのサービスの一部はコアインフラのように見えます。ここで言うAIの活用方法ではなく、ホスティングやサーバーファームの活用方法のことです。「私たちは巨大企業だから、自社でサーバーファームを作るべきだ」と考えるのは簡単です。しかし、私たちのコアビジネスは農業や製造業です。AmazonやGoogleの優秀な人材に開発を任せ、ストレージやコンピューティング能力1テラバイトあたり数セントを支払うべきなのかもしれません。

私の推測では、いずれは大手テクノロジー企業だけが、こうしたAIの自社バージョンを維持することにメリットを見出すでしょう。ほとんどの人は最終的にサードパーティのサービスを利用することになるでしょう。これらのサービスは、より安全で、より正確になり、業界によってより細かく調整され、価格も下がるでしょう。

参照: GPT-4 チートシート: GPT-4 とは何ですか? 何ができますか?

AIが企業に適しているかどうかを判断する方法

メーガン・クラウス:企業の意思決定者は、生成型AIの導入を決定する前に、他にどのような質問を自問すべきでしょうか? どのような場合には、生成型AIを使用しない方が良いのでしょうか?

アーロン・カルブ:私はデザインのバックグラウンドを持っており、ここで目指すのはデザインのダイヤモンドです。まずアイデアを出し、そこから選択していくのです。デザインから学ぶもう一つの重要なことは、常に製品ではなく、ユーザーとユーザーの課題から始めるということです。私たちが抱える最大の課題は何でしょうか?

もし営業開発チームが「アウトリーチメールの件名と本文を、LinkedInや会社情報、ウェブサイトに基づいて、相手に合わせてカスタマイズすると、反応率と開封率が向上することが分かりました」と言い、「毎日何時間も手作業で作業しているのに、開封率は高いのに1日に送れるメールの数は多くありません」と言うなら、生成AIはまさにその点で優れています。送信先リストを確認し、受信者のLinkedInページと会社のウェブサイトに基づいてメールの下書きを作成するウィジェットを作成できます。担当者は30分かけてメールを書く代わりに、それを編集するだけで済みます。まずは何が問題なのかを突き止める必要があると思います。

参照:生成 AI はオンデマンドでテキストやビデオを作成できますが、盗作、誤用、偏見などに関する懸念が生じます。

アーロン・カルブ:もはや話題にはならないかもしれませんが、多くのAIは予測モデルです。これは一世代前の技術ですが、ボットに入力できるものを提供するよりもはるかに収益性が高いかもしれません。人々は入力が好きではありません。購入者のクリックなどに基づいて予測する優れたユーザーインターフェースを用意する方が、アプローチは異なりますが、より良い結果をもたらすかもしれません。

生成AIに関して最も重要なのは、セキュリティ、パフォーマンス、そしてコストです。欠点は、生成AIはまるでブルドーザーでバックパックを運ぶようなものになりかねないことです。そして、おそらく不必要にランダム性を導入してしまうことになります。決定論的な方法の方が望ましい場合も少なくありません。

AIが使用するデータの所有権の決定

メーガン・クラウス: ITの責任という点では、独自のデータセットを作成する場合、AIがアクセスできるデータの所有権は誰にあるのでしょうか?それはどのようにプロセスに組み込まれるのでしょうか?

アーロン・カルブ: AWSを見ていて、プライバシーに関する懸念とプロセスは、時間とともに改善されていくと信じています。確かに今は難しいかもしれません。しかし、時間が経てば、連邦政府機関や規制の厳しい業界であっても、信頼できるすべての承認と認証を取得した既製のソリューションを入手できるでしょう。一夜にして実現するわけではありませんが、必ず実現すると思います。

しかし、LLMは非常に重いアルゴリズムです。重要なのは、あらゆるものから学習しますが、どこから来たのかは知りません。バイアスが心配な場合は、AIは適さないかもしれません。そして、このアルゴリズムの軽量版は存在しません。その優れた点こそが、コストを高くしているのです。こうした費用は、単にお金の問題だけでなく、電力の問題でもあります。世の中には十分な量の電子が流通していないのです。

独自のAIで「ブラックボックス」を覗き見できる

メーガン・クラウス: Alationはデータガバナンスの可視性を提供することに誇りを持っています。AIの「ブラックボックス」問題、つまりAIがなぜそのような判断を下したのかが分からない問題について、社内でどのように、あるいは回避すべきかどうか議論したことはありますか?

アーロン・カルブ: AIの学習に使われている「知識」の全てがどこから来ているのかを本当に知りたいのであれば、独自のモデルを構築し、その学習に使うデータの範囲を限定した方が良いでしょう。唯一の問題は、「LLM」の最初の「L」です。モデルが十分に大きくないと、優れたパフォーマンスは得られません。学習データが少ないと、精度は向上し、奇妙さは減りますが、流暢さや優れたスキルは低下するというトレードオフがあります。

有用性とプライバシーのバランスを見つける

Megan Crouse: Siri の開発に携わっていたころから、AI への取り組み方にどのようなことを学びましたか?

アーロン・カルブ: Siriは最初の(チャットボットのようなAI)でした。Googleのような企業との熾烈な競争に直面しました。GoogleはGoogle Voiceのようなプロジェクトや、ユーザーが生成した膨大な会話データのコーパスを保有していました。Siriにはそういったものは一切なく、新聞などのテキストコーパスをベースにしており、旧式のテンプレートベースの推論AIを多用していました。

長い間、Siriは使用しているアルゴリズムを更新しても、パフォーマンスはそれほど向上しませんでした。その要因の一つはプライバシーポリシーです。Siriとの会話はすべて独立しており、時間の経過とともに学習することはできません。そのため、Googleが何百通りもの方法で情報を使用し、場合によっては悪用する可能性があるにもかかわらず、Siriがそれらの情報を利用していないという信頼をユーザーは得ることができますが、Appleはそこから学ぶことができませんでした。

Appleも同様に、新機能を追加し続けました。Siriの進化は、世界が広がれば広がるほど、より力強いものになることを示しています。しかし、それはリスクも伴います。より多くのデータを取り込めば、力は増す一方で、プライバシーへの懸念も生じます。この(生成AI)は非常に先進的な技術ですが、常にスライダーを動かし、人々が重視する様々な要素とトレードオフの関係にあるのです。

Tagged: