オーストラリアの組織はここ数十年、データの統合に尽力してきました。事業部門固有の情報を格納したデータマートから、データウェアハウス、データレイク、そして現在では構造化データと非構造化データを格納したレイクハウスへと移行してきました。
しかし、フェデレーテッド・レイクハウスというコンセプトは今や勝利を収めつつある。データ分析仮想化企業ZetarisのCEO、Vinay Samuel氏はTechRepublicに対し、米国でこのコンセプトが急速に普及しつつある現状について、組織はデータの集中化ではなく、データが保存されている場所への道筋を構築することを迫られていると語った。
ゼタリスの創設者は、データを完全に集中化することは不可能だと認識した
TR: 2013 年に Zetaris を立ち上げようと思ったきっかけは何ですか?

サミュエル: Zetarisは、私がデータウェアハウス(かつてはビッグデータベースの世界と呼ばれていました)で長年歩んできた道のりから生まれました。1990年代、オーストラリアの銀行、通信会社、小売業者、そして政府は、主に意思決定支援やレポート作成(ビジネスインテリジェンス)といった用途のためにデータを収集していました。
プレミアム: クラウド データ ウェアハウスを選択する際に企業が考慮すべき主な機能。
私たちが学んだ唯一のことは、顧客が常に次なる最適なデータプラットフォームを探し求めていたということです。彼らは絶えずプロジェクトを立ち上げ、あらゆるデータを統合し、集約しようと試みていました。そして私たちは自問しました。「なぜ顧客は、本来目指していたもの、つまりすべてのデータを一箇所に集約した単一のビューを実現できないのだろうか?」と。
答えは「不可能だ」でした。解決すべきビジネス上の意思決定に適切な時間内に、すべてのデータを集約するのはあまりにも困難だったのです。
TR: このデータ集中化の問題を解決するためにどのようなアプローチをとりましたか?
サミュエル:会社を設立したとき、私たちは「データの分析や日々のレポート作成を行うには、それらを統合する必要があるという前提に挑戦したらどうなるだろうか」と考えました。
私たちはこう言いました。「データを集約する必要のないシステムを作りましょう。データを、例えば次善の策であるデータプラットフォームに移すのではなく、データがどこにあってもそのままにして、生成された場所で分析できるのです。」
こうして当社はスタートしましたが、率直に言って、それは大きな挑戦でした。膨大なコンピューティング能力が必要でした。そして、新しいタイプのソフトウェア、今で言う分析データ仮想化ソフトウェアが必要でした。この問題に繰り返し取り組み、今日の、あるいは過去の組織の状況に取って代わる、機能するモデルを確立するまでには長い時間がかかりました。
TR: AIが本格的に普及し始めた今、それは素晴らしい決断だと思われますね。
サミュエル:私たちがこのアイデアにたどり着いたのは 2013 年のかなり早い時期だったと思います。これは良いことでした。なぜなら、このアイデアを実際に繰り返し検討し、それを実現するクエリ オプティマイザー機能を構築するには、5 年から 6 年、あるいは 7 年かかる予定だったからです。
リアルタイム分析、リアルタイム AI、または生成 AI への全体的な移行により、私たちの取り組みは、組織のコスト削減につながる単なる便利なアイデアではなく、非常に重要なものになりました。
ここ18ヶ月ほどは信じられないほどの変化がありました。今日、企業はジェネレーティブAI、あるいはChat GPTで見られるような処理を企業データに導入しようとしています。そのためには、データレイク全体のあらゆる場所にあるデータを処理できる必要があります。データをまとめて整理し、整理し、単一のデータベースビューを作成するために必要なすべての作業を行う時間も余裕もありません。
AIの成長は、企業がすべてのデータにリアルタイムでアクセスしたいことを意味する
TR: では、Zetaris の価値提案は時間の経過とともに変化しましたか?
サミュエル:創業当初は、価値提案は主にコスト削減でした。データを中央データウェアハウスやクラウドデータウェアハウスに移動する必要がなくなれば、大幅なコスト削減になりますよね?それが私たちの価値提案でした。コストを大幅に削減できるだけでなく、同じクエリを実行し、データをそのまま残せるのです。これにはセキュリティ上のメリットも内在しています。データを移動しない方が安全だからです。
確かに、その価値提案はうまくいっていましたが、人々がすぐに「これは絶対に必要だ」と言ってくれるには至りませんでした。AIへの移行に伴い、もはやデータが来るのを待ったり、データウェアハウスやデータレイクにあるデータセットの一部のみを分析対象にしたりすることは不可能になっています。
期待されるのは、AI がすべてのデータを把握でき、データ品質の観点とガバナンスの観点から分析できる状態になっていることです。
TR: 現在の貴社の独自のセールスポイントは何でしょうか?
サミュエル:当社では、データがどこにあってもお客様があらゆるデータに対して分析を実行できるようにし、安全な方法でデータへの単一のアクセス ポイントを提供しています。
ユーザーにクラウド内およびデータセンター全体のすべてのデータへのアクセスを提供できるというだけではありません。ユーザーが誰なのか、どのようなユースケースなのか、プライバシー、ガバナンス、規制の観点から適切かどうかを認識し、そのアクセスを管理・統制することも重要です。
参照: オーストラリアの組織はパーソナライゼーションとプライバシーのバランスを取るのに苦労しています。
私たちはAIのデータサーバーにもなり、組織がAIアプリケーション用のコンテンツストアを構築できるようにしています。
検索拡張生成と呼ばれるものがあります。これは、(大規模な言語モデルによる)プロンプトへの回答生成を、プライベートデータで拡張できるものです。そのためには、データが準備され、アクセス可能であること、つまり適切な形式で、適切なデータ品質を備えていることを確認する必要があります。
私たちは AI 用のデータを準備するアプリケーションです。
データの準備はAI導入の成功にとって大きな障壁である
TR: 組織は AI に関してどのような問題を抱えていると思いますか?
サミュエル:多くの企業がAI機能の開発を望んでいます。彼らが最初に直面する障壁は、データサイエンティストを大勢集めることや、顧客の業界に応じて住宅ローン融資やネットワーク利用状況を予測できる優れたアルゴリズムを見つけることといった課題ではありません。
むしろ、データの準備状況とデータアクセスが問題となります。なぜなら、ChatGPTのような処理をプライベートデータに対して実行したい場合、企業データは準備が整っていないことがよくあるからです。適切な形式ではありません。データが様々な場所に分散しており、品質レベルも異なります。
そして、最初に気付くのは、実際にデータ管理の課題があるということです。
TR: エンタープライズ AI モデルにおける幻覚の問題が発生していると思いますか?
サミュエル:私たちの存在理由の一つは、幻覚を否定することです。推論モデルを適用し、様々な技術やフィルターを適用することで、プライベートLLMから返されるレスポンスを、実際に使用される前に検証しています。つまり、通常は顧客の個人データから作成されたコンテンツストアと照合するということです。
例えば、銀行の顧客で低所得層に多額の融資が提示されるという単純な幻覚が考えられます。これは幻覚かもしれません。しかし、LLM上で当社の技術を活用すれば、そのようなことは起こりません。なぜなら、当社の技術は実際のデータと連携し、顧客の資産プロファイルを分析し、あらゆる規制やコンプライアンスルールを適用するからです。
TR: 他によくあるデータに関する課題はありますか?
サミュエル:よくある課題は、ビジネス上の質問に答えるためにさまざまな種類のデータを組み合わせることです。
例えば、大手銀行は画像、音声、デバイスデータなど、膨大なオブジェクトデータを収集しています。そして、それらを従来の銀行取引明細書データとどのように組み合わせて活用するかを模索しています。
ビジネス上の質問への回答を強化できるような方法で、構造化データと非構造化データの両方をどのように組み合わせるかを考えるのは非常に困難です。
たとえば、ビジネス上の質問は「この顧客にとって最適な、あるいは次善の資産管理商品は何ですか?」といったものかもしれません。これは、過去 20 年間にわたる類似の顧客に関する私の理解と、インターネットや私のネットワークから得たこの顧客に関するその他のすべての情報に基づいています。
構造化データと非構造化データを統合して詳細な分析を行うという課題は、さまざまな場所やさまざまな形式でデータにアクセスするという課題でもあります。
AIを活用して投資を推奨し、ネットワークを修復する顧客
TR: お客様がデータや AI を活用できるよう支援している事例はありますか?
サミュエル:私たちはオーストラリアの大手ウェルスマネジメントグループと協業しており、そこでは推奨レポートの作成を任されています。以前は、実際のウェルスマネージャーが適切なポートフォリオ推奨を作成するために、数百、場合によっては数千ものPDF、画像ファイル、取引データ、BIレポートを分析し、数週間、場合によっては数ヶ月を費やさなければなりませんでした。
今日では、それは数秒で起こります。これらすべてが実際に起こっており、円グラフや傾向ではなく、書面による推奨事項です。これはAIと自動情報管理の融合です。
それが私たちの仕事です。AI と自動情報管理を融合し、顧客にとって次に最適な資産管理商品は何かという問題を解決します。
通信分野では、ネットワーク管理の自動化を支援しています。通信事業者が抱える大きな問題は、インフラの一部に障害が発生した場合です。基地局や機器の故障には、5つか6つほどの潜在的な原因が考えられます。
AI を使用すると、問題が何であるかを素早く特定し、ネットワークの自己修復プロセスを有効にすることができます。
TR: あなたが取り組んでいる生成 AI の取り組みの中で、特に興味深いものは何ですか?
サミュエル:本当に素晴らしいのは、私たちの取り組みのおかげで、コーディングの知識がない普通の人でもデータと対話できるようになったことです。データプラットフォーム上に構築された生成AIによって、コードではなく自然言語でクエリを表現できるようになり、ビジネスにとってデータの価値が真に高まります。
従来、ビジネスパーソンとデータの間には技術的なギャップがありました。コーディングの仕方もSQLの書き方も分からなければ、聞きたいビジネス上の質問を実際に尋ねることはできませんでした。誰かの助けが必要でした。そして、助けようとする人とビジネス実務者の間には、翻訳の問題がありました。
まあ、それはもう過去のことになりました。賢明なビジネスパーソンは、プライベートデータをベースに生成AIを活用することで、コーディングを気にすることなくデータと直接対話できるようになりました。これにより、あらゆる業界で非常に興味深いユースケースが生まれる可能性が開かれます。
オーストラリアはアメリカに続き、連邦レイクハウスの価値を認識
TR: Zetarisはオーストラリアで生まれました。顧客は全員オーストラリア人ですか?
サミュエル:過去18ヶ月間、私たちはアメリカ市場、特にヘルスケア、銀行、通信事業者、小売業、製造業といった、成長の著しい業界に注力してきました。政府からも関心を寄せられています。現在、従業員は約40名です。
オーストラリアが拠点ですが、フィリピンとインドにも拠点があり、アメリカにも小規模の拠点があります。
ユースケースは興味深く、生成AIを使ってあらゆる場所でデータを分析することに関係しています。例えば、現在、大規模な病院グループのトリアージを支援しています。患者がグループに運ばれてくると、生成AIを使って、胸の痛みがパニック発作なのか、それとも心臓発作なのか、あるいはその他の原因なのかを非常に迅速に判断しています。
TR: オーストラリアは連邦レイクハウスの構想の採用に近づいているのでしょうか?
サミュエル:(オーストラリア)市場はアメリカ市場を追随する傾向があり、通常は約1年遅れています。
アメリカでは、レイクハウスは必ずしも集中管理型である必要はないという認識が広く浸透しています。一部のデータはレイクハウスに保存する一方で、他の場所にもサテライトデータが存在するという考え方が受け入れられています。これは、企業がクラウド上に複数の拠点を持つといった現実を反映しています。多くの企業が2~3社のクラウドベンダーのサポートを受け、大規模なデータセンターを保有していることは珍しくありません。
これはアメリカのトレンドであり、オーストラリアでもその兆しが見られ始めています。
変更により、単一の場所でのデータの統合はできなくなります
TR: では、組織のデータを一元管理するという考えは依然として不可能なのでしょうか?
サミュエル:それを 1 つのデータ ウェアハウスまたは 1 つのクラウドに統合するという考えは、実際には不可能だと私は思っていますし、今でもそう思っています。
意思決定支援と情報管理の分野に着手した当初、銀行、通信会社、小売業者、そして政府機関が直面する困難を目の当たりにしてきました。そして率直に言って、大企業のデータは当時も今も混乱を極めています。なぜなら、データは様々な形態、品質レベル、ガバナンスレベルで、データセンターからクラウドまで、無数のアプリケーションから提供されるからです。
特に今、ビジネスのスピードと私たちが直面している変化の激しさを考えると、データを生成するアプリケーションは絶えず発見され、組織に導入されています。変化の激しさを考えると、データの統合は一律では不可能です。