2022年最新版:Confluentがデータパイプラインのライフラインを構築 - TechRepublic

2022年最新版:Confluentがデータパイプラインのライフラインを構築 - TechRepublic
ボクセルスタイルのデータと人工知能パイプラインの3Dイラスト
画像: Mark/Adobe Stock

データの流れ。データが保存された後、バックアップに送られ、場合によっては取得が困難な長期保存場所に保管される場合でも、データは通常、その存続期間中、ある場所から別の場所へと移動します。

データが移動する際には、通常、アプリケーションとその依存サービス間を移動します。しかし、データは当然のことながら、アプリケーションとオペレーティングシステム間、アプリケーションコンポーネント間、コンテナとマイクロサービス間、そしてクラウドとWebの常時接続時代においては、アプリケーションプログラミングインターフェース間も移動します。

今日では、データは非常に広範囲に流れることがわかっており、データ ストリーミングについて話すこともありますが、それは何であり、このコンピューティング原理をどのように活用するのでしょうか。

データストリーミングとは何ですか?

現代のITスタックにおける重要な情報パラダイムであるデータストリーミングは、上記のチャネル間を時系列で移動するデータの流れを指し、記述します。キーボード入力、マウスクリック、IoTセンサーの読み取りごとに非同期ログファイルが作成されるコンピューティングイベントの概念に近い概念であるデータストリーミングは、データフローが一般的に豊富で大規模な領域に関連するシステムアクティビティを監視します。

参照: 採用キット: データベースエンジニア (TechRepublic Premium)

このデータ移動の簡潔な歴史から得られるのは、川の流れを知るのに十分な知識です。カヌーに乗って漕ぎ出すことさえできるかもしれません。しかし、ライフジャケットを貸してくれたり、川を進む手助けをしてくれたりはしません。

Confluentは、データを動かすことを自らの使命とするデータストリーミングプラットフォームです。データストリーミングエンジニアリングは複雑に聞こえますが、チームはConfluent Stream Designerを開発しました。これは、ソフトウェア開発者がストリーミングデータパイプラインを数分で構築できるというビジュアルインターフェースです。

データストリームの設計

Confluent はシンプルなポイントアンドクリック式のユーザーインターフェースを提供していますが、必ずしもあなたとあなたの大切な叔父や叔母のためのポイントアンドクリック式 UI ではありません。これは、Apache Kafka の専門家以外の開発者にもデータストリームへのアクセスを可能にするための、いわば進歩となることを願うポイントアンドクリック式 UI です。

Apache Kafka は、Confluent の共同創業者兼 CEO である Jay Kreps 氏と、同僚の Neha Narkhede 氏、Jun Rao 氏によって LinkedIn 在籍時に開発されたオープンソースの分散イベントストリーミング プラットフォームです。Confluent は、複数のソースからのリアルタイム データストリーミングを実現するクラウドネイティブな基盤プラットフォームを提供しています。このプラットフォームは、ソフトウェア駆動型のバックエンド操作における「インテリジェントな結合組織」として設計されており、リッチなフロントエンド ユーザー機能を提供します。

ここでは文脈化と明確化が必要です。これは、毎晩寝る前にココアを飲みながら Narkhede の Kafka: The Definitive Guide を読んでいなかったかもしれない、より幅広い開発者層に提供される複雑なソフトウェア エンジニアリングとデータ サイエンスです。

Confluent Stream Designer の背景にある理論は、より多くのチームがストリーミング パイプラインを迅速に構築および反復処理できるようになることで、組織はビジネス全体でより多くのデータを迅速に接続し、より俊敏な開発と、より適切かつ迅速な即時の意思決定を実現できるというものです。

テキサスで開催された Current 2022: The Next Generation of Kafka Summit では、Confluent 社と直接話をして同社の見解や展望について話し合う機会がありました。

「私たちは今、大きな技術革新の真っ只中にいます。データストリーミングによってリアルタイムが新たな標準となり、新たなビジネスモデル、より良い顧客体験、そしてより効率的なオペレーションが実現しつつあります」とクレプス氏は述べています。「Stream Designerによって、データストリーミングへのこの動きを民主化し、組織内のすべてのデータフローにおいてリアルタイムをデフォルトにしたいと考えています。」

ストリーミングはエッジから侵入する

クレプス氏とチームはさらに、かつてはエッジに位置していたストリーミング技術が重要なビジネス機能の中核になっていると述べています。

従来のバッチ処理では、ミリ秒単位の更新に依存するユースケースの増加に対応できなくなり、顧客体験とビジネス オペレーション全体にデータを瞬時に配信する能力が企業の生計を決定づけるため、ストリーミングへと転換する組織が増えていると Confluent は述べています。

今日のデータ ストリーミングの事実上の標準となっている Kafka により、Fortune 100 企業の約 80% が大量かつ多様なデータをリアルタイムで処理できるようになったと言われています。

しかし、オープンソースのKafka上にストリーミングデータパイプラインを構築するには、高度な専門知識を持つエンジニアからなる大規模なチームと、複数のツールにまたがる時間のかかる作業が必要です。そのため、多くの組織にとってパーベイシブデータストリーミングは手の届かないものとなり、データパイプラインは古くなったデータで詰まってしまうことになります。

アナリスト会社IDCは、企業はストリーミングのユースケースを増やす必要があるが、開発者の人材不足と技術的負債の増大がそれを阻んでいると述べている。

「開発者、データサイエンティスト、そしてデータストリーミング技術を扱うすべてのソフトウェアエンジニアにとって、これは多くの人にとって全く新しい概念です」と、Confluentのデベロッパーアドボケイトであるクリス・ジェンキンス氏は説明します。「これは、リレーショナルデータベースのような技術の使用から大きく進歩したと言えるでしょう。」

これらすべてが、企業がいわゆるデータメッシュを構築できる段階への道を開きます。これは、企業内のあらゆる部門が中央IT部門を介してデータを共有し、企業運営レベルでのより高度な意思決定を支援する運用状態です。このメッシュ構造では、他の部門も、定義されたポリシーアクセス制御の下で、元のデータ作成者の関与を必要とせずに、これらのリアルタイムデータストリームにアクセスできるようになります。

Confluent は開発者に何を提供しますか?

製品の詳細について言えば、ConfluentのStream Designerは、開発者が「柔軟なポイントアンドクリックキャンバス」と呼ぶものを提供し、数分でストリーミングデータパイプラインを構築できるようにします。これは、GUI内でデータフローとビジネスロジックを簡単に記述できる機能によって実現されます。

開発者中心のアプローチを採用し、スキルやニーズの異なるユーザーがUI、コードエディタ、コマンドラインインターフェースを切り替えながら、宣言的にデータフローロジックを構築できます。パイプラインに開発者向けのプラクティスを導入することで、Kafkaを初めて使用する開発者でも、データをより迅速にビジネス価値に変換できるようになります。

Stream Designerソフトウェアを使用すれば、オープンソースのKafka上の個々のコンポーネントの管理に長時間を費やす必要がなくなります。開発者は単一のビジュアルインターフェースを通じて、Kafkaエコシステム全体を使ったパイプラインを構築し、モジュール形式で反復処理とテストを行った上で本番環境へのデプロイを行うことができます。Kafka StreamやKafka Connectのように、毎回独自のボイラープレートコードを必要とする複数の個別コンポーネントにまたがって作業する必要はもうありません。

パイプラインを構築した後の次の課題は、ビジネス要件の変化やテクノロジースタックの進化に合わせて、ライフサイクル全体にわたってパイプラインを維持・更新することです。Stream Designerは、統合されたエンドツーエンドのビューを提供することで、パイプラインを容易に監視、編集、管理し、最新の状態に保つことができます。

クレプスCEOの市場スタンス

明らかにまだ発展途上の技術の現状を鑑みて、クレプス氏は自社と他のエンタープライズ技術ベンダーとの関係についてどのように感じているのだろうか。

「ご存知のとおり、これはデータに対する私たちの考え方やデータの扱い方において、非常に大きな変化です。そして実際、データを取り巻くあらゆるテクノロジーに影響を与えています」とクレプス氏は述べた。「一部のオペレーショナルデータベースベンダーは既に、当社と、そして当社もベンダーと、非常に緊密な連携を実現しています。これは私たちにとって素晴らしいことです。なぜなら、私たちの目標は、こうした連携を実現し、Confluentをベンダーの様々なシステム間で容易に連携できるようにすることですから。」

これらのエンタープライズテクノロジーベンダーは、今後、独自のデータストリーミングソリューションを開発し、独自のアプローチで市場に参入していくのでしょうか?もしそうなった場合、Kreps氏はそれをある意味でConfluentへの賛辞とみなすのでしょうか?

機能の複製を試みる動きが必ず出てくるだろうと、彼は同意する。しかし、全体としては、新製品に何を期待し、何を求めるかという点で「実務家の意識の変化」を指摘し、自社がこの分野に注力することで成功を収められると確信しているようだ。

あなたはトマトと言う、私もトマトと言う

残る疑問はただ一つ。データストリーミングと呼ぶべきか、それともストリーミングデータテクノロジーと呼ぶべきか、決めなければなりません。ここでの最初の定義、そしてウェブ上のほとんどの情報源は、データストリーミングについて言及しています。一方、Confluentはストリーミングデータを指すことが多いです。比喩を混同し、川や小川、水路といった話から離れてしまう恐れがありますが、これはジャマイカのヤギカレーに少し似ています。ヤギカレーを頼めば、おそらくそれが出てくるでしょう。どちらにしても、それは辛いものになり、ヤギにとっては良くない知らせです。

TechRepublic Academy の以下のリソースを活用してデータ エキスパートになりましょう。

Tagged: