UbuntuベースのLinuxディストリビューションにApache Druidリアルタイム分析データベースをインストールする方法 - TechRepublic

UbuntuベースのLinuxディストリビューションにApache Druidリアルタイム分析データベースをインストールする方法 - TechRepublic
2021年5月19日、ブラジル。このイラストでは、Ubuntuウェブサイトのホームページがコンピューター画面に表示されています。
画像: ラファエル・エンリケ/Adobe Stock

Apache Druidは、膨大なデータセットを迅速にスライス&ダイス分析するために設計されたリアルタイム分析データベースです。Linuxのデスクトップ版、またはGUIを備えたLinuxサーバーからApache Druidを簡単に実行し、データをロードして解析を開始できます。

Apache Druid には次のような機能が含まれています。

  • 列指向ストレージ
  • ネイティブ検索インデックス
  • ストリーミングとバッチインジェスト
  • 柔軟なスキーマ
  • 時間最適化されたパーティショニング
  • SQLサポート
  • 水平スケーラビリティ
  • 簡単な操作

Apache Druid は、リアルタイムの取り込み、高速クエリ、高い稼働時間を必要とするユースケースに最適なオプションです。

Pop!_OS Linux (どの Linux ディストリビューションでも実行できます) で Apache Druid を実行するプロセスを説明してから、サンプル データを読み込む方法を説明します。

参照: 採用キット: データベースエンジニア (TechRepublic Premium)

必要なもの

これを動作させるために必要なのは、デスクトップ環境と sudo 権限を持つユーザーを備えた実行中の Linux インスタンスだけです。

以上です。データベースマジックをしてみましょう。

Java 8のインストール方法

現時点ではApache DruidはJava 8のみをサポートしているため、Java 8がインストールされ、デフォルトとして設定されていることを確認する必要があります。UbuntuベースのデスクトップディストリビューションにJava 8をインストールするには、マシンにログインし、ターミナルウィンドウを開いて次のコマンドを実行します。

sudo apt install openjdk-8-jdk -y

インストールが完了したら、Java 8をデフォルトに設定する必要があります。以下のコマンドで設定します。

sudo update-alternatives --config java

現在マシンにインストールされているすべてのJavaバージョンのリストが表示されます。Java 8に対応する番号を選択してください。

Apache Druid サービスについて

これから起動するのはApache Druidのマイクロインスタンスです。4つのCPUと16GBのRAMが必要です。Apache Druidには以下の6つの異なるサービス構成があります。

  • ナノクイックスタート: 1 CPU、4GB RAM
  • マイクロクイックスタート: 4 CPU、16 GB RAM
  • 小型: 8 CPU、64GB RAM
  • 中規模: 16 CPU、128GB RAM
  • ラージ: 32 CPU、256GB RAM
  • 特大: 64 CPU、512GB RAM

データのサイズとニーズによって異なります。膨大な量のデータを扱う場合は、Apache Druidをクラスターとしてデプロイすることをお勧めします。ただし、Apache Druidはまだ使い始めたばかりなので、マイクロインスタンスでも十分です。

Apache Druidのダウンロードと解凍方法

Javaがインストールされたら、Apache Druidをダウンロードして解凍します。ターミナルウィンドウに戻り、次のコマンドで最新バージョンをダウンロードします(Apache Druidのダウンロードページで最新リリースであることを確認してください)。

wget https://dlcdn.apache.org/druid/0.22.1/apache-druid-0.22.1-bin.tar.gz

ダウンロードしたファイルを次のように解凍します。

tar xvfz apache-druid-0.22.1-bin.tar.gz

次のコマンドで新しく作成したディレクトリに移動します。

cd apache-druid-0.22.1

次のようにしてサービスを開始します。

./bin/start-micro-quickstart

Apache Druidサービスは問題なく起動するはずです。ただし、サービスの実行中はCtrl + Cでキャンセルするまでターミナルに戻らないので注意してください。

Apache Druidコンソールにアクセスする方法

Apache Druid を実行しているマシンで、Web ブラウザを開き、 を指定しますhttp://localhost:8888。残念ながら、Apache Druid はリモートマシンからアクセスできないように設定されているため、デスクトップマシンにインストールします。

Apache Druid コンソールが表示されます (図 A )。

図A

画像: Jack Wallen/TechRepublic。Apache Druidコンソールは非常にシンプルで使いやすいです。

データのロード方法

quickstart/tutorial/ディレクトリにある定義済みのサンプルデータを読み込みます。サンプルファイルはwikiticker-2015-09-12-sampled.json.gzです。

コンソールの一番上の行にある「データの読み込み」をクリックします。表示されるウィンドウ(図B)で、「ローカルディスク」をクリックします。

図B

画像: Jack Wallen/TechRepublic。データを取得できるソースは複数あります。
画像: Jack Wallen/TechRepublic。データを取得できるソースは複数あります。

ウィンドウの右側にある [データの接続] をクリックし、表示されるサイドバー (図 C ) で、quickstart/tutorialベース ディレクトリとして を入力し、wikiticker-2015-09-12-sampled.json.gz[ファイル フィルター] セクションに入力します。

図C

画像: Jack Wallen/TechRepublic。データを取得できるソースは複数あります。
画像: Jack Wallen/TechRepublic。チュートリアルデータをコンソールに追加しています。

「適用」をクリックすると、メイン ウィンドウにかなりの量のデータが表示されます (図 D )。

図D

画像: Jack Wallen/TechRepublic。データが読み込まれました。
画像: Jack Wallen/TechRepublic。データが読み込まれました。

右下にある「次へ: データの解析」をクリックすると、より読みやすい形式でデータのリストが表示されます (図 E )。

図E

画像: Jack Wallen/TechRepublic。データの読み取りやすさが大幅に向上しました。
画像: Jack Wallen/TechRepublic。データの読み取りやすさが大幅に向上しました。

「次へ: 時間の解析」をクリックすると、特定のタイムスタンプに対するデータを表示できます (図 F )。

図F

画像: Jack Wallen/TechRepublic。タイムスタンプに従ってデータを並べ替える。
画像: Jack Wallen/TechRepublic。タイムスタンプに従ってデータを並べ替える。

「次へ: 変換」をクリックすると、列の値の行ごとの変換を実行して、新しい列を作成するか、既存の列を変更することができます。

データをクリックし続けると、いつでもクエリを実行し、必要に応じてデータをフィルタリングできます。「スキーマの設定」セクション(図G)では、クエリの粒度を指定したり、ディメンションや指標を追加したりすることもできます。

図G

画像: Jack Wallen/TechRepublic。インポートしたデータのスキーマを構成する。
画像: Jack Wallen/TechRepublic。インポートしたデータのスキーマを構成する。

これがApache Druidの基本機能のほぼすべてです。この強力なデータ分析プラットフォームの機能のほんの一部を紹介したに過ぎませんが、サンプルデータを操作してみることで、その動作をある程度理解できるはずです。

作業が完了したら、必ずターミナル ウィンドウに戻り、CTRL + C で Apache Druid サービスを停止してください。

Ubuntu に興味がありますか? TechRepublic AcademyのThe Mastering Linux Development Bundle をチェックしてください。

Jack Wallen によるビジネス プロフェッショナル向けの最新のテクノロジー アドバイスをすべて知るには、YouTube で TechRepublic の How To Make Tech Work を購読してください。

Tagged: