
データサービスは、ビッグデータや複数のソースからのデータセットを活用する組織にとって貴重な資産となり得ます。幸いなことに、Amazonはデータ管理とクエリ処理のためのクラウドベースの製品を提供しています。
Amazon AthenaとAmazon Redshiftはどちらもユーザーがデータにアクセスして分析できるデータウェアハウスツールですが、機能や性能はそれぞれ異なります。ここでは、それぞれのソリューションを比較し、お客様のデータ処理ニーズに最適な製品を判断できるようお手伝いします。
参照: クラウド データ ウェアハウス ガイドとチェックリスト (TechRepublic Premium)
Amazon Athenaとは何ですか?
Amazon Athena は、大規模データ分析のためのクラウドベースのクエリサービスです。この製品を購入すると、標準 SQL を使用してデータセットを準備および分析したり、他のビジネスインテリジェンスツールと統合して機能を拡張したりできます。
Amazon Redshift とは何ですか?
Amazon Redshiftは、機械学習を用いてデータにアクセスし、分析できるデータウェアハウスツールです。SQLを使用して、構造化データと半構造化データの両方にアクセスし、分析できます。
データアクセス
Athena ソフトウェアは、Amazon S3、リレーショナル、非リレーショナル、オブジェクト、カスタムデータソースに保存されたデータにアクセスし、分析できます。Amazon S3 は複数の施設にまたがる重要なデータを保存しており、ユーザーは AWS Glue と統合して統合メタデータリポジトリを構築することもできます。Athena はデータサービスを自動的にクロールしてデータにアクセスし、データカタログにデータを取り込みます。その後、フルマネージド ETL 機能がデータを処理して分析用に準備します。Glue は、検出されたデータから新規および変更されたテーブルとパーティションの定義をプラットフォームコンソールに表示します。
AWS Lambdaで動作するAthenaデータソースコネクタを使用すると、Amazon DynamoDB、Apache HBase、Amazon DocumentDB、Amazon Redshift、AWS CloudWatch、AWS CloudWatch Metrics、そしてJDBC準拠のリレーショナルデータベースからデータにアクセスできます。Athena Query Federation SDKを使用すると、あらゆるデータソースと統合するためのコネクタを構築できます。Athenaは、Parquet、CSV、Avro、JSON、ORCなど、様々なデータ形式にアクセスするための複雑なデータ型とSerDeライブラリをサポートしています。
Redshiftは、Amazon S3、データウェアハウス、オペレーショナルデータベース、データレイク、サードパーティのデータセットから構造化データと半構造化データを活用し、実用的なインサイトを構築します。Redshiftのストリーミング機能により、ユーザーはSQLを使用して複数のKinesisデータストリームに同時に接続し、データを取り込むことができます。Apacheログ、TSV、JSON、CSV形式のデータを解析できます。ユーザーは、データ統合パートナーと連携してRedshiftデータウェアハウスにデータをロードおよび変換し、サードパーティソースのデータにアクセスできます。
さらに、このシステムは、クラウドネイティブ、従来型、コンテナ化、サーバーレス、ウェブサービスベース、イベントドリブンといった、あらゆるアプリケーションからデータにアクセスできます。Amazon Redshift Data API は、Java、Ruby、Go、Python、PHP、Node.js、C++ など、AWS SDK でサポートされているプログラミング言語とプラットフォームからデータベース接続とデータアクセスを可能にします。例えば、Amazon Kinesis Data Firehose はストリーミングデータを Amazon Redshift にロードし、ほぼリアルタイムの分析を迅速に行うことができます。
データ分析
Athena ユーザーは、データログ処理に加えて、データのアドホック分析を実行できます。また、ソフトウェアは自動的にスケーリングするため、インタラクティブなクエリを並列実行して、より大規模なデータセットの処理と分析を高速化できます。
標準SQLを使用してクエリを実行することで、ユーザーはAmazon S3内で直接データを分析できます。AthenaはPresto SQLクエリエンジンを使用して低レイテンシーのデータ分析を実現し、Amazon S3内の大規模なデータセットに対してANSI SQLを使用してクエリを実行できます。SQL構文を使用して複数のソースにまたがるデータを結合し、高速分析を行い、結果をS3に保存できます。さらに、JDBCドライバーを介してBI製品と統合することで、ユーザーはさらに多くの外部機能を活用できます。
アナリストはSQLを使用することで、RedshiftのAWS設計ハードウェアと機械学習のメリットを活用し、高品質なパフォーマンスで実用的なインサイトを得ることができます。Redshiftシステムは、Amazon S3にあるエクサバイト規模のデータを分析し、分析クエリを実行できます。さらに、異常検知、機械学習ベースの予測、What-if分析といったアドホックなビジネス分析を実行することで、データに関する貴重な情報を提供することができます。
このシステムは、標準的なスカラーデータ型に対応したネイティブの高度な分析処理ソリューションも備えています。これには、空間データ、HyperLogLogスケッチ、DATEおよびTIMEデータ型、半構造化データの処理に対するネイティブサポートが含まれます。データ分析の可視化に関しては、RedshiftのQuery Editor v2機能により、クエリ結果の確認、データの視覚的なロード、スキーマとテーブルの作成が可能です。さらに、外部のBIパートナーのソリューションと統合することで、分析機能を拡張することも可能です。
独自の機能と特徴
Athenaはサーバーレス製品であり、構成、ソフトウェアアップデート、障害、スケーリングを自動で処理するため、インフラストラクチャ管理は不要です。AthenaのSQLクエリをSageMakerの機械学習モデルと組み合わせることで、売上予測、顧客コホート分析、異常検出といった高度なインサイトを得ることができます。
Athena は、AWS Identity and Access Management ポリシー、アクセスコントロールリスト、Amazon S3 バケットポリシーによって保護されています。つまり、ユーザーは S3 バケットの制御、S3 データへのアクセス管理、Athena 経由の S3 データへのクエリ制限、S3 内の暗号化されたデータのクエリ、そして暗号化された結果の S3 への書き戻しが可能です。Athena はサーバー側暗号化とクライアント側暗号化をサポートしています。Athena をご利用のお客様は、各クエリでスキャンされたデータ量に対してのみ料金をお支払いいただきます。そのため、データの圧縮、パーティション分割、または列指向形式への変換によってクエリ実行時のスキャンデータ量を削減し、コストを削減できます。
参照: 電子データ廃棄ポリシー (TechRepublic Premium)
Redshiftは、高いパフォーマンスと速度を実現する自動最適化機能を備えています。ギガバイトからペタバイトまでのデータセットに対して、数千ものクエリを一度に処理できます。これは、列指向ストレージ、ゾーンマップ、データ圧縮を活用することで、クエリ処理に必要な入出力量を削減することで実現しています。Redshiftは機械学習を活用し、メモリと同時実行性に関するワークロード管理を自動化することで、クエリスループットを最大化します。
ユーザーは、クエリの優先度設定、データウェアハウス内のノード数やノードタイプの変更、エンドツーエンド暗号化設定の調整など、さまざまな側面や機能を制御できます。Amazon Redshiftの料金は、ユーザーの機能とニーズに基づいて決定されます。ユーザーのデータサイズ、成長、そして必要なパフォーマンスに合わせて、様々なノードタイプが提供されています。ユーザーは、従量課金制でニーズに最適なクラスター構成を選択したり、サービスに基づいた追加の支払いオプションを利用したりすることができます。
あなたにとって最適なデータ ウェアハウス ソリューションはどれですか?
組織に最適なデータウェアハウスソリューションを決定する際には、考慮すべき要素がいくつかあります。例えば、サードパーティ製アプリケーションの利用を必要とする製品は、組織がデータ生成に使用しているツールと接続できる必要があります。そのため、選択したデータウェアハウスソリューション内のそれぞれのソースからデータセットにアクセスできることを確認してください。
さらに、組織のユースケースとニーズを考慮することで、どのオプションが最も適した機能と性能を備えているかを判断するのに役立ちます。例えば、複数のデータソースから複雑なクエリを処理するためにソリューションを頻繁に利用したい場合は、Redshiftの方が適している可能性があります。一方、製品の使用頻度が低く、データセットのサイズが小さい場合は、Athenaのソフトウェアの方がニーズに合った経済的な選択肢となる可能性があります。組織の特性と要件を分析することで、各製品の機能と比較し、最適なデータウェアハウスオプションを的確に判断できます。