Apache Hadoop：チートシート - TechRepublic

アフィリエイトリンクまたはスポンサーシップを通じて、ベンダーから収益を得る場合があります。これにより、サイト上の商品配置が影響を受ける可能性がありますが、レビューの内容には影響しません。詳細は利用規約をご覧ください。

Hadoopは、人気の高いオープンソースの分散ストレージおよび処理フレームワークです。このフレームワーク入門では、商用ソリューション、パブリッククラウド上のHadoop、そしてビジネスにおける重要性について解説します。

組織が蓄積するデータプールは拡大の一途を辿っており、そのデータ処理には綿密な検討が必要です。ビッグデータのストレージおよび処理フレームワークであるHadoopは、もともとGoogleの2つの技術ホワイトペーパーに基づいて開発され、AdobeやTwitterといった、データ集約型企業にとって業界標準のソリューションへと成長しました。

TechRepublic の Hadoop チートシートは、人気のオープンソース分散ストレージおよび処理フレームワークの簡単な入門書です。このリソースは、Hadoop エコシステムに新たな開発が行われるたびに定期的に更新されます。

参照: TechRepublic のすべてのチートシートと賢い人向けガイド

エグゼクティブサマリー

Hadoop とは何ですか? Hadoop は、分散ストレージとビッグデータ処理用に設計されたオープンソースフレームワークです。
なぜHadoopが重要なのでしょうか? 1 回限りのタスクのデプロイメントでも、継続的な入力を伴うユースケースでも、Hadoop はデータを迅速に処理できます。
Hadoop は誰に影響を与えますか?大量のデータを扱う組織は、効率的なストレージと処理の第一選択肢として Hadoop を採用しています。
Hadoopはいつから利用可能になりますか？最初のバージョンは2006年4月にリリースされました。現在の安定バージョンはHadoop 2.8.0です。バージョン3.0.0-alpha4は2017年7月7日にリリースされ、バージョン3.0.0は2017年10月に一般公開される予定です。
Hadoop を入手するにはどうすればよいですか?継続的にデータを蓄積している組織では、パブリッククラウドプロバイダーが Hadoop サービスを提供していますが、独自の Hadoop 展開を構築することをお勧めします。

参照: オンラインコース: Hadoop 入門 (TechRepublic Academy)

Hadoop とは何ですか?

Hadoopは、Apache Software Foundationによって開発されたオープンソースフレームワークで、MapReduceプログラミングモデルを用いた分散ストレージとビッグデータ処理を目的として設計されています。Hadoopはコンピュータクラスタを用いて動作し、ファイルをブロックに分割して、特定のクラスタ内のノードに分散させます。Hadoopを使用することで、MapReduceジョブを関連データが格納されている特定のノードに委任することができ、シンプルなプログラミングモデルを用いてデータの並列処理を高速化できます。

Hadoopは特に拡張性に優れており、外部サービスがHadoop開発と連携することができます。Hadoopのコアプロジェクトには、MapReduce、Hadoop分散ファイルシステム（HDFS）、YARN（スケジューリングとリソース管理のためのフレームワーク）、Common（Hadoopモジュールの使用をサポートする共有ユーティリティセット）が含まれます。

その他の Hadoop 関連プロジェクトには次のようなものがあります。

Cassandra は、単一障害点のないスケーラブルなデータベースです。
非常に大きなテーブルをサポートする分散型ビッグデータストアである HBase。
Spark は、Hadoop のデータを処理する高速な汎用コンピューティングエンジンです。
ビッグデータ向けの高レベル並列計算フレームワークである Pig。
Hive は、データの要約とアドホッククエリを提供するデータウェアハウスシステムです。
機械学習およびデータマイニングシステムであるMahout
Ambari は、Hadoop クラスターの Web ベースの管理およびプロビジョニングツールであり、一部の非コアプラグインのサポートが含まれています。

追加リソース

Hadoop の創始者ダグ・カッティング氏がビッグデータを解き放つ近未来の技術について語る (ZDNet)
Hadoop をエンタープライズツールにする秘訣 (TechRepublic)
Sparkの急成長とHadoopの進化（Tech Pro Research）
Clouderaの新しいデータサイエンスツールは、企業のビッグデータと機械学習の促進を目指している（TechRepublic）

Hadoop が重要な理由は何ですか?

ユーザー生成データ、ユーザーアクティビティのログ記録、そしてそれらのログに基づいてメトリクスを生成するという必須タスクなどにより、多くの組織は日常的に途方もなく膨大な量のデータを生み出しています。Hadoopクラスターの導入は、従来のストレージおよび分析手法よりも効率的なデータ保存と操作手段です。SparkがMapReduceの人気に取って代わりつつある中、Hadoopのモジュール性はシステム設計の柔軟性を高めています。

参照：電子書籍「データサイエンティストとして成功するキャリアを築く方法」（TechRepublic）

Hadoopは、分析や修正が必要なアーカイブデータを持つ組織にとっても非常に有益です。ニューヨーク・タイムズの購読者が同紙の過去の号を閲覧できるサービスであるTimesMachineは、Hadoopを使用して構築されました。Amazon EC2、Hadoop、そしてカスタムコードを使用することで、405,000枚の大容量TIFF画像、405,000枚のXMLファイル、そして330万件のSGMLファイルを、わずか36時間足らずで810,000枚のPNG画像と405,000個のJavaScriptファイルに変換しました。

追加リソース

Hadoop エンジンベンチマーク: Spark、Impala、Hive、Presto の比較 (TechRepublic)
Hadoop 上の人工知能：それは意味があるか？（ZDNet）
開発者は火星人、運用担当者は金星人：分析でそのギャップを埋められるか？（ZDNet）

Hadoop は誰に影響を与えますか?

大量のデータを扱う組織は、効率的なストレージと処理を実現するために、通常、Hadoopを第一の選択肢として採用します。中でも最も有力なのはおそらくFacebookでしょう。同社は2012年に、最大規模のクラスタが100PBを超え、1日あたり0.5PB以上のペースで成長し、1日あたり6万件以上のHiveクエリが実行されていると発表しました。

Hadoopの長年の貢献者であるYahooは、「Hadoopを実行する4万台以上のコンピューターに10万個のCPUを搭載している」と報告しており、広告やウェブ検索の調査に利用されています。また、同じくHadoopに貢献しているTwitterは、「ツイート、ログファイル、その他多くの種類のデータの保存と処理」にHadoopを使用しています。日本のeコマース大手である楽天は、自社のレコメンデーションシステムのログ分析にHadoopを使用しています。

音楽アグリゲータの Last.fm (TechRepublic と Last.fm は CBS Interactive のブランド) には、チャート計算、ロイヤリティレポート、ログ分析、A/B テスト、データセットのマージ、数百万の音楽トラックのオーディオ機能の分析に使用される 100 ノードの Hadoop クラスターがあります。

追加リソース

ビッグデータとApache Hadoopのトレーニングバンドル（TechRepublic Academy）
ビッグデータを扱うための豚（TechRepublic Academy）
開発者が好きなテクノロジーと嫌いなテクノロジーについて意見が分かれる理由 (TechRepublic)
ビッグデータアーキテクチャについて企業が必ず問うべき6つの質問（TechRepublic）
処理需要を把握して Hadoop のパフォーマンスを最適化する方法 (TechRepublic)
Linux Foundation が Hadoop トレーニングを提供 (ZDNet)
オープンソースのビッグデータと DevOps ツール: 分析アプリケーションへの近道 (Tech Pro Research)

Hadoop はいつ利用可能になりますか?

Hadoop の最初のパブリックバージョンであるバージョン 0.1.0 は、2006 年 4 月にリリースされました。その翌月、Yahoo は 300 台のマシンのクラスターを導入し、2007 年 4 月には 1,000 台のマシンのクラスター 2 つに増加しました。Yahoo は 2008 年 2 月に、10,000 コアのクラスターを使用して検索インデックスを Hadoop に移行しました。

最初のHadoopサミットは2008年3月にカリフォルニア州サニーベールで開催されました。米国Hadoopサミットは毎年6月にカリフォルニア州サンノゼで開催されています。2014年からは、欧州Hadoopサミットが毎年4月に開催されています。

商用 Hadoop ベンダーの Cloudera は 2008 年 10 月に設立されました。競合企業の MapR は 2009 年 7 月に設立されました。2011 年 6 月、Yahoo のエンジニア 24 名が退社して独自の会社を設立し、Hortonworks が設立されました。

現在の安定バージョンである Hadoop 2.8.0 は、2017 年 3 月 22 日にリリースされました。バージョン 3.0.0-alpha4 は、2017 年 7 月 7 日にリリースされました。バージョン 3.0.0 は、2017 年 10 月に一般公開される予定です。

追加リソース

Hadoop 市場は転換点を迎えたか? (ZDNet)
Hadoop と NoSQL の導入によりビッグデータが急成長 (TechRepublic)
ビッグデータプロジェクトの失敗を避ける方法：5ステップガイド（TechRepublic）
一部のHadoopベンダーは、自社の最大の競合相手が誰なのか理解していない（TechRepublic）
Hadoopベンダーは耳を傾けている：Hortonworksは実用化へ（ZDNet）

Hadoop を入手するにはどうすればいいですか?

一般的に、Hadoopは、継続的にデータを処理・保存する必要がある組織向けに、データセンター内のハードウェアクラスタへの導入向けに設計されています。オープンソースプロジェクトであるHadoopは、Apache Foundationから無料で入手できます。Hortonworks、Cloudera、MapRなど、様々な組織が製品サポート付きのHadoopのカスタマイズバージョンも提供しています。

処理が必要な固定データセット（前述のニューヨーク・タイムズの例など）の場合、パブリッククラウドプロバイダーからHadoopを利用できます。Amazon Elastic MapReduceはHadoopのカスタマイズ版で、EC2とS3間のファイル転送を自動化し、Hiveもサポートしています。もちろん、標準のApache Hadoop自体もEC2とS3から直接実行できます。Microsoft Azure HDInsightは、Hortonworks HDPのカスタマイズされたデプロイメントです。Google Cloudでは、DataprocはSparkとHadoopのカスタマイズされたサービスで、bdutilを使用することでHortonworks、Cloudera、MapRのサポートを利用できます。

追加リソース