出版

アフィリエイトリンクまたはスポンサーシップを通じて、ベンダーから収益を得る場合があります。これにより、サイト上の商品配置が影響を受ける可能性がありますが、レビューの内容には影響しません。詳細は利用規約をご覧ください。
ビッグデータは従来のデータよりも予測可能性が低いため、モデルを構築する際には特別な考慮が必要です。以下に留意すべき点をいくつかご紹介します。

データモデリングは、企業データをビジネスプロセスのニーズに合わせて整理する複雑な科学です。データ同士が相互に関連し、ビジネスをサポートできるよう、論理的な関係を設計する必要があります。論理設計は、データを格納するストレージデバイス、データベース、ファイルなどを含む物理モデルに変換されます。
これまで、企業はデータ モデルの開発に SQL などのリレーショナル データベース テクノロジを使用してきました。これは、ビジネス プロセスの情報ニーズをサポートするために、データセットのキーとデータ型を柔軟にリンクするのにこのテクノロジが特に適しているためです。
残念ながら、現在管理対象データの大部分を占めるビッグデータは、リレーショナルデータベースでは動作しません。NoSQLのような非リレーショナルデータベースで動作します。そのため、ビッグデータにはモデルは必要ないという考え方があります。しかし、問題は、ビッグデータの潜在能力を最大限に活用するには、データモデリングが不可欠であるということです。ここでは、ビッグデータをアクセスしやすく効果的にモデリングするための6つのヒントをご紹介します。
ジャンプ先:
- 1. ビッグデータに従来のモデリング手法を押し付けない
- 2. スキーマではなくシステムを設計する
- 3. ビッグデータモデリングツールを探す
- 4. ビジネスの核となるデータに焦点を当てる
- 5. 質の高いデータを提供する
- 6. データへの重要な入り口を探す
1. ビッグデータに従来のモデリング手法を押し付けない
従来の固定レコードデータは、その成長が安定しており予測可能です。そのため、モデル化は比較的容易です。一方、ビッグデータの指数関数的な成長は予測不可能であり、その多様な形式やソースも同様です。サイトがビッグデータのモデル化を検討する際には、オープンで柔軟なデータインターフェースの構築に重点を置くべきです。なぜなら、新しいデータソースやデータ形式がいつ出現するかは予測できないからです。これは、従来の固定レコードデータの世界では優先事項ではありません。
2. スキーマではなくシステムを設計する
従来のデータ領域では、リレーショナルデータベーススキーマで、ビジネスにおける情報サポートに必要なデータ間の関係性やリンクのほとんどをカバーできます。しかし、ビッグデータではそうではありません。ビッグデータでは、データベースが存在しない、あるいはデータベーススキーマを必要としないNoSQLなどのデータベースが使用される場合があります。
そのため、ビッグデータモデルはデータベースではなくシステム上に構築する必要があります。ビッグデータモデルに含まれるべきシステムコンポーネントには、ビジネス情報要件、コーポレートガバナンスとセキュリティ、データ用に使用される物理ストレージ、あらゆる種類のデータに対応する統合とオープンインターフェース、そして多様なデータタイプを処理する能力が含まれます。
3. ビッグデータモデリングツールを探す
Hadoopをサポートする商用データモデリングツールは数多く存在し、Tableauのようなビッグデータレポートソフトウェアも存在します。ビッグデータツールと手法を検討する際には、IT意思決定者はビッグデータ用のデータモデル構築能力を要件の一つとして考慮する必要があります。
参照: Tableau トレーニング & 認定コース (TechRepublic アカデミー)
4. ビジネスの核となるデータに焦点を当てる
企業には毎日膨大なビッグデータが流入しますが、その多くは不要なデータです。これらすべてのデータを含むモデルを作成するのは無意味です。より良いアプローチは、企業にとって不可欠なビッグデータを特定し、そのデータのみをモデル化することです。
5. 質の高いデータを提供する
組織がデータの適切な定義と、データの取得元や目的などを説明する詳細なメタデータの開発に注力すれば、ビッグ データ用の優れたデータ モデルと関係を確立できます。各データについて詳しく知れば知るほど、ビジネスをサポートするデータ モデルに適切に配置できるようになります。
参照: データ品質を向上させるためのベストプラクティス (TechRepublic)
6. データへの重要な入り口を探す
今日のビッグデータにおいて最も一般的に使用されるベクトルの一つは、地理的な位置情報です。ビジネスや業界によっては、ユーザーが求めるビッグデータへの共通キーも存在します。データへのこれらの共通エントリポイントを特定できればできるほど、企業にとって重要な情報へのアクセスパスをサポートするデータモデルをより適切に設計できるようになります。
次に読む: 2022年のトップデータモデリングツール (TechRepublic)
こちらもご覧ください
- 2022年最高のデータ復旧ソフトウェア
- データサイエンティストになる方法:チートシート
- 採用キット: データアーキテクト
- ビッグデータ:さらに読むべき記事

メアリー・シャックレット
メアリー・E・シャックレットは、技術調査・市場開発会社であるトランスワールド・データの社長です。同社設立以前は、金融サービス企業TCCU, Inc.でマーケティング・技術担当シニアバイスプレジデント、コンピュータソフトウェア企業Summit Information Systemsで製品研究・ソフトウェア開発担当バイスプレジデント、半導体業界の多国籍製造企業FSI Internationalで戦略計画・技術担当バイスプレジデントを務めました。基調講演者であり、1,000本以上の論文、調査研究、技術出版物を出版しています。