出版

データサイエンティストは、データリポジトリにどのデータを含めるかを決定する必要があります。この意思決定プロセスを容易にするために、データファネルをコントロールするためのヒントを学びましょう。

2022年現在、世界中で毎日250京バイトもの新しいデータが生成されています。これらのデータの一部は分析に役立つ一方で、時間がかかり、選別が困難な場合があります。効果的なデータファネルを構築することで、必要なデータをより簡単に絞り込むことができます。
参照: 採用キット: データベースエンジニア(TechRepublic Premium)
データ ファンネルとは何ですか?
データ ファンネルとは、マスター データ リポジトリに許可するデータの量を絞り込むことを指します。
データファネルを理解する良い方法は、人事ツールがソフトウェアを用いて求職者の履歴書をスクリーニングする際に適用する採用ファネルと比較することです。人事部門は、募集職種の要件を分析ソフトウェアに入力し、分析ソフトウェアは受信した履歴書をスクリーニングすることで、特定の職種に応募する応募者の小規模なデータファネルを作成します。これにより、人事部門と面接担当者は、履歴書を手作業でファネルに送る手間を省き、より重要なタスクに集中できるようになります。
ファネル化はデータにも有効です。ある事例では、特定の分子の抗疾患効果を研究していたライフサイエンス企業が、その分子を具体的に言及していない研究データソースをすべて排除しました。その目的は、ストレージと処理にかかる時間を節約し、より早く洞察を得ることでした。この企業では、不要なデータをすべて除外することは効果的でしたが、データファネルを制御するには、必要なデータ量と、保存・処理できるデータ量のバランスを取ることが重要です。
どのデータが重要かをどのように判断しますか?
社内かクラウドかを問わず、ストレージと処理にかかる膨大なコストにより、企業はビジネス分析に必要なデータの量を正確に評価する必要に迫られています。
場合によっては、どのデータを捨てるかを決めるのは簡単です。ネットワークやマシンハンドシェイクのノイズはデータに含まれたくないでしょうが、どの主題関連データを除外するかを決めるのは困難です。また、除外されたデータのせいで、分析チームが重要な洞察を見逃してしまうリスクもあります。
たとえば、英国のある小売業者は、通常収集するデータを使用していた場合、夫がサッカーの試合に出ている間に、在宅の主婦がオンラインでの購入の大部分を行っていることに気付かなかったかもしれない。
このような予期せぬが影響力のある洞察の例は、IT グループとエンド ビジネス グループが、受信データのファネルをどの程度絞り込むかを決定する際に注意する必要がある理由です。
データファネルを制御するための3つのベストプラクティス
分析がサポートしているユースケースと、必要と思われるデータの概要を説明します。
これはIT/データサイエンスとエンドユーザーの共同作業であるべきです。売上や収益データを分析する際に、ソーシャルメディア上の製品に関する苦情を考慮しますか?また、ニューヨークの医療サービスエリアの疾病率を研究する場合、カリフォルニアで何が起こっているかは気にしますか?
分析に必要な精度を決定する
分析精度のゴールドスタンダードは、人間の専門家が結論付けるものと比較して、分析精度が少なくとも 95% に達する必要があるということですが、常に 95% が必要なのでしょうか?
特定の患者の健康状態に基づいて医療診断の可能性を評価する場合は 95% の精度が必要になる可能性がありますが、20 年後の気候条件がどうなるかを予測する場合にのみ 70% の精度が必要になる可能性があります。
精度の要件はデータ ファネルに影響を及ぼし、一般的で長期的な傾向のみを探している場合は、より多くのデータを除外してファネルを絞り込むことができる可能性があります。
定期的に分析の精度をテストする
分析を最初に実装したときに 95% の精度を示したものの、時間が経つにつれて 80% に低下した場合は、使用しているデータを再確認し、データ ファネルを再調整することが適切です。
おそらく、当初は利用できなかった新しいデータソースが利用可能になり、活用すべきでしょう。これらのデータソースを追加するとデータファネルは広がりますが、精度が向上するのであれば、データファネルの拡張はコストに見合う価値があります。
こちらもご覧ください
- 2022年のベストETLツールとソフトウェア
- 2022年最高のデータ復旧ソフトウェア
- 採用キット: データアーキテクト
- ビッグデータ:さらに読むべき記事

メアリー・シャックレット
メアリー・E・シャックレットは、技術調査・市場開発会社であるトランスワールド・データの社長です。同社設立以前は、金融サービス企業TCCU, Inc.でマーケティング・技術担当シニアバイスプレジデント、コンピュータソフトウェア企業Summit Information Systemsで製品研究・ソフトウェア開発担当バイスプレジデント、半導体業界の多国籍製造企業FSI Internationalで戦略計画・技術担当バイスプレジデントを務めました。基調講演者であり、1,000本以上の論文、調査研究、技術出版物を出版しています。