Simple ML のリリースとスプレッドシート ユーザーへのビッグデータの影響

Simple ML のリリースとスプレッドシート ユーザーへのビッグデータの影響
Google Sheets スプレッドシートを開いて、新しい Simple ML 拡張機能の使い方を紹介します
画像: Google Workspace

先週、GoogleはTensorFlow Decision ForestsをベースにしたGoogleスプレッドシート向けアドオン「Simple ML for Sheets」のベータ版を発表・リリースしました。このリリースは、この種のアドオンとしては初となるもので、多くのシンプルな機械学習機能と一部の複雑な機械学習機能をGoogleスプレッドシートユーザーに直接提供します。

参照: 採用キット: 機械学習エンジニア (TechRepublic Premium)

Simple MLは、機械学習の知識が全くない人向けの機械学習ソリューションとして宣伝されてきましたが、提供される高度なタスク機能は、データサイエンティスト、機械学習の専門家、そして大規模なデータセットを扱うすべての人にとって価値あるものとなるでしょう。このリリースの詳細と、それが将来のスプレッドシートベースのデータと機械学習プロジェクトにどのような影響を与えるかについては、以下をお読みください。

ジャンプ先:

  • Simple MLリリースに関する概要
  • Simple ML はどのように機能しますか?
  • ビッグデータ駆動型プロジェクトにSimple MLを使用する
  • 複雑なユースケースでもSimple MLを活用

Simple MLリリースに関する概要

Simple ML for Sheetsは現在ベータ版でご利用いただけます。このGoogle Sheetsアドオンは、TensorFlow開発者グループによって開発され、機械学習の知識がなくてもSheetsユーザーが機械学習を利用できるようにしています。これは主に、事前学習済みのMLモデルやその他のノーコード機能によって実現されています。

参照:調査:ローコード/ノーコードプラットフォームの利用増加は開発者にとって脅威ではない(TechRepublic Premium)

この機械学習アドオンは、欠損値の予測と異常値の検出という2つの主要な機械学習タスクをサポートするように設計されています。ただし、Simple ML for Sheetsは、機械学習モデルのトレーニング、評価、分析といった、より高度なユースケースにも使用できます。特に、Simple MLを使って予測を行いたいデータサイエンティストや上級ユーザーにとっては、Simple MLの高度なタスクを使用する必要があるでしょう。

Simple ML の最も魅力的な機能は次のとおりです。

  • 自動化されたシンプルな ML 機能の初心者向けタスク
  • ML モデルのトレーニングと管理のための高度なタスク
  • ブラウザでのWebAssemblyによるモデルトレーニング
  • 表形式データセットのプロトタイプ作成のサポート
  • TensorFlow、Colab、TensorFlow Serving 向けのモデルエクスポート
  • C++、Go、JavaScript の互換性
  • 第三者とのデータ共有は行いません
  • モデルは Google ドライブに保存され、簡単にアクセスして共有できます

Simple ML はどのように機能しますか?

Simple ML for Sheets をアドオンライブラリにインストールすると、データセット内の欠損値を予測したり、異常値を特定したりできるようになります。ユーザーはまず、Google スプレッドシートでデータを開き、これらの 2 つのタスクのうち、プロジェクトに最適なものを選択します。

選択後、ユーザーはそのタスクを実行する必要があります。数秒以内に Simple ML の統計予測が返されることが予想されます。

欠損値を予測するために、Simple MLはデータセット内の欠損値ではない値を用いてモデルをトレーニングします。異常値を特定するためには、Simple MLはクロスバリデーションを用いて一連のモデルをトレーニングし、現在存在する値を予測します。そして、実際のデータと予測データの差異に基づいて、Simple MLはデータセット内の異常な部分を特定し、0%から100%の間の異常確率スコアを提供します。

参照: 機械学習: チートシート (TechRepublic)

そこから、ユーザーは ML によって生成されたモデルを確認し、データセットに必要な変更のガイドとして使用できます。

モデルは最初にGoogleドライブの「simple_ml_for_sheets」フォルダに保存されます。Simple MLが適切に動作するには、ユーザーが設定を更新する必要があります。そのため、Simple MLには以下の権限が付与されます。

  • Google ドライブのすべてのファイルを表示、編集、作成、削除します
  • Google スプレッドシートのすべてのシートを表示、編集、作成、削除します
  • Google アプリケーション内でサードパーティのウェブ コンテンツのプロンプトとサイドバーを表示および実行する

Simple ML を使うためのヒントとコツ

Simple ML は高速でかなり正確ですが、成功するためには、ユーザーがデータを設定し、新しく生成されたモデルを読み取る方法を理解することが依然として重要です。

まず、ユーザーは予測ML分析が、モデルのトレーニングに十分な規模のデータセットが提供された場合にのみ可能であることを理解する必要があります。価値のあるモデルを作成するには少なくとも20行のデータが必要ですが、100行以上のデータがあればより正確で、より正確なモデルを作成できる可能性が高くなります。

また、一般的に、Simple MLモデルによって生成される予測データは、まさに予測データであることを覚えておくことが重要です。真の欠損データ値に近づく可能性はありますが、ギャップを埋める前に、データサイエンスの専門家チームがモデルをレビューすることが重要です。

Simple MLのインストール方法

Sheets用のSimple MLをインストールするには、「拡張機能」タブに移動し、「アドオン」オプションにマウスオーバーして「アドオンを取得」をクリックします。そこからSimple MLを検索してインストールするのは非常に簡単です。

ビッグデータ駆動型プロジェクトにSimple MLを使用する

Simple MLは実にシンプルで、機械学習にあまり精通していないユーザー層を対象としていますが、ビッグデータや機械学習の専門家であれば、このツールを使ってデータセットや既存のモデルを管理し、そこから更なる洞察を引き出すことができます。このツールは非常に大規模なデータセットを管理できる柔軟性を備えており、ユーザーはSQLクエリを使わずに数百万行のデータに対してモデルを実行できます。また、Google BigQueryユーザーにとっても、このクラウドデータウェアハウスのインスタンス内のデータを分析できるため、便利なアドオンとなります。

参照: クラウド データ ウェアハウス ガイドとチェックリスト (TechRepublic Premium)

では、Simple MLはより複雑なビッグデータプロジェクトにどのように活用できるのでしょうか?ここでは、Simple MLがこのようなユーザー向けに提供する高度なタスクオプションをいくつかご紹介します。

  • モデルのトレーニング:このタスクでは、ユーザーは表形式で提供するトレーニング データ値を使用して独自の機械学習モデルをトレーニングできます。
  • 予測を行う:このタスクでは、すでにトレーニング済みのモデルに基づいて、欠損値だけでなく、各行の列の値を予測します。
  • モデルを評価する:このタスクでは、モデルの学習に使用されたラベルと指標に基づいて、学習済みモデルの品質を測定します。カテゴリラベル付きモデルの場合は、主に精度を測定します。数値ラベル付きモデルの場合は、RMSEなどの回帰指標に重点を置きます。
  • モデルを理解する:このタスクでは、ユーザーは以前のモデルに関するあらゆる事実を学ぶことができます。モデル理解ウィンドウには、トレーニング日、ターゲット列とソース列、品質、列統計、重要な入力特徴、予測に関する情報が表示されます。
  • モデルのエクスポート:エクスポートタスクを使用すると、TensorFlow、Colab、Tensorflow Servingで使用するモデルをエクスポートできます。C++、Go、JavaScriptユーザーはモデルを直接実行できます。

複雑なユースケースでもSimple MLを活用

Simple MLは主にシンプルな操作を想定して設計されているため、データの処理とモデルの高速生成に問題が発生することはありません。ただし、多くのツールと同様に、入力データの規模が大きくなると、データセットが大きくなるにつれて新たな問題が発生する可能性があります。

例えば、非常に大規模なデータセットの場合、モデルのトレーニングや予測の生成に数秒ではなく数分かかることがあります。テキストやその他の非構造化データを含むデータセットでは、処理時間がさらに長くなる可能性があります。

とはいえ、Simple MLはまだベータ版であり、定期的に最適化が行われています。Simple MLチームは、新しいテストユーザーやアルゴリズムの提案を歓迎しています。データサイエンティストの皆様にとって、今こそこのツールの仕組みやビジネスオペレーションへの導入方法を学ぶ絶好の機会です。

次に読む: トップデータモデリングツール (TechRepublic)

Tagged: