トピック — 人工知能
出版

SpreadsheetLLM プロジェクトは、生成 AI が解釈できる方法でスプレッドシートをエンコードします。
生成AIモデルにスプレッドシートを理解させるのは難しい場合があります。この問題を解決するため、Microsoftの研究者は7月12日にArxivに論文を発表し、大規模言語モデルがスプレッドシートを「読み取る」ことを可能にするエンコーディングフレームワーク「SpreadsheetLLM」について解説しました。
SpreadsheetLLMは「スプレッドシートのデータ管理と分析を変革し、よりインテリジェントで効率的なユーザーインタラクションへの道を開く」可能性があると研究者らは書いている。
SpreadsheetLLM のビジネスにおける利点の 1 つは、自然言語で AI モデルに質問することで、スプレッドシートの数式の使い方を学習することなく、数式を使用できることです。
LLM にとってスプレッドシートが課題となるのはなぜですか?
スプレッドシートは、いくつかの理由から LLM にとって課題となります。
- スプレッドシートは非常に大きくなる可能性があり、LLM が一度に処理できる文字数を超えることがあります。
- レポートで述べられているように、スプレッドシートは「2次元のレイアウトと構造」であり、LLM が得意とする「線形かつ順次的な入力」とは対照的です。
- LLM は通常、セル アドレスや特定のスプレッドシート形式を解釈するためのトレーニングを受けていません。
マイクロソフトの研究者は、スプレッドシートを解析するために複数のステップの手法を使用しました
SpreadsheetLLM には主に 2 つの部分があります。
- SheetCompressorは、スプレッドシートを LLM が理解できる形式に縮小するフレームワークです。
- Chain of Spreadsheet は、質問が提示されたときに「見る」べき圧縮されたスプレッドシートの適切な部分を識別し、応答を生成する方法を LLM に教える方法論です。

SheetCompressor には 3 つのモジュールがあります。
- LLM がスプレッドシート内の行と列を識別するのに役立つ構造アンカー。
- LLM がスプレッドシートを解釈するのにかかるトークンの数を削減する方法。
- 類似のセルをクラスター化することで効率を向上させる手法。
これらのモジュールを用いることで、研究チームはスプレッドシートのエンコーディングに必要なトークンを96%削減しました。これにより、LLMによるスプレッドシートの理解を支援するための他の主要な研究チームによる研究結果と比べて、わずか(12.3%)の改善が見られました。研究者たちは、以下のLLMを用いてスプレッドシート識別手法を試しました。
- OpenAI の GPT-4 と GPT-3.5。
- MetaのLlama 2とLlama 3。
- Microsoft の Phi-3。
- Mistral AI の Mistral-v2。
Chain of Spreadsheet 機能には GPT-4 を使用しました。
SpreadsheetLLM は Microsoft の AI の取り組みにとってどのような意味を持つのでしょうか?
ここでのMicrosoftの明らかな優位性は、多くのMicrosoft 365スイートアプリケーションで動作するAIアシスタント「Copilot」がExcelでより多くの機能を実行できるようになることです。SpreadsheetLLMは、生成AIを実用化するための継続的な取り組みを象徴しています。Excelの高度な機能のトレーニングを受けていない人々にExcelを開放することは、生成AIが進出するのに適したニッチ市場となる可能性があります。
参照: 貴社のビジネスがMicrosoft Copilotをどの程度活用しているかによって、貴社の業務に適したバージョン (ある場合) が決まります。
このマイクロソフトの研究の実際の使用法と今後のステップ
先行する一流研究チームの研究結果と比較して12.3%の改善は、今のところ経済的意義よりも学術的意義の方が大きい。生成AIは事実を捏造することで悪名高く、スプレッドシートに幻覚が連鎖すると、膨大な量のデータが役に立たなくなる可能性がある。研究者たちが指摘するように、法学修士(LLM)にスプレッドシートのフォーマット、つまりスプレッドシートの通常の外観と機能を理解しさせることと、LLMにスプレッドシートのセル内に理解可能で正確なデータを生成させることは異なる。
さらに、この方法では、答えを出すのに膨大な計算能力とLLMを複数回通す必要があります。さらに、職場のExcelウィザードを使えば、それほど多くのエネルギーを消費することなく、数分で答えを出すことができるかもしれません。
今後、研究チームは、セルの背景色などの詳細をエンコードする方法を取り入れ、セル内の単語が互いにどのように関連しているかについての LLM の理解を深めたいと考えています。
TechRepublic は、詳細情報を得るために Microsoft に問い合わせました。
こちらもご覧ください
- Microsoft Excelの代替となる無料ソフト8選
- Microsoft Copilot チートシート: メリット、価格、バージョン
- 英国規制当局、マイクロソフトとインフレクションAIの採用を「合併状況」で調査
- 人工知能:さらに読むべき記事

ミーガン・クラウス
メーガン・クラウスは、B2Bニュースおよび特集記事の執筆で10年の経験を有し、Manufacturing.netのライター、そして後に編集者として活躍しました。彼女のニュース記事や特集記事は、Military & Aerospace Electronics、Fierce Wireless、TechRepublic、eWeekに掲載されています。また、Security Intelligenceではサイバーセキュリティに関するニュースや特集記事の編集も担当しました。フェアリー・ディキンソン大学で英文学の学位を取得し、クリエイティブライティングを副専攻しました。