
企業のデジタルトランスフォーメーションが世界中で急速に進んでいるにもかかわらず、文書は依然として多くの企業にとって中心的な存在であり、残念ながら、その管理は依然として完全に手作業によるプロセスのままです。これは、あらゆるナレッジワーカーの日常的なワークフローの一部となっています。
参照: ドキュメント保持ポリシー (TechRepublic Premium)
構造化された性質にもかかわらず、ドキュメントの柔軟性により、ビジネス プロセスの自動化が難しく、複数の基幹業務アプリケーションからデータを取得してドキュメントに挿入するには、画面からドキュメントへ、そして多くの場合、ドキュメントを受け取ったら再び画面に戻るという、カット アンド ペーストを行う必要があります。
2022年10月のIgniteで発表されたMicrosoft Syntexは、SharePointにドキュメント処理ツールを追加することで、こうした煩雑な手作業の課題を解決するソリューションです。このソリューションは機械学習を活用してドキュメントの作成と解析を支援し、手作業によるプロセスを人間によるガイドとソフトウェアのチェックへと変革します。同時に、法規制や契約上の要件も満たします。このSyntexの詳細な解説では、コンテンツAIと、このリリースの現在のユースケースの一部をご紹介します。
ジャンプ先:
- コンテンツ AI とは何ですか?
- サービスとしてのドキュメント理解
- Microsoft Syntex のユースケース
- SyntexとSharePointの将来
コンテンツ AI とは何ですか?
コンテンツAIという概念は、私たちが生成する多種多様なドキュメントと、それらに含まれる多くの場合非構造化されている情報をどのように処理するかという点で、非常に興味深いものです。Syntexのようなシステムは、データのコンテキストを推測し、処理、抽出、要約して構造化された形式で提供する必要があります。また、ドキュメントからテンプレートを作成し、ドキュメント作成を自動化する機能も必要です。
参照: 人工知能: チートシート (TechRepublic)
このプロセスの中核となるのは、コンテンツ理解のために設計された一連の機械学習モデルです。SharePointドキュメントライブラリで動作するように設計されたこれらの事前構築済みモデルは、AzureのCognitive Servicesで使用されるモデルに類似しており、独自のコンテンツでトレーニングできるカスタムモデルも備えています。
Microsoft Syntex のカスタム モデル
最も興味深いのはカスタムモデルです。Syntexが非構造化コンテンツをどのように扱い、ドキュメント処理と作成をサポートするかの枠組みとなるのは、カスタムモデルです。カスタムモデルは、学習手法を用いてモデルを学習します。学習プロセスの一環として、既存のドキュメントにラベルを付けることで、主要なコンテンツ要素を識別します。非構造化情報を扱う上で重要なのは、ドキュメントの重要な要素を識別するキーフレーズとパターンを提示することです。
参照: 非構造化データのデータ品質を向上させる 5 つのヒント (TechRepublic)
私たちが扱う非構造化文書は、多くの場合、正式な手紙や契約書であり、これらは構造が異なりますが、特定のビジネス上の意味を持つ文書間で共通する特定のフレーズや構造を持っています。
この最後のポイントは最も重要です。日付や価格といった利用可能な形式でデータを抽出するためのコンテキストを提供するからです。モデルに、単語セットが特定の意味を持ち、使用すべきデータと関連付けられていることを学習させることで、キーフレーズやコンテンツ形式のバリエーションを識別するモデルを構築し始めることができます。
サービスとしてのドキュメント理解
MicrosoftのCognitive Services AIプラットフォームに注目している方は、ドキュメント理解サービスに出会ったことがあるでしょう。これは、Syntexの非構造化ドキュメント処理モデルの前身です。ドキュメント理解を機能させるには、SharePointコンテンツセンターからドキュメントを選択してモデルをトレーニングし、分類器と抽出器という2種類のツールを作成する必要があります。
参照: 採用キット: CRM 開発者 (TechRepublic Premium)
分類子は、ライブラリにロードされたドキュメントを識別するために使用されます。例えば、ライブラリにロードされたすべての提案依頼書(RFP)ドキュメントを検索する分類子を作成できます。抽出子はドキュメント内の主要なデータを識別し、そのデータを外部アプリケーションに提供します。例えば、抽出子はドキュメントライブラリ内のRFPを依頼した顧客の名前を使用して、その連絡先情報をCRMシステムに見込み客として追加できます。
Microsoft Syntex のユースケース
Microsoft Syntexは、ドキュメントを整理、ラベル付けし、より深く理解するために、様々な方法で活用できます。Syntexの最も一般的なビジネスユースケースをいくつかご紹介します。
SharePoint のドキュメントに機械学習を追加する
分類器の作成
分類器を作成すると、識別されたすべてのドキュメントに添付される新しいSharePointコンテンツタイプが作成されます。トレーニングは非常に簡単で、モデルの構築に使用できる適切なドキュメントを選択することから始まります。トレーニングプロセスでは、識別しようとしている種類のドキュメントにラベルを付ける必要があり、少なくとも5つの肯定的なサンプルドキュメントと1つの否定的なサンプルドキュメントが必要です。
次に、これらの文書を特定の種類として識別する理由を説明し、使用されているキーフレーズと単語を列挙する必要があります。システムはこれをモデルの一部として使用し、すべてのサンプル文書と正しく一致するかどうかを確認します。一致しない場合は、詳細を追加してトレーニングプロセスを再度実行してください。
トレーニングプロセスは比較的短時間で完了します。完了したら、他のドキュメントでモデルをテストし、分類器の有効性を確認できます。多くの機械学習システムと同様に、最初から正しく動作するとは期待しないでください。ドキュメントに適したモデルを構築するには、このループを複数回実行する必要がある場合があります。
抽出器の作成
抽出ツールの構築プロセスも同様で、ファイルから抽出したいデータにラベルを付ける作業が必要です。ここでは、ページ上の情報を、必要な情報ごとに個別のモデルで強調表示する必要があります。
モデルでより複雑なルールが必要な場合や、重複を回避する必要がある場合は、抽出子を調整できます。使用中の抽出子は、SharePointドキュメントライブラリの列にデータを追加し、SharePoint APIを使用して他のアプリケーションに渡すことができます。
コンテンツテンプレートの適用
Microsoftは、ドキュメントで使用される多くの一般的なコンテンツ形式を網羅したテンプレートを使用することで、分類器と抽出器の両方の説明作成を簡素化するツールを提供しています。例えば、ドキュメント内に表示される様々なデータのバリエーションをすべて追加する代わりに、適切な日付テンプレートを選択して説明に追加することができます。
重要な金融データの種類や、国際電話番号やメールアドレスを抽出する方法などを含む、豊富なテンプレートが用意されています。メールアドレスの場合、データの所有者が送信者か受信者かを認識するように設定できます。
SyntexとPower Platformを使用したドキュメントの生成
Syntexのドキュメントモデルはドキュメント生成にも使用でき、使い慣れたデータソースからMicrosoftが「モダンテンプレート」と呼ぶテンプレートを作成できます。既存のWord文書をSharePointにアップロードし、SyntexのTemplate Studioを使用して基本ドキュメント構造にフィールドを追加することで、テンプレートを生成できます。これらのフィールドはSharePointのリストまたはライブラリにリンクできるため、ドキュメント作成を自動化できます。
参照: CIO のためのローコード プラットフォーム ガイド (TechRepublic Premium)
これは柔軟なドキュメント作成ツールではなく、差し込み印刷に代わる最新のローコード代替ツールです。Syntexが管理する最新のテンプレートは、Power Automateフローの出力として利用でき、様々な業務システムからデータを取得し、契約書、請求書、招待状といった一般的なドキュメントを生成することができます。これらのドキュメントでは、フォーマットは変わりませんが、内容は変化します。
テンプレートを作成して公開すると、Syntex は SharePoint リストから新しい値を追加したり、可能な場合は一部の値を自動的に入力したりするためのフレームワークを提供します。
あるいは、Power Automate アクションを使用してプロセスを自動化することもできます。例えば、Dynamics 365 に新しい売上が記録されたときに新しい契約書を自動的に作成したり、Azure Active Directory に新しい名前が追加されたときに従業員ハンドブックを生成したりすることができます。
SyntexとSharePointの将来
Microsoft が Syntex でドキュメントを自動化する大きな計画を立てていることは明らかですが、現在のプレビューは、他の機械学習を活用したドキュメント処理サービスと比較するとまだかなり制限されています。
参照: 人工知能倫理ポリシー (TechRepublic Premium)
SharePoint上に構築することは非常に理にかなっています。SharePointは重要なエンタープライズコンテンツ管理システムであるため、Syntexのドキュメント処理・作成ハブをSharePoint上に構築することは、既存の役割と非常によく合致し、SharePointの将来的な役割にとって興味深い方向性を示しています。
次に読む: Microsoft Project の代替となる 8 つのベストソリューション (無料版と有料版) (TechRepublic)