音声ユーザーインターフェース開発のベストプラクティス - TechRepublic

音声ユーザーインターフェース（VUI）とは、音声コマンドを使ってコンピューターやデバイスと対話できる技術です。宇宙船エンタープライズ号のブリッジに立つカーク船長がコンピューターに分析を依頼する場面を想像してみてください。かつてはSFの世界の産物だったVUIは、今日では地球上で最も急速に成長している技術の一つです。

毎月10億件の検索が音声検索で行われており、音声検索を利用する人の72%は毎日利用しています。Googleの音声技術は現在100以上の言語を認識し、最近の分析によると、自然言語処理スタックの精度は95%を超えています。VUIが普及と精度の面で飛躍的な進歩を遂げていることは否定できません。普及率の向上は精度の向上の結果であると主張する人もいるかもしれません。確かにその通りですが、それが全てではありません。

ジャンプ先:

VUIが将来を見据えたデジタル製品を実現する方法
VUIのベストプラクティス
適切なVUI技術の選び方

VUIが将来を見据えたデジタル製品を実現する方法

人間は話す能力を本能的に備えています。人類は5万年以上もの間、話し言葉でコミュニケーションをとってきました。平均して1分間に125～150語話すことができます。これは平均的なタイピング速度の3倍以上です。こう考えると、未来の世代がタイピングを学ぶこと自体がそもそも必要になるのか、と疑問に思うかもしれません。

参照:採用キット: バックエンド開発者(TechRepublic Premium)

デジタル製品やサービスを開発しているなら、VUIがロードマップに既に、あるいは将来的に盛り込まれる可能性が高いでしょう。20年前、アプリケーションに音声ユーザーインターフェースを追加するには、専門のエンジニアチームと高価なハードウェアが必要で、結果的に「Speak & Spell」のような音声になってしまうことが多かったのです。

今日では、Alexa Skills Kitなどを使えば、初心者でも1時間以内で最初の音声アプリケーションを構築できます。しかし、音声UIの成否を左右するのはテクノロジーだけではありません。デジタルサービスを次のレベルに引き上げる音声ユーザーインターフェースを構築するには、いくつかのベストプラクティスと哲学を理解する必要があります。

VUIのベストプラクティス

理想的なやりとりから始める

音声インタラクションの設計は、まずエンドツーエンドのダイアログフローをマッピングすることから始めましょう。まずはゴールデンパスから始め、次に分岐やエッジケースを埋めていきます。会話ツリーの行き止まりに注意してください。人間と話すときと同じように、気まずい沈黙は会話を台無しにします。

選択肢が増えても価値が増えるわけではない

ユーザーは最初は利用可能なオプションが明確に示されていないため、適切なオンボーディングが不可欠です。まずはインターフェースで何ができるかの概要から始めましょう。リストは短く、通常は3つ以下にしましょう。オプションの前に数字の識別子を付けることで、ユーザーが覚える手間が省けます。また、音声合成エンジンは通常、人間が読むよりもはるかに遅い速度で情報を読み上げるため、メニューオプションは簡潔な言葉で表現することが重要です。

文脈、文脈、文脈

プログラムでコンテキストを解読し維持することは、単一セッション内だけでなく複数セッションにまたがっても困難です。人間同士がやり取りをする際、私たちは多くの非言語的な手がかりを得ています。ピッチ、トーン、さらには表情までもが、追加のコンテキストを提供します。ほとんどの市販VUIソフトウェアは、これらのコンテキストの手がかりを認識しません。しかし興味深いことに、ほぼすべてのソフトウェアは、音声合成マークアップ言語（Speech synthesis markup language：SSML）を介して、応答に何らかの追加のコンテキストを伝えることができます。SSMLを使用すると、開発者は応答に間、ピッチ、さらには感情さえも取り入れることができ、VUIの会話感覚を高めることができます。

音声固有のエラー処理

VUIにおけるエラー処理には特有の課題があります。エラーメッセージは具体的で、ユーザーに次の対処方法を提示する必要があります。例えば、「申し訳ございませんが、その件についてどのようにお力添えすればよいか分かりません。念のため、以下の点についてサポートさせていただきます…」といった具合です。

参照: 採用キット: Python 開発者(TechRepublic Premium)

また、汎用的なtry-catch型のエラーハンドラがシステムレベルのエラーをTTSにまで押し上げてしまうことにも注意が必要です。音声アシスタントが「ソケットがリモートホストによって閉じられました」といった低レベルのよくあるエラーをユーザーに伝えるのは望ましくありません。VUIのデバッグでは、ログ記録が不可欠です。ログにはVUIが聞き取った内容が記録されるものであり、必ずしもユーザーが発した内容が記録されるわけではないことを覚えておいてください。

クラウドソーシングの発言

優れたVUIを作成する上で最も難しい点の一つは、ユーザーが同じことを尋ねる可能性のあるあらゆる異なる言い回しをモデルに学習させることです。すべてのバリエーションを自分で考え出すことは不可能ですし、アンケートは一般的にうまく機能しません。なぜなら、人の書き方は話し方と異なるからです。

代わりに、リリース時に適切な数のユーザー入力を把握するために、実際のユーザーを観察し、可能であれば記録する必要があります。観察するユーザーは、ターゲットユーザーを代表するユーザーであることを確認してください。医師は、整備士や兵士とは全く異なる速記や略語を使用します。

プライバシーとセキュリティを忘れないでください

VUIを開発する際には、プライバシーとセキュリティに関する懸念事項を理解する責任があります。市販のスマートスピーカーは常にウェイクワードをスキャンしています。しかし、一度起動すると、通常はすべての発言を記録して解読するため、コマンド間のやり取りは最大8秒かかり、その後受動的なリスニング状態に戻ります。

開発者は、特定のユースケースで必要となる可能性のある機密情報と、そのデータの取り扱いに関するポリシーや規制について認識しておく必要があります。また、情報の要求から実際に応答が発せられるまでの間に、誰が部屋に入ってくるかを知ることは不可能であることも念頭に置いてください。

適切なVUI技術の選び方

現在、音声ユーザーインターフェースの開発を迅速に開始するための選択肢は数多く存在します。特定のソリューションを選択する前に、非機能要件をしっかりと把握しておくことが重要です。

接続性
- デバイスは常にインターネットに接続されますか?
スピードと正確さ
- 翻訳はリアルタイムで行う必要がありますか?
- 速度と精度のトレードオフは何ですか?
ドメインデータモデル
- あなたのドメインのモデルはどの程度トレーニングされていますか?
- 文章全体を理解する必要がありますか、それともキーワードだけを取り出す必要がありますか?
フォールバック
- 音声入力が失敗した場合に備えて、キーボードやタッチスクリーンはありますか?
結果
- 音声コマンドを誤って処理すると、元に戻せないアクションが発生しますか?
環境
- ソリューションはどのような周囲条件下で動作する必要がありますか?

VUIは、人間とコンピュータのインタラクションにおける根本的な変化を表しています。音声駆動型アプリケーションを開発する際には、デザイナーと開発者はアプローチを再考する必要があります。音声ファーストで真に会話的な体験に注力すれば、顧客はきっと感謝してくれるでしょう。

インストール済みパッケージの一覧表示 - TechRepublic

Microsoft Surface アーカイブ - TechRepublic

DDoS対策でサイトが脆弱になる可能性 - TechRepublic

COVID-19：Workplaceアプリがアップデートされ、オフィス復帰をサポート - TechRepublic

音声ユーザーインターフェース開発のベストプラクティス - TechRepublic

VUIが将来を見据えたデジタル製品を実現する方法