Laboro.AIコラム

「VUI」と、もっと大切な“UI”=Use Imagination

2022.5.6
株式会社Laboro.AI　マーケティング・ディレクター　和田崇

概　要

PCやスマートフォンなどのデジタルデバイスの操作画面やその手段である、UI（User Interface：ユーザーインターフェース）。近年注目を集めているのが、PCのマウスを使った操作や指によるタップ操作と比べても多くのメリットがあると言われる、音声による操作「VUI（Voice User Interface）」です。ただ、VUIは決して全ての操作・入力環境をカバーするものではありません。「どのUIが最も優れているのか」––それは、”UI”＝Use Imagination：想像力のフル活用）によって初めて見えてくるものです。今回のコラムでは、VUIの特徴やこれまでのUIの進化過程を踏まえつつ、多数あるUI選定に必要なことについて考えを巡らせていきます。

目　次

・VUI（Voice User Interface）と、UIの進化
　・CUI（Character User Interface）
　・GUI（Graphical User Interface）
　・NUI（Natural User Interface）
　・OUI（Organic User Interface）
・VUIの用途と、その仕組み
・ユーザーにとってのVUIのメリット
　・操作入力の手間ヒマが少ない
　・両手や目線がフリーになる
・ユーザーにとってのVUIのデメリット
　・自分の音声を他の人に聞かれてしまう
　・ユーザー環境によって認識精度が落ちる
・VUIの展望
・もう一つの”UI”「ユーザーを想像する」こと

VUI（Voice User Interface）と、UIの進化

VUI（Voice User Interface）とは、PCやスマートフォンなどのデジタルデバイスの操作画面や操作方法であるUIの中で、声を用いて操作するものを指します。身近な例では、iPhoneのSiriを代表する音声アシスタントが挙げられます。

近年VUIが注目されている背景のひとつには、AI技術を活用した音声認識技術の精度が向上してきていることが挙げられます。とくにディープラーニングを中心にAI技術が発達してきたことによって、音声認識の精度向上はもちろんのこと、認識した音声をテキスト情報として処理する自然言語処理の技術が実用的なレベルになり、AppleのSiriやAmazonのAlexa、Google Assistantをはじめ、様々な音声アシスタント製品が登場していることも近年の傾向です。

そもそもUIとは、デジタルデバイスの操作画面や操作箇所または入力方法や入力手段の総称のようなものですが、さまざまなタイプが存在し、技術進化とともにその利便性が高められながら進化してきました。

CUI（Character User Interface）

「Character（キャラクター）」は、日本語だとあまり馴染みがないかも知れませんが、英数字などの「文字」のことで、CUIとは、今では当たり前のように行われている文字入力によってデバイスを操作する方法です。コンピューターが登場した初期から存在するオーソドックスなUIではありますが、現在でも各種プログラミングやWindowsのコマンドプロンプトなど、今もなお用いられているUIの一つです。

GUI（Graphical User Interface）

CUIの次に登場したUIが、グラフィックによってデバイスを操作するGUI（Graphical User Interface）です。一見イメージが湧きにくいかも知れませんが、PCのデスクトップ上に並んだアイコンをクリックしてデバイスという操作方法はGUIの代表例で、現在でも日常的に活躍しているUIです。

CUIでは原則、決まったプログラミング言語でデバイスに対する指示を入力することから専門的な知識が必要である上、ルールに従った入力手順が求められるため、一般のユーザーにとっては決してハードルが低いものではありませんでした。その点、GUIのような直感的な操作を可能とするUIが登場したことは、PCをはじめとするデジタルデバイスを一般家庭にも広く普及させることに貢献したことに加え、UIの重要性を社会的に認知させることにもなりました。

NUI（Natural User Interface）

近年身近なUIとして普及し、様々なデジタルプロダクトにも搭載されるようになったのがNUI（Natural Interface）です。「Natural」つまり人にとってより日常動作に近い自然な方法でデバイスを操作することを目的にしたUIで、スマートフォンのタップ操作やスライド操作、ATMや券売機のタッチパネル操作、Nintendo Switchのコントローラーのようなジェスチャー操作が代表的な例ですが、もちろん今回のコラムのテーマである音声操作、VUIもこのNUIの一種です。

「五感によるUI」とも言われ、いまの時代にまさに主流になっているUIがこのNUIですが、その台頭の背景には赤外線センサーやBluetooth、モーションセンサーなど、各種センサーの技術向上が挙げられ、マウス操作が中心だったGUIの時代に比べると、その操作はさらに直感的でわかりやすい方法へと進化してきています。

OUI（Organic User Interface）

「Natural」に「Organic」とまるで野菜のようですが、有機を意味する「Organic」は言い換えると、“そのモノの特性に本質的に由来する”といった意味になります。OUI（Organic User Interface）は、言ってみればデジタルデバイスが操作画面といった“操作や入力のツール”としてではなく、まるでそれ自体を操作しているかのような“操作対象”になってしまうような概念です。OUIは、実は2008年頃から提唱されてきている概念ではあるものの、現段階で完全にはこの領域に達していると言い切れず、近未来のUIの姿だと言えます。

よくSF映画で３D表示されたホログラムを主人公が手で掴んだり、投げたりして操作するシーンが登場しますが、まさにOUIの大きな特徴として挙げられるのが「３次元操作」です。現在種集のデジタルデバイスの画面のUIのほとんどは縦・横の２次元で開発されてれていますが、OUIではこれに奥行きも含めた３次元でのUIがベースになります。近年、擬似的ではあるもののAR（Augumented Reality：拡張現実）やVR（Virtual Reality：仮想現実）、またプロジェクションマッピングを活用したUIも登場、３次元空間で立体的な絵を描くアーティストが登場するなども話題になっていますが、その実現はそう遠くはないのかも知れません。

VUIの用途と、その仕組み

さて話を現代に戻すと、近年VUIに関連する技術の高度化を背景にさまざまな製品やサービスが登場しています。前述した音声アシスタント製品はその代表格で、GAFAM（Google、Amazon、Facebook（Meta）、Apple、Microsoft）のIT Big５がこぞって、スマートフォン搭載のVUIの他、スマートスピーカーを発売しています。その用途は、ニュース・音楽・ライフスタイルなどの各種情報コンテンツの取得、スマート家電の操作、音声ナビゲーションなど様々です。

VUIを実現するためにさまざまなセンサーや認識・解析技術が活用されていますが、その中でも欠かせない技術が音声認識や自然言語処理に関する技術です。とくにAI技術、具体的には機械学習・ディープラーニング技術進化の恩恵は大きく、入力マイクを通して取得されるデータから人の音声を抽出し、国や地域ごとに異なる言葉を認識し、その内容から適した応答につなげることが可能になっています。

音声認識については、以下のコラムでもご紹介しています。
Laboro.AI コラム：音声認識AIのいま。その技術や事例を知る。

ユーザーにとってのVUIのメリット

言わずもがな部分が多くもありますが、ユーザー目線に立った時、VUIはCUIやGUIと比べると、以下のようなメリットが考えられます。

操作入力の手間ヒマが少ない

音声だけでデバイス操作が可能になるVUIは、これまでのUIと比べて一つの操作を達成するための手間ヒマが圧倒的に少ないことが特徴です。例えば、目的地への最短ルートを調べる場合、マウスやキーボードを使ったPC操作が必要となるGUIではインターネットブラウザでマップを開いて目的地を入力する、あるいは公共交通機関のWebサイトなどを検索して補足的な情報を集める必要もあるかもしれません。スマートフォン操作のような一部のNUIでも、手順としては似たような内容になるはずです。

一方のVUIでは、音声アシスタントを立ち上げさえすれば、日常会話をするように「◯◯への行き方を教えて」とだけ伝えれば、デバイス側でデータベースにアクセスし、必要な情報を探索、自動音声で回答してくれます。

両手や目線がフリーになる

GUIやNUIでは多くの場合で手を使った動作による操作が必要であると同時に、目線もディスプレイに向けておく必要があります。一方、VUIでは口さえ動かして話しかければいいため、料理をしながらレシピをチェックする、運転中にナビを音声で操作するといったように、主たる動作と並行してデバイスを操作することが大きなメリットです。

ユーザーにとってのVUIのデメリット

便利な面がある一方で、VUIは技術的に発展途上であることもあり、以下のようなデメリットもあるのが実際です。

自分の音声を他の人に聞かれてしまう

日本の文化的な側面も関係していますが、公共の場所で声を発することへの抵抗感は依然として強く、VUIが浸透しにくい理由のひとつとなっているようです。VUIで先行しているアメリカなどでは公共の場所で声を発する抵抗感が日本より低いせいか、デバイスへ話しかけるシーンも比較すると多く感じられます。

ユーザー環境によって認識精度が落ちる

上で触れたように、確かに音声認識技術や自然言語処理技術はその精度が向上はしてきているものの完璧なものではありません。例えば、都会の交通量の多い環境では当然ながら雑音の音量が大きく、正確に人の声が認識されにくいですし、一部の言語や方言、さらには専門用語などによっては上手く認識されず、誤った入力がされることも少なくありません。

音声認識の精度を上げるための「音声分離」について、以下のコラムでご紹介しています。
Laboro.AI コラム：声や音を聞き分ける、『音源分離』とは

VUIの展望

ユーザーの入力環境を向上させるように進化してきたVUIですが、その恩恵は単に利便性を向上させるというだけでなく、読み書きができない方々や手が不自由な方々のデバイス入力をサポートするという点でも期待が持たれます。日本では実感が少ないかもしれませんが、識字率が高くない国ではVUIによって初めてインターネットに触れられる層も少なくなく、こうした地域での活用が見込まれるほか、企業にとっては新たな市場の開拓にもつながるとされています。

また、海外ではユーザーとの会話によるインタラクションをベースにしたボイス広告も登場しています。この広告では、従来のように押し売り的に商品を訴求するのではなく、ユーザーの興味関心度やその理由なども尋ねることでより適したレコメンデーションを実現しているとのことです。

様々な用途で期待されるVUI市場。今後さらなる普及と拡大が期待され、ユーザーにとっても新たな生活様式を提案するキーテクノロジーになっていくはずです。

出展：IT media「音声の時代に起きること――電通イージス・ネットワーク iProspectのエキスパートが語る」

もう一つの”UI”「ユーザーを想像する」こと

今回のコラムではUIの進化過程を振り返るとともに、VUIに焦点を当て、そのメリット・デメリットや展望について触れてきました。前述のようにVUI、さらにはOUIと今後ますますのユーザーインターフェイス環境の向上が期待されるわけですが、実際それを提供する企業にとって大切なことは、「新しいUI技術を追い掛け採用する」ということではなく、「自社が提供する商品サービスの利用シーンを想像する」ということです。

VUIは確かにユーザーの手間ヒマを少なくする側面も考えられます。ですが、極端な例ではあるものの、例えば仕事でのPC操作の全てをVUIベースにしようとするものなら、オフィス中が声で溢れて大変な騒ぎになるどころか、終業の時間にはユーザーの喉はカラカラになっていることでしょう。また、生命と隣り合わせの医療現場でもしシステムが誤って音声を認識し、医療システムが誤作動する事態を招くなど心配されます。さらにOUIであっても、町中の人がジェスチャーで操作するスペースはありませんし、その光景を想像すると何やら居たたまれない気持ちになります。やはりこれらのシーンではCUIあるいはGUIが入力方法としては適切です。

こう考えると、最新のUIが従来のUIを凌駕するというものでは決してなく、特定のシーンで用いられるより適切な操作・入力方法が誕生していると捉えるべきで、こうした商品サービスを提供する企業にとっては、「商品はどのようなシーンで用いられるのか」、そして「その環境において最も適切で、効率的・生産的なUIはどのような形式か」を考えることが重要なはずです。

VUIはデジタルデバイスとの関わり方として、そして新たな生活様式として、間違いなく現代のユーザーに浸透し始めています。ただ忘れてはいけないのは、VUIをはじめとする先端UIの情報を正確にキャッチアップすることはもちろん、「想像力をフル活用（＝Use Imagination: UI）」し、ユーザー環境に最適なものとして採用されたUIこそが、最も優れたUIであるということです。

アクティビティ一覧

コラム一覧