Laboro.AI

Laboro.AIコラム

音声認識AIのいま。その技術や事例を知る

2020.12.1

概 要

AI技術の様々な分野での活用が進められています。中でも、私たちの生活の中にも広く浸透している一つが音声認識AIです。このコラムでは、音声認識AIの大まかな仕組みや使用されている技術、実際の活用事例をご紹介していきます。

目 次

音声認識とは
 ・音声認識AIがもたらす効果
 ・音声認識の仕組み
 ・音声認識AIを用いたサービスの普及状況
音声認識の代表的な技術
 ・音響分析
 ・音響モデル
 ・発音辞書
 ・言語モデル
音声認識と自然言語処理の関係
音声認識AIの事例
 ・クラウド環境で文字起こし
 ・自動応答で店舗予約を完了
 ・リアルタイムに翻訳
音声認識AIの今後の課題
音声認識AIはカスタムが必要な場合も

音声認識とは

音声認識とは、文字通り、人が発した“音声”をコンピュータに“認識”させることを目指した技術領域ですが、もう少し具体的に言うと、人間が話す音声を音(空気の振動)として測定し、そこから得られた波形データを解析、文字データに変換するための技術です。

Amazon Echo(Alexa)やGoogleアシスタント、AppleのSiriなどのスマートスピーカーの存在も日常的に使われるようになってきましたが、AIによる音声認識が進化したことで、声だけで機械を操作したり、会議の議事録を効率よく作成するといったことが実現されてきています。

音声認識AIがもたらす効果

現在、様々な企業で音声認識AIの導入が行われていますが、音声認識AIによって得られる代表的な効果としては、次の3つが挙げられます。

・業務効率化
・業務精度の向上
・顧客満足度の向上

まず業務効率化ですが、上にも挙げた議事録作成やテープ起こし、記入作業の自動化などに音声認識AIを用いることで、業務の省力化が期待されます。その他、コールセンターでの活用はとくに進んでおり、テキスト化した音声からオペレーターの応対品質を分析したり、ウィークポイントの洗い出しなどにも利用されています。

続いて、業務精度の向上です。例えば記入作業を人手でやることを考えた場合、長時間のタイピング作業の中ではどうしても打ち間違いや打ち漏れが発生します。音声認識AIを用いた場合、もちろんある程度の認識間違いや変換ミスは想定されますが、一定の精度向上が見込まれるほか、また人の作業としては文章チェックに集中できるようになるというメリットが生まれます。

次に、顧客満足度の向上です。先ほどのコールセンターの活用がまさにその例ですが、顧客やオペレーターの状態を音声から把握することができれば、様々な業務品質の改善ポイントを発見し、顧客満足度を向上させるような施策の実施につなげることも期待できます。

音声認識の仕組み

上のような効果が期待される音声認識AIですが、簡単には以下のような仕組みで動作しています。

入力

AIもコンピュータの一種であることから、何かしらのデータの入力が必要になります。音声認識の場合の入力データは、人が発した音声です。まずは、マイクを用いて空気の振動を波形データなどに変換します。その後、周りの不要な声や環境音などのノイズを取り除くための処理を行います。

参考:エンジニアコラム 『声や音を聞き分ける、『音源分離』とは』

テキストへの変換

入力データを処理したら、まずはその音声データを1つひとつの音として認識します。「せんせいこんにちわ」(※)という音声があったとしたら、「せ・ん・せ・い・こ・ん・に・ち・わ」と、1つひとつの音ごとに文字データに変換するイメージです。

(音を表記するため、ここでは「わ」と記載しています。以下も同じ)

その後、それぞれの音の並びを分析し、単語に変換します。上記の例の場合、「先生 こんにちは」と変換します。最後に、単語と単語のつながりを分析し、1つの文として認識します。ここで、「先生、こんにちは」という文をコンピュータが認識することになります。

音声認識AIを用いたサービスの普及状況

音声認識AIを用いたサービスは、AI活用の中でも非常に普及している分野の一つです。音声認識技術単体での活用はもちろん、後にご紹介する自然言語処理技術と組み合わせた技術が広く普及しており、ビジネス向け・コンシューマー向けどちらにもさまざまなサービスが登場しています。

ビジネス向けでは、音声認識技術を用いた自動文字起こしが挙げられます。これにより会議の議事録を効率よく記録する、音声によるメモをテキストに変換して残すなどの活用が行われるようになっています。

コンシューマー向けでは、スマートスピーカーが代表的です。音楽の再生・停止を音声で操作できるほか、家電と接続することで照明やエアコンなどの操作を音声で行うことも今では珍しくなくなりました。

音声認識の代表的な技術

音声認識では、主に以下の4つの技術が用いられています。ここでは、その概要についてご紹介します。

音響分析

音響分析では、録音データを分析し、その音から音声認識に必要な情報を抽出してコンピュータが認識できるデータに変換します。

音声認識AIは、生の録音データからそのまま認識できるわけではありません。人間は耳に入ってきた音から言葉を瞬時に認識し、無意識のうちに意味を理解していますが、コンピュータからすれば音声も環境音も同じ一つの音の波形としか認識できないためです。

音声認識で抽出する情報のことを、特徴量と言います。特徴量は、その名の通り、データ内にある特徴を抽出したもので、AIによる分析では欠かせない要素です。音響分析では、音の周波数、強弱、時間情報などが特徴量として挙げられます。例えば周波数のパターンを抽出することで、それが人間の音声なのか環境音なのかをコンピュータが認識できるようになります。

音響モデル

音響モデルでは、コンピュータがあらかじめ学習していた音や単語の情報と照らし合わせ、抽出した特徴量がどのパターンと整合するかを計算します。

例えば「こんにちわ」という音声があったとき、人であれば「こ」という音声を誰が発しようとも「こ」だと認識できます。ですが、実際には声帯や音の高低の差、前後の単語とのつながりにより音は変わっています。AIでは「こ」の音のパターンを学習することで、入力された音声「こんにちわ」の「こ」が「こ」であることを認識できるようになります。

発音辞書

発音辞書は、膨大な情報データベースの中から、音の組み合わせを抽出し、単語として認識する役割を持っています。「こ・ん・に・ち・わ」のそれぞれの音を認識したら、それらを組み合わせて「こんにちは」という単語として認識するイメージです。

言語モデル

音響モデル・発音辞書で音や単語を認識したら、言語モデルによりそれらを組み合わせ、意味のある正確な文章として認識します。文章として認識するには膨大な量のデータを学習する必要がありますが、ここでよく使われるのが「隠れマルコフモデル」というモデル化手法です。

隠れマルコフモデルは文字、あるいは文字列のあとに続く文字の現れやすさを確率で定義してパターン化するもので、音声だけに引っ張られず、文脈の通った文になるように音や単語をつなぎあわせていきます。

音声認識と自然言語処理の関係

AIによる音声認識は上記のような技術を用いて成り立っていますが、多くの活用シーンにおいて、音声認識AIは自然言語処理と組み合わせて運用されています。

音声認識の領域は、録音データから人間の音声を抽出し、文脈の通ったテキストに起こすまでを指します。そのため、例えば、「『こんにちは』という挨拶に対して『こんにちは』と返す」といった命令に対してその操作を実行する技術は、テキストを意味のある文として認識・処理する自然言語処理の領域と言えます。

AIの各技術は単体ではサービスとして運用しづらいものも多いため、このようにマルチモーダルに技術を組み合わせることで便利なサービスとして活用される可能性が生まれてきます。

音声認識AIの事例

ここでは、音声認識の技術を活用した実際の事例をご紹介します。

クラウド環境で文字起こし

音声データをテキストデータに変換する文字起こしは、音声認識の活用としてポピュラーな分野の1つです。

従来は人間が音声を聞きながらタイピングでテキストに起こす必要がありましたが、音声認識による文字起こしは高い精度でこれを代行することができます。もちろん100%の精度とは言えないため、正確なテキストデータが欲しい場合はその後に人力で編集する必要がありますが、「内容が分かればいい」用途であれば高い効果を発揮します。

この技術を用いたサービスの例として、アドバンスト・メディア社の『ProVoXT(プロボクスト)』が挙げられます。これは文字起こしをクラウドにて提供するサービスで、所定の手順で録音したデータをアップロードすることでテキストデータを得ることが可能なサービスです。

出典:アドバンスト・メディア 『ProVoXT』

自動応答で店舗予約を完了

音声認識と自然言語処理を組み合わせた技術として知られているのが、自動応答です。人間の発話を意味のある文として認識し、それに対する回答をAIが生成して返す技術は研究が進められています。

一例として、Googleが2018年に発表したレストランの予約などをAIが代行する『Google Duplex』があります。これは顧客がレストランに予約を入れる電話をすると、レストランのスタッフではなくAIが受け答えをしながら予約を完了するというサービスで、音声のリアルな合成技術も掛け合わせてまるで人間を相手に話しているかのように予約ができるようになっています。

Google Duplexも完璧ではなく、サービスのローンチ後はいくらかの割合で人間のオペレーターが代わって予約を受けていましたが、Googleは2020年10月15日、Google Duplexによる通話の99%がAIにより自動化されていると発表し話題になりました。

出典:TechCrunch Japan 2020年10月16日 グーグルの会話型AI「Duplex」がコロナ禍で300万件以上のビジネスリスティングを更新

リアルタイムに翻訳

インバウンド需要の向上が今後見込まれることに伴ってニーズを増しているのが、リアルタイムに翻訳を行うサービスです。音声認識と自然言語処理により発話の内容を分析し、多言語に翻訳した上でテキストや音声で出力します。これにより、同じ言語で話せない人同士でもリアルタイムにコミュニケーションが取れる可能性が見えてきました。

一例として、日本語を含めた11言語に対応しているNECの『NEC翻訳』があります。交通機関や観光案内、ガイド、流通などのシーンでの利用を想定したサービスで、音声入力だけでなくテキスト入力にも対応しています。

出典:NEC 『NEC翻訳』

音声認識AIの今後の課題

現在の音声認識技術には、入力速度が速い、操作性が高いという2つのメリットがあります。そのため、音声からテキストへの変換をほぼ遅延なく行うことができ、タイピングで起こすよりも速くタスクを完了することが期待できます。また、両手をフリーにしたまま音声で入力できるメリットもあり、デバイスやシステムの操作性も大きく高まることが期待されています。

一方で、日常会話によく現れるような人が意訳的に発する言葉を理解して返すことはまだ難しく、生活シーンで活用できるような技術に発達しきっているとは言い切れません。今後更なる技術進歩と精度の向上、新たなサービスの創出が期待されます。

音声認識AIはカスタムが必要な場合

AIを用いた音声認識は高いレベルに達しており、さまざまなシーンでこの技術を活用したサービスが登場していますが、一方で日常に溶け込んで人々が自然に利用するまでにはまだ大きなハードルがあると言えます。音声認識技術にはまだ伸びしろがあり、今後さらに人々の生活を豊かにするサービスが誕生してくることが期待されます。

ですが、企業への導入を考えた場合、そもそも上に紹介したようなパッケージ型のAIソリューションでは対応が難しい場合も少なくありません。例えばその企業独自の専門用語や業界用語などを認識させたいようなケースはその一つです。あるいは、専門性を伴うような業務プロセスへの導入・運用を考える場合も汎用的なプロダクトでは対応できない可能性があります。

こうした場合には、オーダーメイドによる音声認識AIモデルの開発を検討することも必要になってくるはずです。Laboro.AIでは、『カスタムAI』の開発を特徴に、ビジネス課題に合わせたAI導入を入念なコンサルティングを踏まえて支援しています。自社独自のAI開発の検討が必要になった際には、ぜひご相談ください。

その他のおすすめコンテンツ

日本語音声コーパス『LaboroTVSpeech』を公開
カスタムAI開発について
機械学習とディープラーニング(深層学習)の違いとは?
AI導入現場から。企業が抱える検討課題の実際とは
機械学機械学習とディープラーニング(深層学習)の違いとは?
事例から知る!機械学習の基礎と活用5ジャンル
AI導入によるメリットやデメリットとは?課題やポイントも含めご紹介
AI開発の基礎!概要から開発の流れ、必要なものを解説

カスタムAIの導入に関する
ご相談はこちらから

お名前(必須)
御社名(必須)
部署名(必須)
役職名(任意)
メールアドレス(必須)
電話番号(任意)
件名(必須)
本文(必須)