BOT LABO

テキスト入力と音声入力の今後は?音声認識の精度の向上でチャットボットからスマートスピーカーの時代に?!

スマートスピーカーとは?

Googleが「Google Home」という商品を10月6日に日本で販売を開始しました。
最近よくテレビでGoogle HomeのCMを目にするようになったのでご存知の方も多いのではないでしょうか。

「OK Google」と呼びかけ、Google Homeに話しかけるとその音声を認識し回答してくれるという商品です。
例えば「今日の天気は?」と聞けば、その地域の今日の天気を教えてくれたりします。

このGoogle Homeというのはスマートスピーカーという分野の商品になりますが、そもそもスマートスピーカーとは何者かご存知ですか?

スマートスピーカーとは、音声でいろいろな操作やアシストをしてくれるオンライン型スピーカーのことで、2014年にAmazon.comが「Amazon Echo」(アマゾンエコー)というスマートスピーカーを発売して以来、注目を浴びつつある分野(サービス)の一つです。

アメリカの市場調査会社eMarketer, Inc.によると、アメリカにおけるスマートスピーカー市場シェア1位はAmazon.comの「Amazon Echo」(アマゾンエコー)で2位がGoogleの「Google Home」だそうです。

Amazon Echoの日本での発売はまだですが、アメリカでは結構な売れ行きなようです。

Wikipediaによると、

スマートスピーカーの市場シェアはAmazonの「Amazon Echo」が全体の70.6%を占め首位に立ち、グーグルの「グーグルホーム」が23.8%で2位につけている。同調査ではまた、月に一度はスマートスピーカーを使用する米国民は3560万人(前年比128.9%増)に上った。

ということで、そもそもアメリカでは結構な割合でスマートスピーカーを利用している人がいることが伺えます。

日本ではあまり音声入力で何かしらアシストしてもらうという光景を見ることはありませんが、アメリカではそこかしこで音声入力、音声検索しているのでしょうか。。。

また、AI(人工知能)を搭載したスマートスピーカーをAIスピーカーと呼んだりもします。
(この記事ではすべて「スマートスピーカー」で統一した表記にしています)

ちなみにAmazon EchoはAmazonが開発したAI(人工知能)である「Alexa」を搭載しており、音声を認識していろいろなアシスタント機能を受けることができます。
IoT技術とも絡んできますが、音声で家電を操作することもできます。

iPhoneのSiriは音声でスマートフォンの操作をすることに留まりますが、スマートスピーカーはIoTで繋がる全てのデバイス(家電含め)と連携し音声で操作することができるので利用範囲はかなり広そうですね。

Google Homeは日本に上陸し大々的にプロモーションに力を入れていますので、日本でのシェアはまだどうなるかわかりませんが、ただ、Google Homeの登場で日本でも今後スマートスピーカー業界がより身近になっていくのは間違いないでしょうし、国産のスマートスピーカーも続々登場してくるかもしれません。

音声認識の精度と課題

チャットボットはチャットをインタフェースとしてユーザーはテキストを入力し、AI(人工知能)はそのテキストを自然言語処理などで日本語解析し処理を実行します。
一方でスマートスピーカーはユーザーが発した音声(言葉)を、AI(人工知能)が認識し処理を実行します。

チャットボットとは違い、音声認識はまず話し言葉を文字列に変換した上で、そのあとに日本語解析などの処理を実行する必要があります。
とはいえ、単に口から発する音をコンピュータがわかる記号に置き換えることができればいいというわけではありません。
例えば「あ」がコンピュータで「あ」だとわかればいい、それだけでは音声認識とは言えないということです。
そこにはやはり言語解析自然言語処理意味解析などの技術が必要になってくるわけです。

音声認識の精度は年々上がってきていますが、どれほどの精度なのかご存知でしょうか?
身近な音声認識のソフトウェアでは、iPhoneのSiriなどが一つ挙げることができると思いますが、Siriの音声認識の精度はかなり高い水準にまで達しているように思われます。

これまたWikipediaからの引用になりますが、音声認識の精度について以下のように記載されています。

話者を限定して、「ディクテーション」と呼ばれる事前のトレーニングを行う方式の音声認識システムでは、日本語では理想的な環境下では80%の認識率が達成できるとされている。それらのトレーニングを積まない場合60%が限度である。

※この「ディクテーション」というのは、音声入力や聞き取りをすることを指します。

もう日本語であったとしても音声認識は80%のレベルまで精度が上がっているんですね。
言語の中でも比較的難しいと言われている日本語で80%のレベルは高いほうなんではないでしょうか。

とはいえ、利用シーンや専門領域によってこの精度は大きく変わってきます。

専門的な業界や空気を読んだり、会話発言者がどういう性格なのかなど、そのあたりを踏まえたうえで自然会話をしていくには、AI(人工知能)のディープラーニングなどによる機械学習が必要になるということなんでしょうか。

加えて方言などが出てくると。。。どこまで精度が担保できるかは未知数ですね。

ちなみにGoogle HomeやAmazon Echo、Siriなどの音声認識の精度が80%だというわけではありませんのであしからず。

チャットボット開発

チャットボットと音声認識の今後

今回はチャットボットではなく音声認識をテーマに取り上げてみました。
最近、Google Homeが日本でも発売されることになり、より一層AIを搭載したスマートスピーカーが市場を席巻するかもしれません。

そうなると、今後はチャットボットから音声入力に置き換わっていくのかというとそういうわけではないと考えられています。

場所や利用シーン、業界によってチャットボットとスマートスピーカーの役割がより明確化してくるのではないでしょうか。

インタフェースがテキスト入力なのか音声入力なのかの差ですが、特に日本ではこの差が大きく左右されるデータがあります。

それは日本では音声入力に抵抗を持っている人も多くいるというものです。

10月5日にKDDI株式会社が発表した情報によると、日本人は「人前での音声検索は『恥ずかしい』」と答えた人が7割超*1もいるそうです。
これはアメリカ人と日本人の差があるのかもしれないですね。
それを踏まえると、日本で、スマートスピーカーがアメリカのように利用者がいっきに急増するかというと、そうでもないかもしれませんね。
*1 KDDI株式会社の「日本人の音声操作に対する意識調査2017」より

確かに私自身、日常的にSiriを利用しているかというと、そうでもなかったりします。
わざわざテキストを手入力せずに、音声でスマートフォンを操作できるとなると断然、音声のほうが楽なように思うのですが、なぜでしょうかね。。。
確かに人前や公共の場でいきなりスマートフォンに向かって話すのには勇気がいるような気がします。

皆さんはSiriなど音声入力で何かしら検索したりすることは日常的に行ったりしていますか?

とはいえ、今後はシーンを限定しスマートスピーカーの隆盛は期待できると思います。

チャットのようにキーボードでテキストを入力しなくてもいいので音声入力のほうがはるかにカンタンで便利なのは想像に難しくありません。

例えば、車の中などクローズドな空間であれば日本人でも恥じらうことなく音声入力ができるようになるかもしれません。
(すでに音声認識できるカーナビなども出てきていますね!)

もしくは自宅であれば自分一人ではなく身内が周りにいる可能性はありますが、音声入力で何かしら家電などをコントロールできるようになるかもしれません。
日本人であっても身内であれば恥じらいなく音声入力できることが当たり前になってくる時代がやってくるかもしれません。
(それを見越したGoogle HomeやAmazon Echoなのかもしれませんが)

他にもビジネスユースでスマートスピーカーを利用したサービスがいろいろと出てくるでしょう。

ロボットと、チャットベースで会話をするのか、言葉を発して会話をするのか、どちらにしろ相手は生身の人間ではなくロボットに移り変わっていこうとしています。

もしかしたら人はそこに寂しさを感じ、SNSなど生身の人とのつながりを求めているのかもしれませんね。

 

参照元:
http://gomisuke.jp/news12.html

タグ: ,

[PR]

  • SMART Message BOT