AI入門AI入門

YSEトップAI入門 / 第6回 音声認識

第6回 音声認識

音声認識

前回は「RPA」について話をしました。これは仕事の分野で広がっている技術ですが、もっと身近なところで人間とコンピュータのやり取りがあります。何だか分かりますか?スマートスピーカといわれるものです。すでに広く認知されている商品だと思います。Google社やAmazon社はアメリカでスマートスピーカを先行販売していましたが、日本では2017年10月にGoogle社とLINE社が、11月にAmazon社が販売開始しました。8月23日にはApple社が日本で販売開始するというニュースが流れてきました。「OK、Google、明日の横浜の天気は?」「Hey、Siri、楽しい音楽をかけて」といった具合に呼びかけをして、その結果を答えてもらったり、その要望に応じたアプリケーションを起動して動作したり、と大変便利な道具となっています。

スマートスピーカの基本の技術は「音声認識」で、人の音声をコンピュータが認識する技術です。音声認識は人が話した言葉を認知することと、認知した言葉から意味を捉えることの2つから成っています。前者はコンピュータ上で文字列を作成する技術、後者は文字列から内容を読み取る技術が必要になってきます。これらの分野の研究は古くから行なわれていましたが、近年のAIの発展とともに後者の内容を読み取る技術が急速に進歩しました。この技術のひとつに言語の構造解析というものがあります。文章から単語を切り出し、その単語がどのような役割なのかを調べていきます。

「わたしは横浜の専門学校でAIを勉強しています」とい文章があったとき、「わたし は横浜 の 専門 学校 で AI を 勉強 して います」のように単語を切り出し、まとまりを作り、構文的な依存構造を見つけます。コンピュータは単なる単語としか認識していないので、まとまりを作ることがとても大変でしたが、AIによってどこで区切ればまとまりが作れるかということが分かるようになってきました。また依存構造とはここでは「わたし は → 勉強 して います」や「専門 学校 で → 勉強 して います」になります。ほかにも依存構造はあります。「横浜 の → 専門 学校」もそのひとつです。日本語は「てにをは」がある関係で構造がとても複雑です。また主語が抜けていても文章が成立するため、依存構造を解析することは困難でした。しかし、以前話をしたAI第二次ブームの下火の原因でもある「大量のデータ」が人によるデータ入力から、技術の発展により自動で大量にデータ収集でき、ビックデータが生成されました。これはシソーラス(類語辞典)の分野になってしまいますが、ビックデータから比較的似た構造を探すことで依存構造を解決できる可能性が広がりました。

このように身近にある音声認識にもAIの存在が多くを占めてきました。普段皆さんがスマートフォンで「OK、Google、・・・」「Hey、Siri、・・・」と呼びかけたときに、AIの技術を思い出してもらえればと思います。

※会社名・製品名はそれぞれ各社・各組織の商標または登録商標です。


「YSeye17号」掲載