2023/07/06
人工知能(AI)を人間の側からアプローチしてみると、「もしやAIは人間の知能の再現ではなく、あくまでも機械の知能なのではないか」という疑問がわいてくる。本来なら、先に人間の知能とは何かについて考えなければならないが、実際のところはこちらの方が面倒なので、まずは機械の知能が何であるかを整理したい。
コンピューター・サイエンスでは、AIの役割は「自然言語処理」と「コンピューター・ビジョン」に集約されている。前者はさらに「音声認識」「言語理解」「機械翻訳」に分けられ、後者は人間の視覚と同じことをロボットにさせることである。
音声認識は、われわれが普通に話し言葉を聞いていることを機械に実行させることをいう。私が「おはようございます。今日はいい天気ですね」と言ったとすると、コンピューターはそれを聞いて、文字に起こす。人間にとってはごくごく当たり前のことだが、コンピューター・サイエンティストたちはこのシステムを構築するのに何十年もかけている。
自然言語処理は音声認識、言語理解、機械翻訳に分けられると述べたが、これらは一体で地続きである。私が「おはようございます」と言ったら、機械は今が朝であること、それが挨拶であること、だから返答しなければならないことを、瞬時に理解しなければならない。音声認識は言語理解と不可分である。
というのも、AIにはいろいろな応用例が考えられるが、大きな柱に人間とのコミュニケーションがある。介護ロボットは将来最も期待されるAIの一つであるが、これは高齢者の身体的補助という以上に、話し相手でもなければならない。人間の話しかけに対して適切な返しができなければ、話し手の高齢者はしらけてしまう。それでは介護ロボットの役割を果たせない。
「おはようございます」と言われて、ロボットは沈黙してはならず、「こんばんは」と返答してもならず、または今が昼だとして、高齢者の方が「おはよう」と言った時に、むしろロボットの方が「今は昼ですから、〝こんにちは〟ですね」と言うくらいでなければならない。そのためには「言語理解」という領域を超えて人間世界の「常識」と、コンピューター・ビジョンでも触れる環境を「知覚」する能力をも備えていなければならない(環境情報の「理解」をも含む)。
音声認識に戻ろう。仮に日本の講演者(企業のプレゼンテーションなど)が中国で話をすることになったとする。その人は外国人を前にして日本語で話をする。するとコンピューターはそれを一度すべて文字化する。というより「デジタル化する」と言った方が正確であろう。デジタル化は機械が理解(処理)できる形式への変換のことである。
文字化された日本語はコンピューター内で瞬時にほぼ正確な中国語に翻訳され、それが聴衆の「グーグル・グラス」に映し出される。ちなみに「グーグル・グラス」は「ウェアラブル端末」(装着・着用できる機械のこと)で、眼鏡のようにかけると、レンズのところにさまざまな情報が映し出される。このグラスをかけて外国の駅に行くと、何もせずに機械が独自の判断で駅名を母国語に翻訳し、表示してくれる。
日本語で話されたことが中国語に翻訳されるためには、音声を文字化して、それを翻訳することになるから、音声認識と機械翻訳も一体で地続きである。翻訳のためには文章理解も不可欠だから、結局、これら三つを合わせて「自然言語処理」と呼んでいる(専門用語が多く
て、恐縮である)。
AIの任務のもう一つが「コンピューター・ビジョン」だが、これは端的に人間の視覚を機械で再現することである。このAIもロボットでの応用が想定されているが、そろそろ実用化されると思われる事例に、飲食店での片付けロボットがある。あるところで聞いた話によると、混雑するレストランのボトルネックになってしまうところは、下げられてきた使用済みの皿を食器洗い機に入れるまでの数メートルだそうである。
ここに片付けロボットがいれば、スタッフ(人間)が戻してきた汚れた食器を認識して、それを洗浄機まで運ぶことができる。すると混雑してきても、いつも清潔な皿でお客さんを迎えられるようになる。
このためには、ロボットは対象が「皿である」ことと、その場所を正確に知覚しなければならない。下げられてきた皿が置かれている台と、食器それ自体とを一センチの差なく厳密に区別しなければならない。
ロボットの手が一センチ下ならば、アームはステンレスの台とおしくらまんじゅうすることになるし、一センチ上ならば、皿を突き飛ばして割ってしまう。うまく掴むことも至難の業だが、それを食器洗い機の特定の場所に差し込まなければならない。皿とカトラリーを分けるということである。これらすべては精密な物体・位置認識に基づいている。
このように、AIには解決しなければならない課題がたくさんある。AIが支配する時代はもう少し先のようである。
(月刊『時評』2020年6月号掲載)