公益財団法人テルモ生命科学振興財団

財団サイトへもどる

中高生と“いのちの不思議”を考える─生命科学DOKIDOKI研究室

サイト内検索

行動を自ら学習するロボットの研究

先生が脳科学や人工知能に興味を持ったのはどうしてですか。

もともとスポーツをするとき、新しい技やからだの動きをどのように学習するかに興味があって、そのメカニズムを知りたいと考えたのがはじまりでした。そこで工学部時代、単にプログラムされた通りに動くロボットではなく、自分で動きを学習するロボットを作ろうと思ったのです。そこからさらに、動物や人間がからだの動きをどう学習して生成しているかに興味がわいて、脳の神経回路について探究したくなり、アメリカ・サンディエゴに留学して3年間研究しました。その後日本に戻ってからは、行動を自ら学習するロボットを開発してその原理を探る一方、その際、脳がどのように働いているのかをマウスや人間の脳で調べるという2つのアプローチで研究を進めてきました。

(1)
行動を自ら学習するロボットの開発と原理の探究
(2)
脳が行動を学習するメカニズムを、マウスや人間の脳で調べる

行動を自ら学習するロボットの研究では、どんなロボットを作ったのですか。

例えばこの起立運動ロボットです。機械学習の一つに「強化学習」といって、どんな行動をとればいいのかいろいろ試してみるなかで、そのできの良し悪しに対して与えられる「報酬」をもとに何をすべきかを判断するという学習法があります。うまく立ち上がれたときに得られる報酬につながる行動をロボット自身が学習することで、だれの手も借りずに起き上がるロボットを作りました。

ネズミやサルなどを使って、正しいレバーを押したり、正しい道を選ぶと甘い水やエサがもらえることで正解を学習するという実験がありますよね。あれのロボット版ってことかしら。

そう考えてもらっていいでしょう。ロボットには、ジャイロセンサーや足の裏センサーをつけて、頭がどのくらい高い位置にあるかや、足が地面についているかどうかなどをロボット自身が認識できるようにしました。そして、床にただ寝転がっているだけでは報酬はもらえないけれど、きちんと立つことができると報酬がもらえるようプログラムしたのです。

ロボットの全長は70cmで重さ約5kg。ひざと腰に相当する関節の角度センサー、ジャイロセンサー、足の裏のセンサーなどで、自分がどういう姿勢を取っているかを感知して、関節のモーターを動かすことができる

するとロボットは報酬を期待して起き上がったということなのかなあ。

その通りです。ただ、ここで難しいのは報酬の設定です。床から頭がどれくらい高くなると報酬を与えるか。また、パタンと転んでしまったら、負の報酬、つまり罰を与えるんですが、あまり罰が大きいと、ロボットは転ぶのを恐れて寝込んだまま動かなくなってしまうんですよ。一方で座ったまま頭を上げただけでもある程度報酬をもらえると、そこで満足してしまって、なかなか立ち上がろうとしないのです。

なんだか、怠け者のケンタ君みたいだにゃー。ロボットに起き上がるように仕向けるには、報酬のさじ加減が重要なんだニャ。

この場合は私たち研究者が報酬のさじ加減を試行錯誤して設定しました。でも私たち人間や多くの動物は、自分自身で新たな目標を見つけて、新しい行動を次々に学んでいくわけです。そこで次にチャレンジしたのが、ロボット自身が自分の報酬を見出すことができるかという研究です。

何をめざして行動するかを自分で判断できるロボットを作る研究につながるわけですね。いったいどんなロボットを作ったのですか??

生物にとってもっとも重要な問題は「生存」と「繁殖」です、それをできるだけシンプルな形で、人工物で実現したのが「サイバーローデントプロジェクト」の研究です。ロボットにとっての生存とは、バッテリー切れを起こすことなく、自分自身で適切に充電して生き延びること。そして繁殖は、ロボットがロボットを組み立てることもできなくはないですが、ほかのロボットとプログラムをコピーしあう、ソフト的な自己複製を課題に設定しました。
この実験に用いたのは、自由に動き回れる車輪、実験フィールドに配置された電池パックや他のロボットを見つけるための広視野カメラ、電池パックと接触して充電できる電極、プログラムのやり取りを行う赤外線通信ポートを備えたロボットです。

サイバーローデント、左下にあるのがエサに相当する電池パック

ちょっとネズミに似てるニャ。

このロボットは狙い通りに、自分で生存と繁殖につながる報酬を発見できたのですか?

ケンタくんは生き物の進化や遺伝子の仕組みについて聞いたことがあるかな?生き物は繁殖するときに遺伝子を複製するのだけど、そのときのわずかな誤差が「変異」を生むんだ。その結果生まれてきた子たちは、体の形や行動のしかたに若干の差が出るんだね。その中から、生きている環境のもとで一番適したものが多く生き残り繁殖する。こうした変異と選択による進化の仕組みをロボットにも取り入れることができるんだ。

生き物の進化

ロボットの遺伝子に相当するのは、例えば何を報酬とするかを決める数値です。それらを赤外線通信でコピーするときに若干のノイズを加えてやり、さらに内蔵電池がよく充電されていたロボットの数値を次の世代のロボットが採用するようにすることで、変異と選択を実現してそれらの数値を進化させることができるんです。

ロボットの進化

すごい! ロボットも自分自身で進化していくってことなんですね!

例えば人間や動物も、食べ物の匂いや見かけに惹きつけられる、栄養価と関係するような感覚信号に報酬を設定することで効率よく食べ物にありついているのですが、それらは進化の結果としてできてきたものです。このロボットでも、電池パックや仲間のロボットが視野の中心に見えると大きな値をとる報酬が、変異と選択の結果として進化してきたのです。

進化により獲得された視覚報酬

電池パックが見えることに対する報酬の強さ。進化の結果、正面で近くに見えるほど大きくなる報酬を持つようになった。