公益財団法人テルモ生命科学振興財団

財団サイトへもどる

中高生と“いのちの不思議”を考える─生命科学DOKIDOKI研究室

サイト内検索

ロボットがうつ状態に!?

サイバーローデントの研究を続けるうち、おもしろい現象に気づきました。

いったいどんな現象ですか?

何もしないことを学習してしまうロボットが出てきたんです。カメラで電池パックが見えていても、すぐ目の前でないとじっとしたまま。まるでうつ状態のようでした。

へーえ!

強化学習ロボットは、ある行動をとるとどれくらいの報酬が得られるかを予測して行動を選ぶのだけど、どれだけ先の報酬まで予測に入れるかを調整しなくてはいけないんだ。この数値もさっきお話しした進化の仕組みで変化させたのですが、このロボットの数値を調べたら、今すぐ手に入る報酬しか予測に入らないきわめて低い値になっていました。内蔵電池を使って動いたあとに電池パックを捕まえる、つまり最初にマイナスの報酬を受けたあとにプラスの報酬が得られるような場合、目先の結果だけを考えるとやらない方がましだということになってしまうんです。人間がうつ状態になってしまうのも、ひょっとしたらこのロボットと同じように、将来の報酬に対する評価が低くなるのがひとつの原因ではないか。そこでこうした脳のメカニズムを調べてみたいと、マウスで実験してみたのです。

将来の報酬への評価と、ロボットの行動

緑のバーが報酬、青とオレンジの線が将来の報酬への重み付けを表す。将来の報酬に対する重みが大きいと、最初にエネルギーを使っても電池パックを取りに行き充電するように学習が行われる。将来の報酬に対する重みが小さいと、最初に使うエネルギーのマイナス分が強いため「やらない方がまし」と学習してしまう。

興味あるなぁ。

うつ病の治療には脳の内のセロトニンという神経伝達物質を増やす薬が使われます。そこで、セロトニンが将来得られる報酬の評価にどう影響するのかを調べる実験を組み立てました。
マウスに、小さな穴に一定時間鼻先を入れて(ノーズポーク)じっと待つとエサが獲得できるという学習をさせました。ただし、待ち時間やエサのあるなしはランダムです。待ち時間が短いとマウスはちゃんと待てるのですが、待ち時間が長くなると、あきらめて鼻を出してしまい、エサがもらえません。
このとき、光遺伝学という手法を使って、報酬を待っている間にセロトニンを放出する神経細胞の活動を増加させると、より長い間待ち続けるようになることがわかったのです。

マウスは3秒と6秒のノーズポークは簡単にできるが、9秒では待ちきれずに鼻先を出してしまい、報酬獲得に失敗する回数が増えた。しかしマウスがノーズポークする間に光刺激でセロトニン神経活動を増加させると、9秒でもノーズポークを続けることができるようになり、失敗回数が有意に減少した。(図版提供:OIST)

人工知能の工学的なモデルから仮説を立て、それを実際の動物で検証するという先生の研究の進め方って、とてもユニークですね。

私が興味を持っているのは、予測や意思決定にかかわる脳の高度な制御機構がどのようなメカニズムで成り立っているのか、その仕組みを数式やプログラムで表したモデルをつくることと、実際の脳のメカニズムを解明することです。

予測や意思決定にかかわる脳の高度な制御機構を探究したい