研究概要

本研究室が目指すもの

柔軟な環境認知・運動制御を体現する生物の情報処理機構には,未だ解明されていない部分が多く,近年,脳科学,神経生理,認知心理,人工知能,ロボット工学など様々な分野で横断的にその機能解明が図られています.我々の研究グループでは,自律分散かつ可塑的な特性を有する生物システムがいかにして合理的な知を実現しているのか?という問題に対し,工学的立場から数理モデル化を行い,その機能解明を試みるとともに,開発した適応・学習モデルを,適応型インタフェースとして実応用することを目指しています. 具体的には,「未経験環境下における人間の環境認知,運動学習の解析」,「人工物が未経験環境下で合理的な行動を生成する技術の開発」,「インタラクションが長期的に継続するコミュニケーションインタフェースの開発」などに取り組んでいます.

研究事例

未知環境認知のための神経修飾回路網モデル

我々は目の前にある物体を手を伸ばして容易につかむことができる.しかし,この運動が実現される過程には,視覚系による物体の知覚,網膜画像から物体と手先の位置関係の計算,経験に基づいた物体質量の予測,手先の目標軌道の生成,目標軌道を実現する筋張力の制御等々,複雑な情報処理が必要とされる.また,これらの情報処理機構は,生後,環境との物理的相互作用を通じて自律的に獲得されると考えられている.本研究では,神経回路モデル(連続時間リカレントニューラルネットワーク)を用いて,未知の回転粘性力場(手先速度に比例する外力が手先の進行方向とは90度回転された方向に加わる環境)下で上肢到達運動を実現する筋の制御器を学習させる.神経回路モデルに非線形な内部フィードバックを仮定することで,環境の変化に頑健な制御構造が獲得されることを確認した.

観測時系列に基づく拘束条件の実時間選択による運動パターン生成

我々人間をはじめとする生物は,環境や行動の目的に応じて,高次元の感覚入力,運動自由度を実時間で巧みに拘束し,協調的な運動を発現できる.しかしながら,予測不可能的に変化する実環境ではすべての状況をあらかじめ網羅的に経験しておくことは不可能であり,そのような状況でいかに拘束条件を生成するかは重要な問題である.

本研究では,制御対象や環境のわずかな変化に対しては,(1)非線形振動子が持つ引き込み作用により適応的に運動パターンを生成し,一方,引き込みで対処することが困難な大きな環境変化に対しては,(2)環境予測モデルに基づいて振動子のパラメタを自律的に切り替えることで対処する,二重の適応フィードバックループを有する運動パターン生成モデルを提案し,振り子の励振運動制御,3リンクマニピュレータのクランク回転運動制御などに応用した.

  • 近藤敏之, 伊藤宏司, 拘束条件の実時間選択による運動生成, 計測と制御, vol.44, no.9, pp.596-601, (2005)

拘束ルール抽出機構を用いた段階的強化学習

人間は新しい運動パターンを学習する際,すでに獲得した知識をうまく利用することにより,数回の試行で(つまり全状態を網羅的に探索することなく)学習することができる.このように,過去の経験から学習の方法自体を発達させる能力を,人間は本質的に備えており, これは未知環境下で行動し続けることが要求される自律移動ロボットの行動学習にも有効な示唆を与えると考えられる.

心理学者のJ.Piagetによれば,この人間の認知・運動学習機構は,(1)新規情報を既知の知識と比較すること,(2)一致しない場合は,知識の構造自体を変更すること,の繰り返しにより発達する.本研究では,未知環境における自律移動ロボットの行動学習を例題として用い,(1)制御器(neural network,NN)を強化学習(TD法)で学習すること,(2)学習後のNNから行動規則(Schema)を抽出し,これを別の未知環境を学習するロボットに学習の拘束条件として与えることで,学習を高速化できること,を明らかにすることを目指す.

  • 近藤敏之, 伊藤紀彦, 伊藤宏司: "拘束ルール抽出機構を用いた自律移動ロボットの段階的行動学習", 計測自動制御学会論文集, Vol.40, No.3, (2004)

進化的recruit戦略を用いた強化学習法

複数(高次元)のセンサ入力を有する移動ロボットに,円柱型物体(ペグ)を”押し”ながら目的地に搬送するタスクを自律的に獲得させることを試みる.このため,ロボットのセンサーモータ関係(すなわちコントローラ)をNGnetで近似する.NGNetでは状態空間を超楕円体で分割しなければらない.このとき,状態分割を細かくすれば,基底関数(RBF)の数が膨大になり計算負荷が増加する.一方,粗く分割すると,必要な状態分割ができないために学習が進まない.

本研究では,NGnetを用いたActor-Critic強化学習に基づいて行動学習を行いながら,それとは並列に状態分割(RBFの大きさ)の適切さを評価する進化的recruitment戦略(evolutionary recruitment strategy)を提案した.

  • Toshiyuki Kondo, Koji Ito: "A Reinforcement Learning with Evolutionary State Recruitment Strategy for Autonomous Mobile Robots Control", Journal of Robotics and Autonomous Systems, vol.46, no.2, pp.111-124 Elsevier, (2004)
  • 近藤敏之, 伊藤宏司: "進化的recruitment戦略を用いた強化学習による自律移動ロボットの制御器設計", 計測自動制御学会論文集, Vol.39, No.9, pp.857-864, (2003)

動的再編成機能を有する神経回路モデル(ニューロモジュレータニューラルネットワーク)

Recently, Evolutionary Robotics approach has been attracting a lot of concerns in the field of robotics and artificial life. In this approach, neural networks are widely used to construct controllers for autonomous mobile agents, since they intrinsically have generalization, noise-tolerant abilities and so on. However, the followings are still open questions; 1) gap between simulated and real environments, 2) evolutionary and learning phase are completely separated, and 3) conflict between stability and evolvability/adaptability.

In this article, we try to overcome these problems by incorporating the concept of dynamic rearrangement function of biological neural networks with the use of neuromodulators.

  • Toshiyuki Kondo, Evolutionary design and behavior analysis of neuromodulatory neural networks for mobile robots control, Applied Soft Computing, Elsevier, in press

人間-エージェント相互適応系における継続的インタラクションの実現

ペットロボットのように人間が人工物に不可避的に適応する性質を利用した応用だけでなく,近年,その適応過程を支援するメカニズムや,エージェントの側からも自律的に人間に対して働きかけることの重要性が認識されつつある.しかしながら,人間がエージェントと相互適応するためには継続的な相互作用が不可欠であり,現状では人間側への負担が大きい.

このような背景から,本研究では人間がエージェントとの関係を維持し続けるためにエージェントが有するべき機能条件の解明に取り組む.すなわち,人間が「飽き」を感じるメカニズムの解明と,「飽き」させないための相互作用の規範について考察する.

  • 近藤敏之, 若松良久, 伊藤宏司: "人間-エージェントの相互適応系における継続的相互作用実現のための機能条件", 合同エージェントワークショップ&シンポジウム2003講演論文集, pp.432-437, 淡路夢舞台国際会議場, 兵庫, (2003)

研究テーマ