学習グループ

逆強化学習によるロボットの自律的な動作獲得

  ロボットが自律的に環境に適応する機能は,人とロボットが共生していくうえで重要な役割を担っており,盛んに研究が行われてきました.近年では逆強化学習と呼ばれる,強化学習に用いる報酬関数を動作の熟練者から推定する手法が注目され,様々な手法に応用されています.本研究では,逆強化学習における報酬関数をロボットの環境に合わせ,身体が違う熟練者から推定する手法や,熟練者の動作だけでなく,それに類似した動作も合わせて推定精度を向上させる手法の構築などを行っています.

img01 img02
  報酬関数から算出された価値関数   価値関数から導かれる動作

-関連論文-