強化学習の問題設定。ある状態のときにどの行動を取ればよいかを報酬を手がかりに学習する

強化学習の問題設定。ある状態のときにどの行動を取ればよいかを報酬を手がかりに学習する