最終更新日:2023/07/13
(オ)に最もよくあてはまる選択肢を 1 つ選べ.
機械が試行錯誤することで,取るべき最善の行動を決定する問題を扱うことができる学習方法を(ア)という.(ア)はボードゲームや自動運転,またロボットの歩行動作などに活用されている.代表的なアルゴリズムに (イ)があげられる.(ア)の課題として,主に(ウ)や(エ)などが挙げられる.理論的には無限に学習するが,実世界では全てが限られている.ロボットの場合,無限の試行を繰り返すことができず,損耗し,実験の続行が困難になる.そこで人間側がタスクを上手く切り分けてやさしいタスクからの学習をすることが期待される.また(エ)に関して,例として,2 体のロボット同士で学習を開始させようとすると,お互いに初期状態であるタスクについての何も知識がない状態だと,学習過程の不安定化が見られる.現在はこれに対応するために逆強化学習やディープラーニングの技術を適用した(オ)などが適用され始めている.
編集履歴(0)