두 회귀신경망을 사용한 예측 메타-강화학습 알고리즘 디자인Predictive meta-reinforcement learning design using dual recurrent neural networks

Cited 0 time in webofscience Cited 0 time in scopus
  • Hit : 242
  • Download : 0
사람의 강화학습은 크게 습관적 행동 패턴을 보이는 모델-자유(Model-free) 강화학습과 목적 지향적 행동 패턴을 보이는 모델-기반(Model-based) 강화학습으로 나뉜다. 모델-기반 강화학습은 환경 혹은 상대방 전략의 변화에 대처할 수 있다. 반면 모델-자유 강화학습은 요구하는 계산량이 비교적 적으며, 극단적으로 동적인 환경이나 노이즈가 큰 환경에서 더 나은 모습을 보인다. 기존 강화학습 알고리즘은 모델-자유 혹은 모델-기반 강화학습 중 한 가지만 사용하여 의사결정에 반영한다. 그러나 사람은 상황에 따라 모델-자유 강화학습과 모델-기반 강화학습 중 적절한 전략을 선택하는 메커니즘을 사용하는 것으로 알려져 있다. 본 연구에서는 회귀신경망을 사용해 사람처럼 상황에 알맞은 전략을 선택해 정책과 가치값을 계산하는 알고리즘을 제시하고, 이를 행동 데이터를 사용하여 검증한다.
Advisors
이상완researcherLee, Sangwanresearcher
Description
한국과학기술원 :바이오및뇌공학과,
Publisher
한국과학기술원
Issue Date
2019
Identifier
325007
Language
kor
Description

학위논문(석사) - 한국과학기술원 : 바이오및뇌공학과, 2019.2,[iii, 28 p. :]

Keywords

강화학습▼a모델-자유 강화학습▼a모델-기반 강화학습▼a메타학습▼a회귀신경망; Reinforcement learning▼aModel-free reinforcement learning▼aModel-based reinforcement learning▼aMeta-learning▼aRNN(Recurrent Neural Network)

URI
http://hdl.handle.net/10203/283753
Link
http://library.kaist.ac.kr/search/detail/view.do?bibCtrlNo=887104&flag=dissertation
Appears in Collection
BiS-Theses_Master(석사논문)
Files in This Item
There are no files associated with this item.

qr_code

  • mendeley

    citeulike


rss_1.0 rss_2.0 atom_1.0