기본 가치 신호를 이용한 강화 학습 방법 및 그 장치REINFORCEMENT LEARNING METHOD AND APPARATUS WITH ELEMENTARY VALUE SIGNALS

Cited 0 time in webofscience Cited 0 time in scopus
  • Hit : 248
  • Download : 0
강화학습(reinforcement learning)의 목적은, 에이전트(agent)로 하여금 보상을 최대화하고 처벌을 최소화하는 것이다. 이러한 두 가지는 전통적으로, 서로 같은 것으로서 결국 하나라고 인식되어져 왔고, 따라서 강화학습 모델에서의 학습은, '가치(value)'의 단일 척도에 의해 보상과 처벌을 표현하는(represent) 단일 강화 신호에 의해 구동되어져 왔다. 본 발명은 보상과 처벌을 두 개의 분리된 카테고리로 표현하고, 각각에 대해 두 개의 대립되는 표현을 갖도록 하는 것이 유리하다는 것을 제안한다. 따라서 보상 증거(evidence for reward), 반 보상 증거(evidence against reward), 처벌 증거(evidence for punishment) 및 반 처벌 증거(evidence against punishment)의 4개의 '기본 가치 신호(elementary value signal)'를 제안한다. 본 발명은 이러한 네 개의 기본 가치 신호가 다양한 유효 강화 신호(effective reinforcement signal)를 만드는 다양한 조합으로 어떻게 합해질 수 있는지를 설명한다. 뇌는 수치 표현의 총 8가지 타입을 학습하는 방법을 사용한다는 것을 제안한다.
Assignee
한국과학기술원
Country
KO (South Korea)
Issue Date
2016-03-10
Application Date
2014-03-05
Application Number
10-2014-0025967
Registration Date
2016-03-10
Registration Number
10-1603940-0000
URI
http://hdl.handle.net/10203/231604
Appears in Collection
BiS-Patent(특허)
Files in This Item
There are no files associated with this item.

qr_code

  • mendeley

    citeulike


rss_1.0 rss_2.0 atom_1.0