일반화 가능한 인간 모사형 강화학습 알고리즘 설계를 위한 정책 신뢰도, 정보처리 효율 및 일반화 능력의 정량화 방법 및 장치METHOD AND APPARATUS OF QUANTIFYING RELIABILITY OF LATENT POLICY, EFFICIENCY OF EPISODIC ENCODING, AND TASK GENERALIZABILITY FOR DEVELOPING HUMAN-LIKE REINFORCEMENT LEARNING MODEL

Cited 0 time in webofscience Cited 0 time in scopus
  • Hit : 193
  • Download : 0
일반화 가능한 인간 모사형 강화학습 알고리즘 설계를 위한 정책 신뢰도, 정보처리 효율 및 일반화 능력의 정량화 방법 및 장치가 제시된다. 일 실시예에 따른 컴퓨터를 통해 수행되는 일반화 가능한 인간 모사형 강화학습 모델 설계를 위한 정량화 방법은, 인간의 강화학습 과정이 가진 일반화 능력을 강화학습 모델로 이식하기 위해, 역 강화학습을 통해 도출된 강화학습 모델이 작업의 문맥 변화를 정책에 얼마나 반영하고 있는지에 대한 정량화를 수행하는 정책 신뢰도 정량화 단계를 포함하고, 상기 정책 신뢰도 정량화 단계는, 상기 작업의 작업 매개변수와 인간의 행동 프로파일간의 매핑 함수를 근사화하는 단계; 상기 작업 매개변수와 강화학습 알고리즘의 행동 프로파일간의 매핑 함수를 근사화하는 단계; 및 근사화된 두 개의 상기 매핑 함수를 비교하는 단계를 포함하여 이루어질 수 있다.
Assignee
한국과학기술원
Country
KO (South Korea)
Application Date
2020-09-29
Application Number
10-2020-0126999
Registration Date
2023-03-23
Registration Number
10-2514799-0000
URI
http://hdl.handle.net/10203/305907
Appears in Collection
BC-Patent(특허)
Files in This Item
There are no files associated with this item.

qr_code

  • mendeley

    citeulike


rss_1.0 rss_2.0 atom_1.0