일반화 가능한 인간 모사형 강화학습 알고리즘 설계를 위한 정책 신뢰도, 정보처리 효율 및 일반화 능력의 정량화 방법 및 장치METHOD AND APPARATUS OF QUANTIFYING RELIABILITY OF LATENT POLICY, EFFICIENCY OF EPISODIC ENCODING, AND TASK GENERALIZABILITY FOR DEVELOPING HUMAN-LIKE REINFORCEMENT LEARNING MODEL

Cited 0 time in webofscience Cited 0 time in scopus
  • Hit : 194
  • Download : 0
DC FieldValueLanguage
dc.contributor.author이상완ko
dc.contributor.author김동재ko
dc.contributor.author신재훈ko
dc.date.accessioned2023-03-30T06:00:22Z-
dc.date.available2023-03-30T06:00:22Z-
dc.identifier.urihttp://hdl.handle.net/10203/305907-
dc.description.abstract일반화 가능한 인간 모사형 강화학습 알고리즘 설계를 위한 정책 신뢰도, 정보처리 효율 및 일반화 능력의 정량화 방법 및 장치가 제시된다. 일 실시예에 따른 컴퓨터를 통해 수행되는 일반화 가능한 인간 모사형 강화학습 모델 설계를 위한 정량화 방법은, 인간의 강화학습 과정이 가진 일반화 능력을 강화학습 모델로 이식하기 위해, 역 강화학습을 통해 도출된 강화학습 모델이 작업의 문맥 변화를 정책에 얼마나 반영하고 있는지에 대한 정량화를 수행하는 정책 신뢰도 정량화 단계를 포함하고, 상기 정책 신뢰도 정량화 단계는, 상기 작업의 작업 매개변수와 인간의 행동 프로파일간의 매핑 함수를 근사화하는 단계; 상기 작업 매개변수와 강화학습 알고리즘의 행동 프로파일간의 매핑 함수를 근사화하는 단계; 및 근사화된 두 개의 상기 매핑 함수를 비교하는 단계를 포함하여 이루어질 수 있다.-
dc.title일반화 가능한 인간 모사형 강화학습 알고리즘 설계를 위한 정책 신뢰도, 정보처리 효율 및 일반화 능력의 정량화 방법 및 장치-
dc.title.alternativeMETHOD AND APPARATUS OF QUANTIFYING RELIABILITY OF LATENT POLICY, EFFICIENCY OF EPISODIC ENCODING, AND TASK GENERALIZABILITY FOR DEVELOPING HUMAN-LIKE REINFORCEMENT LEARNING MODEL-
dc.typePatent-
dc.type.rimsPAT-
dc.contributor.localauthor이상완-
dc.contributor.assignee한국과학기술원-
dc.identifier.iprsType특허-
dc.identifier.patentApplicationNumber10-2020-0126999-
dc.identifier.patentRegistrationNumber10-2514799-0000-
dc.date.application2020-09-29-
dc.date.registration2023-03-23-
dc.publisher.countryKO-
Appears in Collection
BC-Patent(특허)
Files in This Item
There are no files associated with this item.

qr_code

  • mendeley

    citeulike


rss_1.0 rss_2.0 atom_1.0