DSpace at KOASAS: 분포 강화학습을 위한 위험도 스케줄링 기반의 낙천적 탐색 방법

DSpace at KOASAS

College of Engineering(공과대학)Kim Jaechul Graduate School of AI(김재철AI대학원)AI-Journal Papers(저널논문)

분포 강화학습을 위한 위험도 스케줄링 기반의 낙천적 탐색 방법Risk Scheduling-based Optimistic Exploration for Distributional Reinforcement Learning

Cited 0 time in webofscience

Cited 0 time in scopus

Hit : 60
Download : 0

Export

오지환 / 김준기 / 윤세영 researcher

분포 강화학습은 행동 공간을 탐색하는데 사용될 수 있는 분산과 위험도(risk)의 특징을 통해 연속 및 이산 제어에서 괄목할 성능을 보이고 있다. 하지만, 위험도의 성질을 활용해서 탐색하는 방법은 분산을 활용한 탐색 방법에 대한 연구에 비해 발전되지 못했다. 이와 같은 한계를 극복하기 위해 이 논문에서는 분포 강화학습의 특징인 위험도를 활용하여 위험도 스케줄링(risk-scheduling) 방법을 제안한다. 위험도 스케줄링 방법은 학습하는 에이전트가 다양한 위험도를 경험하게 하고, 낙천적인 (optimistic) 행동을 선택하도록 도움으로써 성능을 개선시킬 수 있다. 다중 에이전트 시스템에서의 분포 강화학습 알고리즘인 DMIX, DDN, DIQL에 위험도 스케줄링을 적용했을 때 성능이 크게 향상되는 것을 확인하였다.

Publisher: 한국정보과학회

Issue Date: 2023-02

Language: Korean

Citation: 정보과학회논문지, v.50, no.2, pp.172 - 178

ISSN: 2383-630X

DOI: 10.5626/JOK.2023.50.2.172

URI: http://hdl.handle.net/10203/315592

Appears in Collection: AI-Journal Papers(저널논문)

Files in This Item: There are no files associated with this item.

Display Full Item Record

qr_code

트윗하기

KOASAS

Knowledge Service Development Team, KAIST 291 Daehak-ro, Yuseong-gu, Daejeon 34141, Republic of Korea. T. 82-42-350-4493 Email. koasas@kaist.ac.kr
Copyright © 2016. Korea Advanced Institute of Science and Technology. All Rights Reserved.

KOASAS

KOASAS

Browse

분포 강화학습을 위한 위험도 스케줄링 기반의 낙천적 탐색 방법Risk Scheduling-based Optimistic Exploration for Distributional Reinforcement Learning

KOASAS

Communities & Collections