DSpace at KOASAS: 민감도분석을 이용한 보상함수가 불확실한 MDP의 미니맥스 후회값 행동정책 탐색기법

DSpace at KOASAS

College of Engineering(공과대학)School of Computing(전산학부)CS-Theses_Master(석사논문)

민감도분석을 이용한 보상함수가 불확실한 MDP의 미니맥스 후회값 행동정책 탐색기법Minimax regret policy search in reward-uncertain MDPs using sensitivity analysis

Cited 0 time in webofscience

Cited 0 time in scopus

Hit : 579
Download : 0

Export

오은수 / Oh, Eun-Soo

Markov Decision Processes(MDPs)는 확률적인 환경에서 연속적인 의사 결정을 필요로 하는 문제를 다루는 데에 매우 효과적인 모델이다. MDP로 모델링 한 문제는 value iteration, policy iteration과 같은 알고리즘을 통해 최적행동정책을 구함으로써 효과적인 의사 결정을 할 수가 있다. 그러나 해결하고자 하는 문제를 MDP 모델로 구체화 하는 일은 상당히 어려운 일이다. 또한 모델링한 MDP의 매개변수의 값들은 불확실성을 포함하고 있을 수 있으며 그 불확실성에 의해 최적행동정책이 변할 수 있다. MDP의 민감도분석이란 모델링한 MDP의 매개변수들이 불확실성에 의해서 모델링한 값과 실제 값에 차이가 존재할 경우 그 차이가 최적행동정책의 변화에 미치는 영향을 분석하는 것이다. MDP의 민감도분석을 통해 주어진 문제의 구체화에 불확실성이 포함되어 있어서 전이확률함수 혹은 보상함수의 값이 실제 값과 차이가 존재하더라도 현재 구체화한 모델의 최적행동정책이 여전히 최적일 수 있는 차이의 범위를 알 수 있게 된다. 그리고 그 결과를 통해 모델의 불확실성에 대해 안정적인(robust) 행동정책을 구할 수 있다. 본 논문에서는 보상함수에 불확실성이 존재하는 MDP에 대해서 민감도분석을 수행하는 방법을 제안할 것이다. 또한 이를 통해 안정적인 행동정책을 구하는 데에 있어서 기존에 제안된 알고리즘보다 속도가 빠른 새로운 알고리즘을 제안할 것이다.

Advisors: 김기응 researcher; Kim, Kee-Eung researcher

Description: 한국과학기술원 : 전산학과,

Publisher: 한국과학기술원

Issue Date: 2011

Identifier: 467947/325007 / 020093301

Language: kor

Description: 학위논문(석사) - 한국과학기술원 : 전산학과, 2011.2, [ iv, 33 p. ]

Keywords: 마르코프 의사 결정; 민감도 분석; 안정적인 행동정책; 미니맥스 후회값; MDP; Sensitivity Analysis; Robust Policy; Minimax Regret; Markov Decision Process

URI: http://hdl.handle.net/10203/180578

Link: http://library.kaist.ac.kr/search/detail/view.do?bibCtrlNo=467947&flag=dissertation

Appears in Collection: CS-Theses_Master(석사논문)

Files in This Item: There are no files associated with this item.

Display Full Item Record

qr_code

트윗하기

KOASAS

Knowledge Service Development Team, KAIST 291 Daehak-ro, Yuseong-gu, Daejeon 34141, Republic of Korea. T. 82-42-350-4493 Email. koasas@kaist.ac.kr
Copyright © 2016. Korea Advanced Institute of Science and Technology. All Rights Reserved.

KOASAS

KOASAS

Browse

민감도분석을 이용한 보상함수가 불확실한 MDP의 미니맥스 후회값 행동정책 탐색기법Minimax regret policy search in reward-uncertain MDPs using sensitivity analysis

KOASAS

Communities & Collections