확률적 잠재 의미 분석 모델 기반의 준감독 군집화 방법Semi-supervised clustering with probabilistic latent semantic analysis

Cited 0 time in webofscience Cited 0 time in scopus
  • Hit : 882
  • Download : 0
준감독 군집화는 추가적인 정보를 활용하여 군집화 성능을 높이기위한 기계 학습 기법 중 하나이다. 전통적인 군집화 방법이 레이블이 없는 데이터만을 입력으로 받는 것에 비해, 준감독 군집화 방법은 적은 수의 레이블된 데이터 혹은 군집화에 대한 제약 조건이 함께 주어지는 것을 가정한다. 준감독 군집화 방법은 기계 학습 연구에서 중요한 분야인데, 이는 실제 상황에서 종종 부분적으로 레이블이 주어진 데이터를 다루어야 할 필요가 있기 때문이다. 본 논문에서 나타내고 있는 알고리즘은 위에서 언급한 두 종류의 추가 정보 중 두 번째 형태를 가정하고 있다. 이 알고리즘은 부분적으로 주어지는 이항 제약 조건 (pairwise constraint)인 must-link와 cannot-link를 통해 군집화 선호도를 만들게 된다. 특별히, 본 논문에서는 확률적 잠재 의미 분석 모델, Probabilistic Latent Semantic Analysis (PLSA)를 확장하여, Penalized PLSA (PPLSA)를 제안했다. PLSA는 최근 문서의 인덱싱과 군집화에 널리 사용되고 있는 모델인데, 본 논문에서는 이항 제약 조건을 활용하여 PLSA의 성능을 향상시켰다. 본 논문에서는 다양한 데이터 셋에 대하여 PPLSA가 PLSA보다 좋은 성능을 보이고, 또한 널리 알려진 준감독 군집화 방법인 HMRF-KMeans보다도 좋은 성능을 보이는 것을 보일 수 있었다.
Advisors
김기응researcherKim, Kee-Eungresearcher
Description
한국과학기술원 : 전산학전공,
Publisher
한국과학기술원
Issue Date
2008
Identifier
302018/325007  / 020064111
Language
kor
Description

학위논문(석사) - 한국과학기술원 : 전산학전공, 2008. 8., [ vi, 47 ]

Keywords

Semi-supervised; Clustering; PLSA; Probabilistic Latent Semantic Analysis; Document Clustering; 준감독; 군집화; 문서 군집화; 문서 분류; 확률적 잠재 의미 분석; Semi-supervised; Clustering; PLSA; Probabilistic Latent Semantic Analysis; Document Clustering; 준감독; 군집화; 문서 군집화; 문서 분류; 확률적 잠재 의미 분석

URI
http://hdl.handle.net/10203/34837
Link
http://library.kaist.ac.kr/search/detail/view.do?bibCtrlNo=302018&flag=dissertation
Appears in Collection
CS-Theses_Master(석사논문)
Files in This Item
There are no files associated with this item.

qr_code

  • mendeley

    citeulike


rss_1.0 rss_2.0 atom_1.0