준 지도학습 분류를 위한 균형이 잡힌 가중치 토픽 모델링 방법Balanced weighting topic models for semi-supervised classification

Cited 0 time in webofscience Cited 0 time in scopus
  • Hit : 2230
  • Download : 0
문서 분류 방법 연구는 정보 기술 분야에서 중요하게 연구되어 오고 있는 기술로 레이블 데이터를 가진 문서들을 통해 학습하는 과정에서 많은 학습 데이터가 있는 것을 가정한 경우가 많았다. 하지만 많은 경우 충분한 학습 데이터를 확보하지 못한 경우가 많다. 이 때 준 지도학습 방법을 이용하면 적은 데이터로 충분한 분류 성능의 향상을 기대할 수 있다. 특히 문서의 군집화는 준 지도학습을 위해 적용할 수 있는 좋은 방법이며 군집화의 대표적인 연구인 Latent Dirichlet Allo-cation(LDA)을 이용하여 이 문제를 보다 잘 해결할 수 있다. 기존의 토픽 모델링 방법은 비지도학습 기반이며 말뭉치 내 구성하는 모든 단어를 동일한 가중치로 두었다. 본 연구에서는 개별 단어는 가중치를 가지고 있으며 이러한 가중치를 이용하여 모델링을 할 경우 개별 문서의 특성을 보다 잘 드러낼 수 있음을 확인하였다. 또한 가중치를 자동으로 추출하는 과정에서 균형을 잡는 방법을 통해 하나의 토픽에 너무 많은 일반적인 단어들이 집중되지 않도록 하였다. 균형이 잡힌 가중치 토픽 모델링 방법은 가중치를 추정하는 방법과 토픽 모델링 과정을 하나의 통합된 과정으로 만들었으며 이 과정에서 자연스럽게 단어의 중요도를 추정한다. 제안한 모델은 매우 적은 학습 데이터를 가지고도 정확도 향상을 이루어 낼 수 있으며 새로운 문서에 대한 예측 능력 역시 향상되었다.
Advisors
맹성현researcherMyaeng, Sung-Hyon
Description
한국과학기술원 : 웹사이언스공학전공,
Publisher
한국과학기술원
Issue Date
2014
Identifier
592372/325007  / 020124493
Language
kor
Description

학위논문(석사) - 한국과학기술원 : 웹사이언스공학전공, 2014.8, [ v, 58 p. ]

Keywords

토픽 모델링; LDA; Latent Dirichlet Allocation; Text clustering; Text classification; Topic modeling; 문서 분류; 군집화; LDA

URI
http://hdl.handle.net/10203/197117
Link
http://library.kaist.ac.kr/search/detail/view.do?bibCtrlNo=592372&flag=dissertation
Appears in Collection
WST-Theses_Master(석사논문)
Files in This Item
There are no files associated with this item.

qr_code

  • mendeley

    citeulike


rss_1.0 rss_2.0 atom_1.0