최대 엔트로피 모델을 이용한 한국어 품사 태깅 = Korean part-of-speech based on maximum entropy model

본 연구에서는 한국어 품사 태깅에 있어서 기존의 확률 기반 품사 태깅에서 사용하는 품사열 문맥 정보로는 해결할 수 없는 경우(28%)가 있음을 보이고, 이를 보완하기 위해서 의미 정보, 어휘 정보 그리고 통사 정보를 제시했다. 아울러 형태소를 단위로 품사 태깅이 이루어질 경우, 미등록어 주위 형태소들의 관련성을 이용하는 미등록어 추정법도 제시했다. 제시된 새로운 문맥 정보들은 자질 함수라는 형태로 정형화 된 후 학습 말뭉치에서 자동으로 추출되어 최대 엔트로피 모델을 기반으로 해서 합쳐졌다. 사용하는 문맥 정보들의 추가로 인한 형태소 격자 구조의 복잡성은 정규화 과정을 거쳐서 감소 시킴으로써, 경로 검색에 걸리는 시간을 단축하였다. 이렇게 만들어진 품사 태깅 시스템을 실험해 본 결과 품사 태깅의 정확률이 95.0%에서 96.0%로 향상되었고, 17.5%의 오류 감소율을 가져왔다. 이는 기존의 확률 기반 품사 태깅 모델의 대표격인 가중치 망보다 1.1%나 정확률이 높은 결과이다. 본 연구의 결과를 통해 품사 태깅에 유용한 자질이 주어질 경우, 이를 최대 엔트로피 모델을 이용하여 성능 향상을 가져올 수 있음을 알았다. 본 연구에서 제안된 방법을 통하여 품사 태깅에 유용한 자질들을 합칠 수 있기 때문에, 이제는 정보들을 어떻게 결합하는가 보다는 품사 태깅에 도움이 되는 유용한 정보들을 찾는 작업이 중요할 것이다. 향후 과제로 본 연구에서 제안하고 있는 실질어와 실질어간의 공기 정보에서 의미적 연관성이 있는 임의의 단어로 확장이 필요하다. 아울러 정확한 하나의 품사열만을 넘기는 것에서 필요에 따라 혹은 목적에 맞게 복수개의 품사열을 넘기는 방식으로의 변환이 필요하다. 또한 영어에서 품사 태깅에 사용하는 문맥 정보들과 한국어에서 사용하는 문맥 정보들간의 연관성에 대한 연구가 필요하다.
Advisors
김길창researcherKim, Gil-Changresearcher
Publisher
한국과학기술원
Issue Date
1999
Identifier
150926/325007 / 000973011
Language
kor
Description

학위논문(석사) - 한국과학기술원 : 전산학과, 1999.2, [ [iv], 46 p. ]

Keywords

최대 엔트로피 모델; 품사 태깅; Part-of-speech tagging; Maximum entropy model

URI
http://hdl.handle.net/10203/34304
Link
http://library.kaist.ac.kr/search/detail/view.do?bibCtrlNo=150926&flag=t
Appears in Collection
CS-Theses_Master(석사논문)
Files in This Item
There are no files associated with this item.
  • Hit : 163
  • Download : 0
  • Cited 0 times in thomson ci

qr_code

  • mendeley

    citeulike


rss_1.0 rss_2.0 atom_1.0