웹 검색 시스템을 위한 자동 문서 장르 분류Automatic document genre classification for a web search system

Cited 0 time in webofscience Cited 0 time in scopus
  • Hit : 476
  • Download : 0
웹에서의 정보의 증가로 인하여, 검색 엔진의 검색결과 문서로부터 필요한 정보를 효율적으로 찾기가 어렵다. 이 문제를 해결하기 위한 한가지 방법은 웹 문서를 여러 가지의 기준에 따라 분류하는 것이다. 대부분의 문서 분류는 그 문서에서 다루는 내용인 주제 혹은 토픽에 초점이 맞추어져 왔다. 이 논문에서는, 웹 검색 시스템의 검색 결과 문서에 자동 문서 장르 분류를 적용한다. 기존 연구를 토대로 웹 문서를 위한 장르의 분류를 제안한다. 그리고 웹 문서의 장르를 분류하기 위한 복수 개의 웹 문서 자질 집합을 제안한다. 이전의 연구에서 사용되었던 문장의 개수, 특정 어휘의 출현 회수 등과 같은 일반 문서의 특징을 나타내는 기본적인 자질 집합은 문서의 텍스트 부분에서 추출한다. 그러나, 웹 문서는 URL을 가지고 있으며, 문서 내에 HTML 태그를 가지고 있는 점이 일반 문서와 다르다. 이 논문에서는 URL과 HTML 태그로부터 추출하는 웹 문서의 특징을 나타내는 새로운 자질 집합들을 소개한다. 이러한 자질들의 자질 분류 성능을 평가하기 위하여 한국어 웹 문서 말뭉치를 구축하였다. 이 말뭉치를 이용하여 자질 집합들을 특성을 실험을 통해 면밀히 검토한다. 사용자에게 검색된 문서의 장르 정보를 제공하기 위하여 현재 서비스 중인 웹 검색 시스템에 자동 문서 장르 분류를 적용하였다. 사용자에게 제공된 장르 정보로 사용자는 웹 문서에 대한 새로운 관점을 가질 수 있었다. 구축된 말뭉치는 1,224개의 웹 문서로 이루어졌으며, 이 문서들은 16개의 세부 장르로 분류되었다. 자질 선택 방법을 이용하여 적합한 자질을 선택함으로써, 말뭉치에 대해 79.4%의 정확률로 자동 웹 문서 장르 분류를 했다. 실험 결과, 웹 문서의 URL과 HTML 태그로부터 추출한 자질들이 문서의 장르를 구분하는데 적절한 것으로 나타났다. 사용자 설문 조사 결과 장르 정보는 웹 검색 시스템에 유용한 것으로 밝혀졌다.
Advisors
최기선researcherChoi, Key-Sunresearcher
Description
한국과학기술원 : 전산학전공,
Publisher
한국과학기술원
Issue Date
2005
Identifier
244910/325007  / 000965337
Language
kor
Description

학위논문(박사) - 한국과학기술원 : 전산학전공, 2005.2, [ ix, 103 p. ]

Keywords

웹 문서; 웹 검색; Automatic genre classification; URL; HTML tags; 자동 장르 분류; web document

URI
http://hdl.handle.net/10203/32884
Link
http://library.kaist.ac.kr/search/detail/view.do?bibCtrlNo=244910&flag=dissertation
Appears in Collection
CS-Theses_Ph.D.(박사논문)
Files in This Item
There are no files associated with this item.

qr_code

  • mendeley

    citeulike


rss_1.0 rss_2.0 atom_1.0