장르와 주제 범주간 용어 편차정보를 이용한 디지털 문서의 장르기반 분류A Genre-based Classification of Digital Documents by using Deviation Statistic of Genre-revealing Term and Subject-revealing Term

Cited 0 time in webofscience Cited 0 time in scopus
  • Hit : 535
  • Download : 361
DC FieldValueLanguage
dc.contributor.author이, 용배-
dc.contributor.author맹, 성현-
dc.contributor.authorLee, Yong-Bae-
dc.contributor.authorMyaeng, Sung-Hyon-
dc.date.accessioned2010-03-18T07:56:27Z-
dc.date.available2010-03-18T07:56:27Z-
dc.date.issued2003-12-15-
dc.identifier.citation정보과학회논문지:소프트웨어 및 응용, Vol..30, No.11, pp.1062-1071en
dc.identifier.issn1229-6848-
dc.identifier.urihttp://img.kisti.re.kr/originalView/originalView.jsp?url=/soc_img/society/kiss/JBGHF3/2003/v30n11/JBGHF3_2003_v30n11_1062.pdf-
dc.identifier.urihttp://www.kiise.or.kr/-
dc.identifier.urihttp://hdl.handle.net/10203/17235-
dc.description.abstract장르기반 분류는 문서를 내용이나 주제가 아닌 문서의 형식 또는 스타일에 의해 분류하는 것을 의미한다. 현재 장르분류 방법은 기존의 주제기반 분류방법에 사용되었던 알고리즘을 그대로 이용하거나 자질선택 방법에 있어서도 효과적이지 못하고 비교적 단순하여 분류 정확률 또한 상대적으로 낮았다. 본 연구에서는 장르기반으로 문서를 자동 분류할 수 있는 새로운 방법론을 제시한다. 장르분류 방법은 크게 두 가지 정보를 이용하여 학습과 분류를 하는데 장르 간 용어의 편차정보와 장르 내에 분포되어 있는 주제 범주 간 용어의 편차정보를 이용한다. 제안된 방법의 성능을 측정하기 위해 인터넷상에서 정제되지 않은 문서를 수집하였으며 이를 대상으로 실험한 결과 기존의 카이제곱 자질선택 방법 및 베이지안 분류 알고리즘과 비교하여 약 30% 정도 우수한 정확도를 나타내었다.en
dc.language.isokoen
dc.publisher한국정보과학회en
dc.subject장르en
dc.subject자동분류en
dc.subject자질선택en
dc.title장르와 주제 범주간 용어 편차정보를 이용한 디지털 문서의 장르기반 분류en
dc.title.alternativeA Genre-based Classification of Digital Documents by using Deviation Statistic of Genre-revealing Term and Subject-revealing Termen
dc.typeArticleen
dc.description.alternativeAbstractA genre-based classification means classifying documents by the purpose for which they were written, not by the semantics or subject areas. Most genre classifying methods in the past were based on the existing documents categorization algorithms and ineffective for feature selections, resulting in low quality classification results. In this research, we propose a new method for automatic classification of digital documents by genre. The genre classifier we developed uses the deviation statistic between the genre-revealing term frequencies and between the subject-revealing term frequencies within a genre. We collected Web documents to evaluate the proposed genre classification method. The experimental results show that the proposed method outperforms a direct application of a kai-square feature selection and bayesian classifier often used for subject classification by proving an excellent accuracy of about 30 percent.en
dc.language.Alternativeen_USen
dc.subject.alternativeGenreen
dc.subject.alternativeAutomatic Classificationen
dc.subject.alternativeFeature Selectionen

qr_code

  • mendeley

    citeulike


rss_1.0 rss_2.0 atom_1.0