대용량 문서 데이터 셋에서 메타데이터를 활용한 문서 유사도 계산 성능 향상Improving the Performance of Calculating Document Similarity Using Metadata in Large-Scale Datasets

Cited 0 time in webofscience Cited 0 time in scopus
  • Hit : 932
  • Download : 0
대용량 문서 데이터 셋에서 모든 문서 쌍에 대한 유사도를 측정하는 것은 계산상 오버헤드가 매우 크다. 하지만유사할 가능성이 높은 문서 쌍을 예측하고 유사할 가능성이 현저히 낮은 문서 쌍을 계산 전에 제거 한다면 계산상효율을 크게 향상 시킬 수 있다. 본 논문에서는 대용량 문서 데이터 셋에서 메타데이터를 활용하여 문서 유사도계산 성능을 향상시키는 방법을 학술 논문 데이터 셋을 중심으로 제안한다. 문서의 메타데이터란 문서를 기술한데이터로 문서의 속성 정보를 내포하며 학술 논문의 경우에는 제목, 발행처, 저자 등이 있다. 학술 논문 간 관련성을 발행처 정보와 저자 정보를 이용하여 정의하고 관련성이 낮은 학술 논문들은 유사도 계산에서 제외함으로써효율성을 높인다. 42만개의 대용량 학술 논문 데이터 셋에 대해 실험을 수행하였으며 제안하는 방법이 일반적인방법보다 197배 높은 성능을 보임을 확인하였다.
Publisher
한국정보과학회
Issue Date
2014-04
Language
Korean
Citation

데이타베이스연구, v.30, no.1, pp.87 - 95

ISSN
1598-9798
URI
http://hdl.handle.net/10203/194168
Appears in Collection
IE-Journal Papers(저널논문)
Files in This Item
There are no files associated with this item.

qr_code

  • mendeley

    citeulike


rss_1.0 rss_2.0 atom_1.0