DSpace at KOASAS: 대용량 문서 데이터 셋에서 메타데이터를 활용한 문서 유사도 계산 성능 향상

DSpace at KOASAS

College of Engineering(공과대학)Dept. of Knowledge Service Engineering(지식서비스공학과)KSE-Journal Papers(저널논문)

대용량 문서 데이터 셋에서 메타데이터를 활용한 문서 유사도 계산 성능 향상Improving the Performance of Calculating Document Similarity Using Metadata in Large-Scale Datasets

Cited 0 time in webofscience

Cited 0 time in scopus

Hit : 932
Download : 0

Export

김정은 / 이재길 researcher

대용량 문서 데이터 셋에서 모든 문서 쌍에 대한 유사도를 측정하는 것은 계산상 오버헤드가 매우 크다. 하지만유사할 가능성이 높은 문서 쌍을 예측하고 유사할 가능성이 현저히 낮은 문서 쌍을 계산 전에 제거 한다면 계산상효율을 크게 향상 시킬 수 있다. 본 논문에서는 대용량 문서 데이터 셋에서 메타데이터를 활용하여 문서 유사도계산 성능을 향상시키는 방법을 학술 논문 데이터 셋을 중심으로 제안한다. 문서의 메타데이터란 문서를 기술한데이터로 문서의 속성 정보를 내포하며 학술 논문의 경우에는 제목, 발행처, 저자 등이 있다. 학술 논문 간 관련성을 발행처 정보와 저자 정보를 이용하여 정의하고 관련성이 낮은 학술 논문들은 유사도 계산에서 제외함으로써효율성을 높인다. 42만개의 대용량 학술 논문 데이터 셋에 대해 실험을 수행하였으며 제안하는 방법이 일반적인방법보다 197배 높은 성능을 보임을 확인하였다.

Publisher: 한국정보과학회

Issue Date: 2014-04

Language: Korean

Citation: 데이타베이스연구, v.30, no.1, pp.87 - 95

ISSN: 1598-9798

URI: http://hdl.handle.net/10203/194168

Appears in Collection: IE-Journal Papers(저널논문)

Files in This Item: There are no files associated with this item.

Display Full Item Record

qr_code

트윗하기

KOASAS

Knowledge Service Development Team, KAIST 291 Daehak-ro, Yuseong-gu, Daejeon 34141, Republic of Korea. T. 82-42-350-4493 Email. koasas@kaist.ac.kr
Copyright © 2016. Korea Advanced Institute of Science and Technology. All Rights Reserved.

KOASAS

KOASAS

Browse

대용량 문서 데이터 셋에서 메타데이터를 활용한 문서 유사도 계산 성능 향상Improving the Performance of Calculating Document Similarity Using Metadata in Large-Scale Datasets

KOASAS

Communities & Collections