DC Field | Value | Language |
---|---|---|
dc.contributor.author | 신은정 | ko |
dc.contributor.author | 김이른 | ko |
dc.contributor.author | 허준석 | ko |
dc.contributor.author | 황규영 | ko |
dc.date.accessioned | 2013-03-06T20:26:15Z | - |
dc.date.available | 2013-03-06T20:26:15Z | - |
dc.date.created | 2012-02-06 | - |
dc.date.created | 2012-02-06 | - |
dc.date.issued | 2008-08 | - |
dc.identifier.citation | 정보과학회논문지 : 컴퓨팅의 실제 및 레터, v.14, no.6, pp.567 - 581 | - |
dc.identifier.issn | 1229-7712 | - |
dc.identifier.uri | http://hdl.handle.net/10203/88352 | - |
dc.description.abstract | 웹의 크기가 폭발적으로 증가함에 따라 인터넷에서 정보를 얻는 수단으로서 검색 엔진의 중요성이 부각되고 있다. 검색 엔진은 사용자에게 최신의 정보를 검색 결과로서 제공하기 위해 웹 페이지를 주기적으로 수집하고 이를 데이타베이스에 저장한다. 웹 크롤러는 이러한 목적으로 웹 페이지를 수집하는 프로그램이다. 대부분의 검색 엔진은 제한된 시간 내에 많은 수의 웹 페이지를 수집하기 위해 다수의 머신을 사용하는 병렬 웹 크롤러를 이용한다. 그러나, 병렬 웹 크롤러의 아키텍처와 세부 구현 방법이 잘 알려져 있지 않기 때문에 실제로 병렬 웹 크롤러를 구현하는 데에 어려움이 많다. 본 논문에서는 병렬 웹 크롤러(parallel web crawler)의 아키텍처와 세부 구현 방법을 제시한다. 병렬 웹 크롤러는 다수의 머신에서 웹 페이지를 병렬적으로 수집하기 위해 조정자(coordinator) 대리자(agent) 구조의 2-티어(tier) 모델을 사용한다. 조정자/대리자 모델은 각 머신에서 웹 페이지를 수집하기 위한 다수의 대리자들과 이 대리자들을 관리하기 위한 하나의 조정자로 구성된다. 병렬 웹 크롤러는 웹 페이지를 수집하기 위한 크롤링(crawling) 모듈, 수집한 웹 페이지를 데이타베이스 로딩 포맷으로 변환하기 위한 컨버팅(converting) 모듈, 수집된 웹 페이지의 중요도를 계산하기 위한 랭킹(ranking) 모듈로 구성된다. 본 논문에서는 병렬 웹 크롤러의 각 모듈들을 설명하고, 세부 구현 방법을 설명한다. 마지막으로, 실험을 통해 병렬 웹 크롤러의 성능을 평가하였다. 실험 결과, 제안된 병렬 웹 크롤러가 수집해야할 웹 페이지 개수와 머신 개수에 따라 확장 가능함을 보였다. | - |
dc.language | Korean | - |
dc.publisher | 한국정보과학회 | - |
dc.title | 오디세우스 대용량 검색 엔진을 위한병렬 웹 크롤러의 구현 | - |
dc.title.alternative | Implementation of a Parallel Web Crawler for the Odysseus Large-Scale Search Engine | - |
dc.type | Article | - |
dc.type.rims | ART | - |
dc.citation.volume | 14 | - |
dc.citation.issue | 6 | - |
dc.citation.beginningpage | 567 | - |
dc.citation.endingpage | 581 | - |
dc.citation.publicationname | 정보과학회논문지 : 컴퓨팅의 실제 및 레터 | - |
dc.identifier.kciid | ART001270209 | - |
dc.contributor.localauthor | 황규영 | - |
dc.contributor.nonIdAuthor | 신은정 | - |
dc.contributor.nonIdAuthor | 김이른 | - |
dc.contributor.nonIdAuthor | 허준석 | - |
dc.subject.keywordAuthor | 병렬 웹 크롤러 | - |
dc.subject.keywordAuthor | 대용량 검색 엔진 | - |
dc.subject.keywordAuthor | parallel web crawlers | - |
dc.subject.keywordAuthor | large-scale search engines | - |
Items in DSpace are protected by copyright, with all rights reserved, unless otherwise indicated.