대용량 검색 엔진을 위한 병렬 웹 크롤러의 설계 및 구현Design and implementation of a parallel web crawler for large-scale search engines

Cited 0 time in webofscience Cited 0 time in scopus
  • Hit : 695
  • Download : 0
DC FieldValueLanguage
dc.contributor.advisor황규영-
dc.contributor.advisorWhang, Kyu-Young-
dc.contributor.author신은정-
dc.contributor.authorShin, Eun-Jeong-
dc.date.accessioned2011-12-13T06:06:37Z-
dc.date.available2011-12-13T06:06:37Z-
dc.date.issued2007-
dc.identifier.urihttp://library.kaist.ac.kr/search/detail/view.do?bibCtrlNo=265047&flag=dissertation-
dc.identifier.urihttp://hdl.handle.net/10203/34766-
dc.description학위논문(석사) - 한국과학기술원 : 전산학전공, 2007.2, [ vi, 35 p. ]-
dc.description.abstract의 크기가 폭발적으로 증가함에 따라 인터넷에서 정보를 얻는 수단으로서 검색 엔진의 중요성이 부각되고 있다. 검색 엔진은 사용자에게 최신의 검색 결과를 제공하기 위해 웹 페이지를 주기적으로 수집하여 이를 데이타베이스에 저장한다. 웹 크롤러는 이러한 목적으로 웹 페이지를 수집하는 프로그램이다. 대부분의 검색 엔진은 제한된 시간 내에 많은 수의 웹 페이지를 수집하기 위해 다수의 머신을 사용한 병렬 웹 크롤러를 이용한다. 그러나, 병렬 웹 크롤러의 아키텍처와 세부 구현 방법이 잘 알려져있지 않기 때문에 실제로 병렬 웹 크롤러를 구현하는데 어려움이 많다. 본 논문에서는 병렬 웹 크롤러,(parallel web crawler),의 아키텍처와 세부 구현 방법을 제시한다. 병렬 웹 크롤러는 다수의 머신에서 웹 페이지를 병렬적으로 수집하기 위해 coordinator/agent 구조의 2-tier 모델을 사용한다. Coordinator/agent 모델은 각 머신에서 웹 페이지를 수집하기 위한 다수의 agent들과 이 agent들을 관리하기 위한 하나의 coordinator로 구성된다. 병렬 웹 크롤러는 웹 페이지를 수집하기 위한 crawling 모듈, 수집한 웹 페이지들을 데이터베이스 로딩 포맷으로 변환하기 위한 converting 모듈, 그리고, 수집된 웹 페이지의 중요도를 계산하기 위한 ranking 모듈로 구성된다. 본 논문에서는 병렬 웹 크롤러의 각 모듈들을 설명하고, 세부 구현 방법을 설명한다. 마지막으로, 실험을 통해 병렬 웹 크롤러의 성능을 평가하였다. 실험 결과, 제안된 병렬 웹 크롤러가 머신 개수와 수집해야할 웹 페이지 수에 scalable함을 보였다.kor
dc.languagekor-
dc.publisher한국과학기술원-
dc.subject병렬 웹 크롤러-
dc.subject검색 엔진-
dc.subjectsearch engine-
dc.subjectparallel web crawler-
dc.title대용량 검색 엔진을 위한 병렬 웹 크롤러의 설계 및 구현-
dc.title.alternativeDesign and implementation of a parallel web crawler for large-scale search engines-
dc.typeThesis(Master)-
dc.identifier.CNRN265047/325007 -
dc.description.department한국과학기술원 : 전산학전공, -
dc.identifier.uid020053301-
dc.contributor.localauthor황규영-
dc.contributor.localauthorWhang, Kyu-Young-
Appears in Collection
CS-Theses_Master(석사논문)
Files in This Item
There are no files associated with this item.

qr_code

  • mendeley

    citeulike


rss_1.0 rss_2.0 atom_1.0