DC Field | Value | Language |
---|---|---|
dc.contributor.advisor | 황규영 | - |
dc.contributor.advisor | Whang, Kyu-Young | - |
dc.contributor.author | 신은정 | - |
dc.contributor.author | Shin, Eun-Jeong | - |
dc.date.accessioned | 2011-12-13T06:06:37Z | - |
dc.date.available | 2011-12-13T06:06:37Z | - |
dc.date.issued | 2007 | - |
dc.identifier.uri | http://library.kaist.ac.kr/search/detail/view.do?bibCtrlNo=265047&flag=dissertation | - |
dc.identifier.uri | http://hdl.handle.net/10203/34766 | - |
dc.description | 학위논문(석사) - 한국과학기술원 : 전산학전공, 2007.2, [ vi, 35 p. ] | - |
dc.description.abstract | 의 크기가 폭발적으로 증가함에 따라 인터넷에서 정보를 얻는 수단으로서 검색 엔진의 중요성이 부각되고 있다. 검색 엔진은 사용자에게 최신의 검색 결과를 제공하기 위해 웹 페이지를 주기적으로 수집하여 이를 데이타베이스에 저장한다. 웹 크롤러는 이러한 목적으로 웹 페이지를 수집하는 프로그램이다. 대부분의 검색 엔진은 제한된 시간 내에 많은 수의 웹 페이지를 수집하기 위해 다수의 머신을 사용한 병렬 웹 크롤러를 이용한다. 그러나, 병렬 웹 크롤러의 아키텍처와 세부 구현 방법이 잘 알려져있지 않기 때문에 실제로 병렬 웹 크롤러를 구현하는데 어려움이 많다. 본 논문에서는 병렬 웹 크롤러,(parallel web crawler),의 아키텍처와 세부 구현 방법을 제시한다. 병렬 웹 크롤러는 다수의 머신에서 웹 페이지를 병렬적으로 수집하기 위해 coordinator/agent 구조의 2-tier 모델을 사용한다. Coordinator/agent 모델은 각 머신에서 웹 페이지를 수집하기 위한 다수의 agent들과 이 agent들을 관리하기 위한 하나의 coordinator로 구성된다. 병렬 웹 크롤러는 웹 페이지를 수집하기 위한 crawling 모듈, 수집한 웹 페이지들을 데이터베이스 로딩 포맷으로 변환하기 위한 converting 모듈, 그리고, 수집된 웹 페이지의 중요도를 계산하기 위한 ranking 모듈로 구성된다. 본 논문에서는 병렬 웹 크롤러의 각 모듈들을 설명하고, 세부 구현 방법을 설명한다. 마지막으로, 실험을 통해 병렬 웹 크롤러의 성능을 평가하였다. 실험 결과, 제안된 병렬 웹 크롤러가 머신 개수와 수집해야할 웹 페이지 수에 scalable함을 보였다. | kor |
dc.language | kor | - |
dc.publisher | 한국과학기술원 | - |
dc.subject | 병렬 웹 크롤러 | - |
dc.subject | 검색 엔진 | - |
dc.subject | search engine | - |
dc.subject | parallel web crawler | - |
dc.title | 대용량 검색 엔진을 위한 병렬 웹 크롤러의 설계 및 구현 | - |
dc.title.alternative | Design and implementation of a parallel web crawler for large-scale search engines | - |
dc.type | Thesis(Master) | - |
dc.identifier.CNRN | 265047/325007 | - |
dc.description.department | 한국과학기술원 : 전산학전공, | - |
dc.identifier.uid | 020053301 | - |
dc.contributor.localauthor | 황규영 | - |
dc.contributor.localauthor | Whang, Kyu-Young | - |
Items in DSpace are protected by copyright, with all rights reserved, unless otherwise indicated.