웹 페이지의 내재 규칙 습득 과정에서 규칙식별 역할에 대한 효과 분석Effect of Rule Identification in Acquiring Rules from Web Pages

Cited 0 time in webofscience Cited 0 time in scopus
  • Hit : 554
  • Download : 540
오늘날 자원의 보고라 할 수 있는 웹에는 자연어로 표현된 텍스트와 테이블들로 구성된 무수히 많은 문서들이 존재하고 있다. 이러한 웹문서들로부터 규칙을 습득하고 습득된 규칙과 웹문서간의 일관성을 유지하기 위해, 본 논문에서는 확장형 규칙 표식 언어 (eXtensible Rule Markup Language, XRML) 체계를 개발하였다. XRML은 웹페이지에 내재되어 있는 규칙을 식별하여 자동으로 정형화된 규칙을 생성할 수 있도록 지원하는 규칙 식별 표식 언어 (Rule Identification Markip Language, RIML)와 구조화된 규칙 표현을 위한 규칙 구조 표식 언어 (Structure Markup Language)로 구성된다. 특히, RIML은 HTML안에 내재되어 있는 규칙을 HTML 문서에 직접 명시할 수 있도록 설계되었기 때문에, RIML을 통해 웹페이지에 있는 규칙들을 식별하고 이 식별된 규칙은 RSML으로 표현된 정형화된 규칙으로 자동 변환될 수 있다. 본 논문에서는 RIML의 설계시 웹페이지로부터 규칙을 식별하는 과정에서 발생하는 공유되는 변수 (variables) 및 값 (values), 생략된 어구, 동의어와 같은 몇가지 중요한 현상들을 발견하고 이를 해결하고자 하였다. 제안된 XRML 접근 방법의 성능을 측정하고자, 3개의 대표적인 온라인 서점인 Amazon.com, BarnesandNoble.com, Powells.com 의 실제 웹페이지들로부터 배송 및 환불과 관련된 규칙을 습득하여 XRML의 효과를 측정하는 실험을 수행하였다. 실험 결과에 따르면 웹페이지로부터 규칙은 97.7%의 매우 높은 정확성을 가지고 습득되었으며, 생성된 규칙의 완전성은 88.5%로 측정되어, XRML이 특정 주제에 관한 전문가 시스템을 구축하기 위해 웹페이지로부터 규칙을 추출할 때 효율적인 도구가 될 수 있음이 예시되었다.
Publisher
한국지능정보시스템학회
Issue Date
2005-06
Language
Korean
Citation

지능정보연구, v.11, no.1, pp.123 - 151

ISSN
0925-9902
URI
http://hdl.handle.net/10203/21362
Appears in Collection
MT-Journal Papers(저널논문)
Files in This Item
39595.pdf(1.45 MB)Download

qr_code

  • mendeley

    citeulike


rss_1.0 rss_2.0 atom_1.0