웹페이지의 내재 규칙 습득 과정에서 규칙식별 역할에 대한 효과 분석

Cited 0 time in webofscience Cited 0 time in scopus
  • Hit : 462
  • Download : 7
오늘날 자원의 보고라 할 수 있는 웹에는 자연어로 표현된 텍스트와 테이블들로 구성된 무수히 많은 문서들이 존재하고 있다. 이러한 웹문서들로부터 규칙을 습득하고 습득된 규칙과 웹문서간의 일관성을 유지하는 방법론이 개발된다면, 지급 웹을 지능화된 웹으로 발전시킬 수 있는 원동력이 될 것이다. 이러한 목적을 달성하기 위해, 본 논문에서는 확장형 규칙 표식 언어 (eXtensible Rule Markup Language,XRML)체계를 개발하였다. XRML은 웹페이지에 내재되어 있는 규칙을 식별하여 자동으로 정형화된 규칙을 생성할 수 있도록 지원하는 규칙 식별 표식 언어(Rule Identification Markup Language, RIML)와 구조화된 규칙을 표현을 위한 규칙 구조 표식 언어(Rule Structure Markup Language)로 구성된다. 특히, RIML은 RSML과 유사한 형태로서 HTML안에 내재되어 있는 규칙을 HTML 문서에 직접 명시할 수 있도록 설계되었기 때문에 테이블이나 텍스트 형태로 표현된 규칙을 효율적으로 식별할 수 있도록 지원한다. 또한, 이렇게 식별된 규칙은 자동으로 정형화된 RSML 문서로 변환될 수 있다. 이에, 본 논문에서는 웹페이지로부터 규칙을 식별하는 과정에서 발생하는 공유되는 변수 (variables) 및 값(values), 생략된 어구, 동의어와 같은 몇가지 중요한 현상들을 발견하고 이들을 해결방법을 제안하였다. 본 논문에서 제안된 XRML의 효과를 측정하는 실험을 수행하였다. 실험 결과를 보면, 웹페이지로부터 규칙은 97.7%의 매우 높은 정확성을 가지고 습득되었으며, 생성된 규칙의 완전성은 89.7%로 측정되었다.
Publisher
한국경영정보학회
Issue Date
2004
Language
KOR
Citation

한국경영정보학회 춘계학술대회, pp.930 - 939

URI
http://hdl.handle.net/10203/21566
Appears in Collection
MT-Conference Papers(학술회의논문)

qr_code

  • mendeley

    citeulike


rss_1.0 rss_2.0 atom_1.0