한국 신문 영상의 구조 분석을 통한 기사의 추출Extracting Articles from Structural Analysis of Korean Newspaper Image

Cited 0 time in webofscience Cited 0 time in scopus
  • Hit : 801
  • Download : 316
본 논문에서는 한국 신문 영상으로부터 기사를 자동적으로 추출할 수 있는 한국 신문 처리 시스템을 기술한다. 이 시스템은 크게 3개의 구성 요소, 즉 신문을 표제, 기사 본문, 그림과 같은 영역으로 분할하는 영역 명시 단계와 명시된 영역으로부터 기사를 구성하는 기사 추출 단계 그리고 마지막으로 텍스트 열(text line)로부터 문자 단위 영상을 추출하는 문자 영상 추출 단계로 구성된다. 신문 기사의 각 영역을 명시하기 위해서 영역의 통계적 특성과 분리선을 이용하였다. 분리선의 기능을 이용함으로서 영역의 통계적 특성만을 사용하는 것보다 빠르고 정확한 유형 명시가 가능하였다. 기사 추출 단계에서는 한국 신문 기사의 일반적인 지면 배열 원칙에 대한 정보를 이용하였다. 신문에 사용되는 문자의 크기가 다양함으로 문자 단위 영상을 추출하기 위해서 일반적인 높이/너비 비율을 이용하여 주어진 텍스트 열의 너비 또는 높이로부터 추출하고자 하는 문자의 크기를 계산하였다. 실험을 통하여 본 시스템의 성능의 우수성이 입증되었다.
In this paper, we describe a Korean newspaper processing system which can extract article images automatically from Korean newspaper image. This system consists of three modules; 1) newspaper region identification module which segments newspaper image into regions such as titles, article bodies, pictures and figures, 2) newspaper article tracing module which form an article by connecting separated newspaper regions and 3) character extraction module which segments text into character images. Both of statistical characteristics of regions and ruled lines are used in the region identification process. By utilizing the information of ruled lines, regions are identified much faster and more accurately than those based on only statistical information. In the article extraction process, the knowledge about general layout principles of Korean newspapers is utilized. Since characters may appear in different size, a single character size is calculated from given line width or line height considering the typical height/width ratio of Korean fonts. The performance of the system was assured through a set of experiments.
Publisher
한국정보과학회
Issue Date
1988-10
Citation

정보과학회논문지, Vol.6, No.5, pp.392- 404

URI
http://hdl.handle.net/10203/13938
Link
http://www.kiise.or.kr/
Appears in Collection
CS-Journal Papers(저널논문)
Files in This Item
한국 신문 영상의 구조 분석을 통한 기사의 추출.pdf(2.74 MB)Download

qr_code

  • mendeley

    citeulike


rss_1.0 rss_2.0 atom_1.0