적응학습 모듈이 탑재된 문자인식 기반 대용량 문서디지털화 방법 및 시스템Method and System for digitalizing a large volume ofdocuments based on character recognition with adaptivetraining module to real data
본 발명은 문서의 디지털화 과정에서 문자인식의 효율적인 구성에 관한 것으로, 특히 방대하고 다양한 문서 디지털화 과정에서 실제데이터에 대한 적응학습이 가능하도록 문자인식 엔진에 탑재된 대표패턴 모델의 자동 생성에 관한 것이다. 상기 와 같은 본 발명은 문서영상의 구조 및 텍스트 정보가 들어 있는 문서데이터로부터 디지털화 대상문서에 포함된 문자 패턴에 대한 출현빈도를 추출하는 단계; 문서 구조 및 분할정보를 이용하여 각 문자 패턴에 대한 개별영상을 분할하는 단계; 상기 개별영상 분할 정보를 이용하여 각 문자 패턴영상에 대한 통계적 특징을 추출하는 단계; 상기 통계적 특징을 이용하여 각 문자 패턴에 대한 대표모델을 생성하여 입력되는 문자패턴과 비교하도록 제공하는 단계를 포함한다. 따라서, 본 발명에 의해 문서 디지털화 시스템의 문자인식 엔진은 실제데이터에 대한 새로운 대표패턴 모델을 구비하여 그 성능을 극대화 할 수 있다.