발화구간 검출을 위해 학습된 CNN 기반입 모양 인식 방법Lip Reading Method Using CNN for Utterance Period Detection

Cited 0 time in webofscience Cited 0 time in scopus
  • Hit : 654
  • Download : 0
소음환경에서의 음성인식 문제점으로 인해 1990년대 중반부터 음성정보와 영상정보를 결합한 AVSR(Audio Visual Speech Recognition) 시스템이 제안되었고, Lip Reading은 AVSR 시스템에서 시각적 특징으로 사용되었다. 본 연구는 효율적인 AVSR 시스템을 구축하기 위해 입 모양만을 이용한 발화 단어 인식률을 극대화하는데 목적이 있다. 본 연구에서는 입 모양 인식을 위해 실험단어를 발화한 입력 영상으로부터 영상의 전처리 과정을 수행하고 입술 영역을 검출 한다. 이후 DNN(Deep Neural Network)의 일종인 CNN(Convolution Neural Network)을 이용하여 발화구간을 검출하고, 동일한 네트워크를 사용하여 입 모양 특징 벡터를 추출하여 HMM(Hidden Markov Model)으로 인식 실험을 진행하였다. 그 결과 발화구간 검출 결과는 91%의 인식률을 보임으로써 Threshold를 이용한 방법에 비해 높은 성능을 나타냈다. 또한 입모양 인식 실험에서 화자종속 실험은 88.5%, 화자 독립 실험은 80.2%로 이전 연구들에 비해 높은 결과를 보였다.
Publisher
한국디지털정책학회
Issue Date
2016-08
Language
Korean
Citation

디지털융복합연구, v.14, no.8, pp.233 - 243

ISSN
1738-1916
DOI
10.14400/JDC.2016.14.8.233
URI
http://hdl.handle.net/10203/213586
Appears in Collection
RIMS Journal Papers
Files in This Item
There are no files associated with this item.

qr_code

  • mendeley

    citeulike


rss_1.0 rss_2.0 atom_1.0