Local Binary Pattern을 이용한 화자종속 영상음성인식Speaker dependent visual speech recognition using local binary pattern

Cited 0 time in webofscience Cited 0 time in scopus
  • Hit : 1089
  • Download : 0
소리음성인식은 최근에 매우 만족스러운 성능을 제공하고 있다. 하지만 소리신호가 소음에 의해 오염된 정도에 따라 인식률이 떨어지는 결과가 나온다. 이는 소리음성인식의 가장 큰 취약점중의 하나이다. 예를 들어, 자동차 내 외부에서 나오는 소음들(엔진, 타이어, 공기역학적 소음) 안에서 운전자의 음성을 인식한다거나, 운집한 사람들 사이에서의 특정한 사람의 음성인식은 소리기반 음성인식의 성능이 저하되는 대표적인 상황이다. 이 문제를 해결하기 위해 소음에 영향을 받지 않는 영상정보가 보조역할로 추가가 되어야 한다. 보통 음성은 조음기관(혀, 성대, 입술)을 통해서 생성되는데, 그 중 입술은 매우 관측이 잘되는 기관이다. 그래서 화자의 음성은 부분적으로 입술의 움직임을 통해 추측이 가능하다. 이러한 이유 때문에 많은 연구들이 소리신호와 영상정보를 융합하여 최종 음성인식을 수행하는 데에 주력하였다. 본 논문에서는 입술의 영상정보를 이용해서 영상음성인식을 목적으로 한다. 먼저 입술의 시퀀스 데이터는 말하는 입과 말하지 않는 입으로 구분하고, 시간 축으로 표준화 작업을 거친다. 이 작업을 마친 데이터는 여러 개의 볼륨으로 나뉘어 VLBP 와 LBP-TOP 특징 점이 각각 추출된다. 분류단계에서는 다중클래스 아다부스트와 리스트 스퀘어 방식으로 분류하는 두 가지 기법이 제안된다. 실험단계에서는 OuluVS 데이터베이스에서 성능시험을 하였다. 실험결과상 LBP-TOP 과 리스트스퀘어의 조합이 가장 좋은 성능을 나타내었고, 반대로 VLBP 와 다중클래스 아다부스트 쌍으로 실험한 성능은 매우 낮았다. 또한, 여기서 제안된 알고리즘은 말하는 입과 말하지 않는 입에 해당하는 프레임을 얼마나 정확히 검출하느냐에 따라 성능 면에서 매우 민감한 성질을 갖고 있다.
Advisors
김준모researcherKim, Jun-Mo
Description
한국과학기술원 : 미래자동차학제전공,
Publisher
한국과학기술원
Issue Date
2013
Identifier
514948/325007  / 020114155
Language
kor
Description

학위논문(석사) - 한국과학기술원 : 미래자동차학제전공, 2013.2, [ v, 32 p. ]

Keywords

영상음성인식; 리스트 스퀘어; 다중 클래스 아다부스트; visual speech recognition; least square; Multi-class Adaboost; Local Binary Pattern; 로컬 바이너리 패턴

URI
http://hdl.handle.net/10203/182325
Link
http://library.kaist.ac.kr/search/detail/view.do?bibCtrlNo=514948&flag=dissertation
Appears in Collection
PD-Theses_Master(석사논문)
Files in This Item
There are no files associated with this item.

qr_code

  • mendeley

    citeulike


rss_1.0 rss_2.0 atom_1.0