DSpace at KOASAS: Local Binary Pattern을 이용한 화자종속 영상음성인식

DSpace at KOASAS

College of Engineering(공과대학)Division of Future Vehicle(미래자동차 학제전공)PD-Theses_Master(석사논문)

Local Binary Pattern을 이용한 화자종속 영상음성인식Speaker dependent visual speech recognition using local binary pattern

Cited 0 time in webofscience

Cited 0 time in scopus

Hit : 1126
Download : 0

Export

주정우 / Ju, Jeong-Woo

소리음성인식은 최근에 매우 만족스러운 성능을 제공하고 있다. 하지만 소리신호가 소음에 의해 오염된 정도에 따라 인식률이 떨어지는 결과가 나온다. 이는 소리음성인식의 가장 큰 취약점중의 하나이다. 예를 들어, 자동차 내 외부에서 나오는 소음들(엔진, 타이어, 공기역학적 소음) 안에서 운전자의 음성을 인식한다거나, 운집한 사람들 사이에서의 특정한 사람의 음성인식은 소리기반 음성인식의 성능이 저하되는 대표적인 상황이다. 이 문제를 해결하기 위해 소음에 영향을 받지 않는 영상정보가 보조역할로 추가가 되어야 한다. 보통 음성은 조음기관(혀, 성대, 입술)을 통해서 생성되는데, 그 중 입술은 매우 관측이 잘되는 기관이다. 그래서 화자의 음성은 부분적으로 입술의 움직임을 통해 추측이 가능하다. 이러한 이유 때문에 많은 연구들이 소리신호와 영상정보를 융합하여 최종 음성인식을 수행하는 데에 주력하였다. 본 논문에서는 입술의 영상정보를 이용해서 영상음성인식을 목적으로 한다. 먼저 입술의 시퀀스 데이터는 말하는 입과 말하지 않는 입으로 구분하고, 시간 축으로 표준화 작업을 거친다. 이 작업을 마친 데이터는 여러 개의 볼륨으로 나뉘어 VLBP 와 LBP-TOP 특징 점이 각각 추출된다. 분류단계에서는 다중클래스 아다부스트와 리스트 스퀘어 방식으로 분류하는 두 가지 기법이 제안된다. 실험단계에서는 OuluVS 데이터베이스에서 성능시험을 하였다. 실험결과상 LBP-TOP 과 리스트스퀘어의 조합이 가장 좋은 성능을 나타내었고, 반대로 VLBP 와 다중클래스 아다부스트 쌍으로 실험한 성능은 매우 낮았다. 또한, 여기서 제안된 알고리즘은 말하는 입과 말하지 않는 입에 해당하는 프레임을 얼마나 정확히 검출하느냐에 따라 성능 면에서 매우 민감한 성질을 갖고 있다.

Advisors: 김준모 researcher; Kim, Jun-Mo

Description: 한국과학기술원 : 미래자동차학제전공,

Publisher: 한국과학기술원

Issue Date: 2013

Identifier: 514948/325007 / 020114155

Language: kor

Description: 학위논문(석사) - 한국과학기술원 : 미래자동차학제전공, 2013.2, [ v, 32 p. ]

Keywords: 영상음성인식; 리스트 스퀘어; 다중 클래스 아다부스트; visual speech recognition; least square; Multi-class Adaboost; Local Binary Pattern; 로컬 바이너리 패턴

URI: http://hdl.handle.net/10203/182325

Link: http://library.kaist.ac.kr/search/detail/view.do?bibCtrlNo=514948&flag=dissertation

Appears in Collection: PD-Theses_Master(석사논문)

Files in This Item: There are no files associated with this item.

Display Full Item Record

qr_code

트윗하기

KOASAS

Knowledge Service Development Team, KAIST 291 Daehak-ro, Yuseong-gu, Daejeon 34141, Republic of Korea. T. 82-42-350-4493 Email. koasas@kaist.ac.kr
Copyright © 2016. Korea Advanced Institute of Science and Technology. All Rights Reserved.

KOASAS

KOASAS

Browse

Local Binary Pattern을 이용한 화자종속 영상음성인식Speaker dependent visual speech recognition using local binary pattern

KOASAS

Communities & Collections