다중 특징 결합을 이용한 보안감시 시스템용 음향 이벤트 분류 = Sound event classification for surveillance systems with multiple feature combination

Cited 0 time in webofscience Cited 0 time in scopus
  • Hit : 504
  • Download : 0
DC FieldValueLanguage
dc.contributor.advisor한민수-
dc.contributor.advisorHahn, Min Soo-
dc.contributor.author이승형-
dc.contributor.authorLee, Seunghyung-
dc.date.accessioned2016-05-03T19:36:51Z-
dc.date.available2016-05-03T19:36:51Z-
dc.date.issued2015-
dc.identifier.urihttp://library.kaist.ac.kr/search/detail/view.do?bibCtrlNo=628764&flag=dissertationen_US
dc.identifier.urihttp://hdl.handle.net/10203/206728-
dc.description학위논문(석사) - 한국과학기술원 : 전기및전자공학부, 2015.8 ,[vi, 49 p. :]-
dc.description.abstract최근 들어, 오디오 기반 보안감시 시스템에 대한 관심이 증가하고 있다. 이는 기존의 비디오 기반의 보안감시 시스템이 감지할 수 없는 상황을 오디오 정보를 기반으로 감지할 수 있기 때문이다. 예를 들어, 카메라가 어둠속에 있거나 장애물에 가로막혀 시야 확보가 어려운 상황에서는, 카메라로부터 얻은 비디오 정보는 신뢰할 수 없다. 하지만 이런 상황에서도 오디오 정보는 여전히 신빙성이 있기 때문에 기존의 보안감시 시스템과 더불어 오디오 기반의 보안감시 시스템을 사용하면 보안감시의 효과를 극대화 할 수 있다. 더 신빙성 있는 오디오 보안감시 시스템을 구축하기 위해서는, 가장 먼저 음향 이벤트 분류 정확도를 확보하는 문제가 선결되어야 한다. 음향 이벤트 분류의 정확도 개선을 위해서, 기존의 많은 연구자들은 다양한 음향의 내재적 특성을 잘 나타낼 수 있는 특징을 추출하는 연구를 주로 수행해왔다. 이런 음향 특징으로는 프레임 단위의 특징인 MPEG-7 Low Level Audio Descriptor, Linear Predictor Coefficient(LPC), Perceptual Linear Prediction(PLP), Mel-Frequency Cepstral Coefficient(MFCC) 등이 있다. 또한 프레임 단위 특징의 변형으로 long-term 특징을 사용한 사례도 있으며, 그 예로 히스토그램 기반의 Bag-of-Audio-Words(BoAW), Segmental Two-Dimensional MFCC(STDMFCC) 등이 있다. 기존의 오디오 보안감시 시스템은 이러한 단일 특징만을 사용하여 음향 인식을 수행하는데, 이 경우 특징이 성공적으로 특정 음향을 모델링하지 못한다거나 분류할 음향 클래스가 증가한다면 필연적으로 성능이 악화되게 된다. 따라서 본 논문에서는, 음향 모델별로 다양한 특징들에 가중치를 부여하는 방식으로 결합하여 음향 이벤트 분류에 활용하는 방법을 제안하였다. 특징들에 대한 가중치는 미리 훈련된 가우시안 혼합 모델에 정답인 음향 모델로부터 추출한 특징벡터의 likelihood를 계산하여 likelihood 평균의 비율을 이용해 추정한다. 이 때 가중치 추정에는 훈련과정과 테스트과정에 모두 쓰이지 않는 별도의 데이터베이스 집합을 이용한다. 이와 같이 추정된 가중치는, 추후 분류 과정에서 다중 특징의 가중치 합을 구할 때 사용되며 계산된 가중치 합은 분류에 사용된다. 이와 같은 다중 특징 결합법은, 어느 한 특징이 특정 음향 이벤트 모델링을 잘 하지 못하는 상황에서, 모델링을 잘 하는 다른 특징이 존재할 때 특히 효과적이다. 추가적으로, 실제 보안감시가 이루어지는 환경에서는, 원거리에서 발생한 음향의 낮은 SNR로 인해 분류 성능이 감소된다. 따라서 센서에 입력되는 음향 SNR을 향상하기 위해 잡음에 강인한 이득조절 과정을 전처리로 거쳤고, 이 전처리 과정은 자동 이득 조절을 통한 에너지 보상과 위너 필터링을 통한 잡음 제거 과정으로 구성되어 있다. 성능평가는 16종류의 음향 이벤트 데이터에 대해 수행되었다. 음향 이벤트 데이터베이스는 음향 효과 라이브러리에서 수집된 원본 음향을 강의실 환경에서 5 종류의 거리 환경(0.3, 1, 4, 7, 10 m)에 대해 재 수집하여 사용하였다. 이 때 가장 근거리의 0.3 m 데이터를 훈련에, 나머지 모든 데이터들 중 일부를 특징 간 가중치 추정에, 나머지 모두를 성능평가에 사용하였다. 특징 결합은 STDMFCC와, LPC, PLP 기반의 변형 long-term 특징을 사용하여 수행하였다. 성능평가는 5초 단위의 음향(클립)에 대해 수행되었으며, 클립들은 가우시안 혼합모델과 Maximum-Likelihood 기준에 의해 분류되었다. 이와 같은 방법들을 통해 90.8%의 분류 정확도를 얻었으며, 기존의 단일 특징 기반 음향 이벤트 분류기보다 상대적으로 훨씬 더 좋은 성능을 얻을 수 있었다.-
dc.languagekor-
dc.publisher한국과학기술원-
dc.subject음향 이벤트 분류-
dc.subject보안감시-
dc.subject오디오 보안감시-
dc.subject다중 특징 결합-
dc.subject음향 개선-
dc.subjectSound Event Classification-
dc.subjectSurveillance-
dc.subjectAudio-based Surveillance-
dc.subjectMultiple Feature Combination-
dc.subjectSound Enhancement-
dc.title다중 특징 결합을 이용한 보안감시 시스템용 음향 이벤트 분류 = Sound event classification for surveillance systems with multiple feature combination-
dc.typeThesis(Master)-
dc.identifier.CNRN325007-
dc.description.department한국과학기술원 :전기및전자공학부,-
dc.contributor.localauthor한민수-
dc.contributor.localauthorHahn, Min Soo-
Appears in Collection
EE-Theses_Master(석사논문)
Files in This Item
There are no files associated with this item.

qr_code

  • mendeley

    citeulike


rss_1.0 rss_2.0 atom_1.0