Speaker Embedding with Speech Posterior in Speech Enhancement

Cited 0 time in webofscience Cited 0 time in scopus
  • Hit : 28
  • Download : 0
화자 변이는 음성 향상의 성능을 하락시키는 주된 요인 중 하나이다. 본 논문은 이러한 성능의 하락을 완화하기 위해 화자 임베딩과 음성 확률을 음성 향상 시스템에 활용하였다. 제안된 기법에서는 합성곱 신경망 기반의 화자 임베딩 추출기가 화자별로 구분이 있는 유의미한 임베딩을 추출하도록 하기 위해 음성 향상 시스템에 통합되기 전에 먼저 훈련된다. 훈련이 끝난 후 추출기는 U-Net 기반의 음성 향상 모듈에 통합된다. 추출기를 통해 얻게 된 음성 임베딩은 음성 향상 모듈내 인코더의 출력인 은닉 특징에 결합되어 음성 향상 모듈이 화자 변이에 맞서 성능을 향상 시킬 수 있는데 큰 역할을 한다. 또한 음성 검출기를 통해 프레임 단위로 얻어진 음성 확률을 1차원 합성곱 신경망을 통해 어텐션 벡터들로 변환시킨 뒤 음성 임베딩과 함께 음성 향상 모듈의 성능을 향상시키는데 도움을 준다. 실험은 TIMIT 데이터 상에서 진행되었고 결과를 통해 제안된 기법이 음성의 음질과 명료도를 향상시키는 것을 확인할 수 있었다.
Publisher
한국인공지능학회
Issue Date
2020-08-28
Language
English
Citation

2020년도 한국인공지능학회 하계학술대회

URI
http://hdl.handle.net/10203/278548
Appears in Collection
EE-Conference Papers(학술회의논문)
Files in This Item
There are no files associated with this item.

qr_code

  • mendeley

    citeulike


rss_1.0 rss_2.0 atom_1.0