Formant enhancement of voiced sound for HMM-based speech synthesisHMM 기반 음성 합성기를 위한유성음 포만트 강화 알고리즘

Cited 0 time in webofscience Cited 0 time in scopus
  • Hit : 569
  • Download : 0
본 논문에서는 음소와 문맥정보를 반영해 이에 따라 적응적으로 포만트 보정을 함으로써 HMM 기반 음성 합성기의 음질을 향상시키려는 새로운 시도를 소개한다. 다른 음소와 문맥의 HMM 유닛들을 모두 동일하게 후처리하여 포만트를 강화시키는 기존의 접근법과는 달리, 사전에 이러한 특성들을 반영하는 파라미터들을 제시하고 추출해 코드북을 생성한 뒤 이를 이용해 후처리 필터의 파라미터를 음소와 문맥정보마다 다르게 구하는 방법을 제시하고 있다. 코드북에 포함되는 파라미터들은 포만트 피크로부터 추출된 대역폭, 정규화된 에너지, 위치 등의 정보를 사용한다. 각각의 합성음 프레임에 해당하는 코드워드는 해당 음소의 코드북에서 그 프레임의 파라미터 정보들과 가장 적은 유클리드 거리를 갖는 코드워드로 결정된다. 이 코드워드로부터 해밍필터의 이득과 대역폭을 결정해 포만트 피크마다 적용한다. 제안하는 방법은 세 가지의 장점을 갖고 있다. 첫째로, 기존의 후처리 방법에서 고정된 상수 값만큼만 포만트 에너지를 강화시킬 수 있었던 것과는 달리 다양한 범위의 스무딩된 에너지에 대해서 적응적인 이득을 적용해 후처리를 하는 것이 가능해진다. 둘째로, 음성이 덜 단조롭게 변화된다. 즉, 제안하는 알고리즘에서는 필터 이득이 고정되어 있지 않고 문맥 정보 및 음소 특성을 반영해 변화하기 때문에 문장 내에서 에너지의 변화가 커지게 된다. 셋째로, 버지 사운드가 약화된다. 이는 STRAIGHT에서 주어진 합성 파라미터들로 출력 합성음을 만들 때 각 프레임의 에너지가 전체 문장의 에너지로써 정규화되는데, 이때 제안한 알고리즘의 합성음은 포만트 부분의 에너지가 크기 때문에 상대적으로 고주파대역의 에너지가 적게 들리기 때문이다. 제안하는 알고리즘의 평가를 위해 HTS에서 사용하는 후처리 알고리즘과 비교하는 주관적 듣기 평가를 실시하였다. 그 결과, 79 %의 피실험자가 제안하는 후처리알고리즘의 합성음을 선호한다고 응답하였으며 5%의 응답자는 그 두 합성음 간의 차이가 미묘하다고 응답하였다. 그리고 15%의 응답자는 HTS에 내장된 후처리 알고리즘으로 처리한 합성음을 더 선호한다고 응답하였다. 따라서 제안하는 후처리 알고리즘이 HMM 기반 음성 합성기의 음질을 향상시켰음을 알 수 있다.
Advisors
Hahn, Min Sooresearcher한민수researcher
Description
한국과학기술원 :전기및전자공학과,
Publisher
한국과학기술원
Issue Date
2015
Identifier
325007
Language
eng
Description

학위논문(석사) - 한국과학기술원 : 전기및전자공학과, 2015.2 ,[vii,45 :]

Keywords

formant refinement; HTS; speech synthesis; 포만트 강화; HMM기반 음성 합성 시스템; 음성 합성

URI
http://hdl.handle.net/10203/206770
Link
http://library.kaist.ac.kr/search/detail/view.do?bibCtrlNo=608557&flag=dissertation
Appears in Collection
EE-Theses_Master(석사논문)
Files in This Item
There are no files associated with this item.

qr_code

  • mendeley

    citeulike


rss_1.0 rss_2.0 atom_1.0