한국어 텍스트 음성 변환 시스템을 위한 엔드투엔드 합성 방식 연구(An) end-to-end synthesis method for Korean text-to-speech system

Cited 0 time in webofscience Cited 0 time in scopus
  • Hit : 549
  • Download : 0
전형적인 통계적 파라미터 방식 텍스트 음성 변환(text-to-speech, TTS) 시스템은 텍스트 분석부, 음향 모델링부, 신호처리 기반의 음성 합성부 등의 여러 모듈로 이루어져 있다. 이로 인해 각 모듈에 대한 전문적인 지식이 필요하며 각 모듈에서 발생하는 오류가 쌓이는 문제점이 존재한다. 따라서 입력 문자열로부터 바로 음성신호를 합성할 수 있는 엔드투엔드 TTS 시스템의 필요성이 부각되고 있다. 본 연구에서는 구글의 엔드투엔드 TTS 시스템인 Tacotron을 활용하여 엔드투엔드 한국어 TTS 시스템을 구현하고 분석하였다. Tacotron은 attention 메커니즘을 포함한 시퀀스-투-시퀀스 모델에 기반한다. 구글이 사용한 훈련 데이터의 37% 분량의 한국어 여성 단일화자 훈련 데이터를 이용하여 주관적 음질 평가를 시행했을 때 MOS 2.98, DMOS 3.25를 얻었다. 적은 양의 훈련 데이터로 모델을 훈련시키기 위해서 인코더에서 모델링하는 n-gram의 최대 n을 5로 사용했다. 또한 한글을 입력 문자로 사용하는 한국어 TTS 시스템을 구현하기 위해 후처리 네트워크로서 highway 네트워크를 사용했다.
Advisors
김회린researcherKim, Hoirinresearcher
Description
한국과학기술원 :전기및전자공학부,
Publisher
한국과학기술원
Issue Date
2018
Identifier
325007
Language
kor
Description

학위논문(석사) - 한국과학기술원 : 전기및전자공학부, 2018.2,[iv, 31 p. :]

Keywords

한국어 텍스트 음성 변환 시스템▼a엔드투엔드▼aTacotron▼aattention 메커니즘▼a시퀀스-투-시퀀스; Korean text-to-speech system▼aend-to-end▼aTacotron▼aattention mechanism▼asequence-to-sequence

URI
http://hdl.handle.net/10203/266755
Link
http://library.kaist.ac.kr/search/detail/view.do?bibCtrlNo=734060&flag=dissertation
Appears in Collection
EE-Theses_Master(석사논문)
Files in This Item
There are no files associated with this item.

qr_code

  • mendeley

    citeulike


rss_1.0 rss_2.0 atom_1.0