스타일러: 음성 분해를 통해 신속성과 견고성을 갖춘 스타일 요소 모델링을 기반으로 다양한 표현 및 스타일 제어가 가능한 인공신경망 기반의 음성 합성 시스템STYLER: STYLE FACTOR MODELING WITH RAPIDITY AND ROBUSTNESS VIA SPEECH DECOMPOSITION FOR EXPRESSIVE AND CONTROLLABLE NEURAL TEXT TO SPEECH
음성 분해를 통해 신속성과 견고성을 갖춘 스타일 요소 모델링을 기반으로 다양한 표현 및 스타일 제어가 가능한 인공신경망 기반의 음성 합성 기술이 개시된다. 일 실시예에 따른 음성 합성 시스템에 의해 수행되는 합성 방법은, 스타일 요소 모델링을 위한 음성합성 모델에 오디오 데이터 및 텍스트 데이터를 입력받는 단계; 상기 음성합성 모델을 이용하여 상기 오디오 데이터 및 텍스트 데이터에 대한 스타일 요소를 모델링하는 단계; 및 상기 모델링을 통해 상기 오디오 데이터 및 텍스트 데이터에 대한 합성 음성 데이터를 출력하는 단계를 포함하고, 상기 음성합성 모델은, 스타일 요소 모델링을 통해 텍스트 데이터 및 오디오 데이터를 융합 및 분해하여 표현 및 제어가 가능한 합성 음성 데이터를 생성하도록 학습된 것일 수 있다.