상향식 주의집중과 하향식 주의집중 인공신경망을 이용한 음성 감정 인식 방법 및 장치Method and Apparatus for Speech Emotion Recognition Using a Top-Down Attention and Bottom-Up Attention Neural Network
상향식 주의집중과 하향식 주의집중 인공신경망을 이용한 음성 감정 인식 방법 및 장치가 제시된다. 일 실시예에 따른 상향식 주의집중(bottom-up attention)과 하향식 주의집중(recurrent top down attention)을 적용한 인공신경망을 이용한 음성 감정 인식 방법은, 입력 받은 음성 신호를 상기 인공신경망의 컨볼루션 레이어(convolution layer)와 풀링 레이어(pooling layer)를 통과시키는 단계; 상기 음성 신호에 대해 감정에 대한 정보가 집중되어야 하는 특징(feature)의 공간적인(spatial) 정보를 유추하는 상향식 주의집중을 통한 값을 곱셈 또는 덧셈 연산하는 단계; 상기 음성 신호에 대해 감정에 대한 정보가 집중되어야 하는 특징의 채널(channel) 정보를 유추하는 하향식 주의집중을 통한 값을 곱셈 또는 덧셈 연산하는 단계; 및 상기 음성 신호에 상기 상향식 주의집중 및 하향식 주의집중을 통한 값을 곱셈 또는 덧셈 연산한 후, 다음 컨볼루션 레이어를 통과시키는 단계를 포함하고, 상기 음성 신호를 상기 인공신경망에 통과시킴에 따라 음성으로부터 감정을 인식할 수 있다.