양방향 오디오 서비스를 위한 2단 다객체 오디오의 효율적인 잔차 신호 부호화 방법 = Efficient residual coding method of spatial audio object coding with two-step coding structure for interactive audio services

지금까지 사람들은 음악 감상을 주로 프로듀서와 같은 전문가들이 오디오 믹싱 등의 작업을 통해 만든 음악을 단순히 볼륨 조절만을 통해 듣는 형태로 소비해 왔다. 그러나 양방향 네트워크가 발달하고 멀티채널 오디오 등과 같은 실감 음향에 대한 청취자의 욕구가 증대되고, 사용자 제작 콘텐츠(UGC; User Generated Contents) 서비스의 활성화 등과 더불어 개인의 취향에 따라 음악을 다양한 형태로 소비하고자 하는 욕구가 커짐에 따라 고품질 양방향 오디오 서비스 (IAS; Interactive Audio Service)에 대한 기대감은 무척 빠르게 증가하고 있다. 양방향 오디오 서비스는 개인의 취향에 따라 오디오 객체들을 자유롭게 제어하여 자신이 원하는 음악을 만들 수 있다는 장점이 있지만, 객체별 완벽한 제어를 위해선 모든 오디오 객체 신호가 전송되어야 하기 때문에 전송 비트율이 급격히 늘어난다는 단점이 있다. 앞에서 언급한 실감음향 및 사용자 취향에 맞춘 양방향 오디오 서비스에 대한 요구의 증가는 기존 모노, 스테레오 신호를 처리하던 오디오 부호화 연구가 다채널/다객체 오디오 신호 처리를 위한 연구로 바뀌게 되는 계기가 되었다. 자유로운 오디오 객체 제어를 위한 부호화 방법으로 적은 비트율로도 좋은 음질을 제공하는 부호화 방법이 공간 오디오 객체 부호화 (SAOC; Spatial Audio Object Coding) 방법이다. 공간 오디오 객체 부호화 방법은 다양한 오디오 객체를 하나의 다운믹스 신호와 공간정보 파라메타를 갖는 소량의 부가 정보로 표현 전송하는 방법이다. 많은 오디오 객체를 하나의 다운믹스 신호와 소량의 부가정보로 표현하기 때문에 비교적 높은 압축률, 즉, 상당한 비트율 감소가 가능하다. 또한 인간의 청각 특성을 반영한 공간 파라메타 정보를 이용해 오디오 객체를 복원하기 때문에 비교적 높은 압축률에도 불구하고 상당히 좋은 음질을 제공한다. 이렇듯 양방향 오디오 서비스 제공을 위해 적합한 부호화 방법인 공간 다객체 오디오 객체 부호화 방법은 모든 객체가 재생이 되는 일반적인 경우에는 큰 음질열화가 느껴지지 않지만, 보컬(vocal) 신호만 제거하고 사용자의 노래로 대체하고자 하는 가로오케나 특정 악기의 연주만을 듣고자 하는 솔로 서비스와 같이 특정 객체의 신호를 삭제하거나, 그 객체 신호만 홀로 재생하는 경우에는 음질 열화가 상대적으로 심하게 나타나는 문제점이 있다. 이러한 음질 열화 문제는 2단 공간 오디오 객체 부호화 (SAOC-TSC; Spatial Audio Object scheme with Two-Step coding) 방법으로 해결이 가능하다. 이 방법은 삭제되거나 재생되는 특정 객체인 타겟 신호와 타겟 신호를 제외한 나머지 일반 객체 신호를 잘 분리해 내기 위해 잔차신호 코딩 방법을 추가로 실시한다. 즉, 타겟 신호와 다른 일반 신호가 합쳐진 다운믹스 신호 간 잔차신호 코딩 수행을 통해 타겟 신호와 일반 다운믹스 신호를 보다 효과적으로 분리해 낼 수 있다. 다만, 그로 인한 추가 코딩으로 발생하는 공간 파라메타 정보인 채널 레벨 차 (CLD; Channel Level Difference) 값과 잔차신호(residual signal) 로 인해 부가정보 비트율이 2~3배 가량 증가하는 단점이 있다. 본 연구에서는 2단 공간 오디오 객체 부호화 방법에서 증가되는 부가정보 비트율 감소를 위해 효율적인 잔차신호 코딩방법을 제안한다. 기존의 2단 공간 오디오 객체 부호화 방법에서는 고정된 비트율로 잔차신호 코딩을 수행하는 데, 타겟 신호와 일반 다운믹스 신호가 유효 주파수 대역 내에서 동시에 존재하지 않을 수도 있고, 객체에 따라서 기존 설정해 놓은 유효 대역폭(0 ~5 .5 kHz)보다 낮은 대역폭에만 신호가 있을 수 있다. 따라서 이러한 이유로 기존 2단 공간 오디오 객체 부호화에서 처럼 잔차신호 코딩을 전체 유효 주파수 대역에 대해 항상 수행하는 것은 비효율적이다. 제안하는 효율적인 잔차 신호 코딩 방법은 타겟 신호와 일반 다운믹스 신호의 존재 유무를 채널 레벨 차이 값을 계산하여 확인하고 이를 바탕으로 유효 주파수 대역폭을 조절하여 잔차신호를 코딩함으로써 잔차 신호 코딩에 소요되는 비트율을 감소시키는 방법이다. 실험 결과를 통해 제안된 효율적인 잔차신호 코딩방법이 복잡도 증가 및 오디오 음질 저하 없이 잔차신호 코딩에 소요되는 비트율을 감소시킨다는 것을 확인할 수 있다.
Advisors
한민수researcherHahn, Min Sooresearcher
Publisher
한국과학기술원
Issue Date
2016
Identifier
325007
Language
kor
Description

학위논문(박사) - 한국과학기술원 : 정보통신공학과, 2016.8 ,[viii, 92 p. :]

Keywords

양방향 오디오 서비스; 공간 정보 파라메타; 공간 다객체 오디오 코딩; 잔차신호 코딩; 오디오 객체; Interactive audio service; MPEG Surround; Spatial Audio Object Coding; Residual Coding; Audio Object

URI
http://hdl.handle.net/10203/222438
Link
http://library.kaist.ac.kr/search/detail/view.do?bibCtrlNo=663222&flag=t
Appears in Collection
ICE-Theses_Ph.D.(박사논문)
Files in This Item
There are no files associated with this item.
  • Hit : 266
  • Download : 0
  • Cited 0 times in thomson ci

qr_code

  • mendeley

    citeulike


rss_1.0 rss_2.0 atom_1.0