CoEM: 청각-시각 잠재 표현형을 위한 대조적 임베딩 변환자CoEM: Contrastive Embedding Mapper for Audio-visual Latents

Cited 0 time in webofscience Cited 0 time in scopus
  • Hit : 60
  • Download : 0
인간의 지각은 청각-시각 정보를 연관 지어 청각 정보로부터 시각 정보를 연상할 수 있고 그 역도 가능한다. 이러한 능력은 청각-시각 정보가 관련되어 있는 상황을 경험하며 자연스럽게 획득할 수 있지만, 두 유형의 정보가 충분히 결합된 영상 데이터는 각 장면의 맥락에 따라 두 가지 레이블을 동시에 만들어주어야 하므로 데이터셋을 만들기 어렵다. 본 논문에서는 같은 카테고리에 대해 한 가지 유형에 대한 임베딩에서 다른 유형으로 변환(mapping)할 수 있는 Contrastive Embedding Mapper (CoEM)을 제안한다. 청각-시각 정보를 쌍으로 짝지을 필요 없이 CoEM은 카테고리에 따라 변환된 임베딩을 대조하는 방식으로 학습한다. 우리는 청각과 시각 데이터셋에 대한 CoEM의 효력을 확인하기 위해 20가지의 카테고리에 대해 실험했다. 실험에서 CoEM에 의해 변환되어 연결된 임베딩들은 다른 도메인에서의 검색 성능의 경우 이웃하는 기준점이 충분한 경우(20개) 약 90%의 성능을 보였다. 또한, 연결된 도메인에서의 데이터 재 생성이 가능함을 확인했다.
Publisher
한국정보과학회
Issue Date
2023-01
Language
Korean
Citation

정보과학회논문지, v.50, no.1, pp.80 - 86

ISSN
2383-630X
DOI
10.5626/JOK.2023.50.1.80
URI
http://hdl.handle.net/10203/315181
Appears in Collection
AI-Journal Papers(저널논문)EE-Journal Papers(저널논문)
Files in This Item
There are no files associated with this item.

qr_code

  • mendeley

    citeulike


rss_1.0 rss_2.0 atom_1.0