멀티모달 데이터를 활용하는 학습 방법은 다양한 형태로 존재하는 데이터를 서로 연관 지어 상호검색을 위한 특징을 추출하거나, 다양한 형태의 데이터를 종합적으로 요구하는 새로운 태스크를 수행하기 위해 사용된다. 현재까지, 이미지와 텍스트 및 이미지와 소리 데이터 간의 멀티모달 학습을 수행하는 연구가 진행되어왔다. 이에 더 나아가, 본 논문에서는 이미지를 중심으로 소리 및 텍스트 데이터를 상호 고려하는 반지도학습 방법을 적용한 모델을 제시한다. 해당 모델은 이미지, 소리, 텍스트를 자유로이 수용하여 각각에 대한 특징을 추출할 수 있다. 덧붙여, 멀티모달 학습에 통상적으로 사용되는 단순 랭킹 손실함수의 한계점을 보완한, 마진값이 이미지 피처 간 유사도에 따라 변하는 가변 마진 랭킹 손실함수를 적용하여 모델을 학습시킨다. 최종적으로, 위 방법을 통해 학습한 모델의 표현력을 평가하기 위해, 제로-샷 텍스트-비디오 검색 성능을 중심으로 이종 데이터 간 상호검색 성능을 정량적으로 분석한다.