주성분분석을 이용한 기종점 데이터의 압축 및 주요 패턴 도출에 관한 연구A Study on the Compression and Major Pattern Extraction Method of Origin-Destination Data with Principal Component Analysis
기종점 데이터는 수요 분석 및 서비스 설계를 위해서 대중교통, 도로운영 등 다양한 분야에서 저장 및 활용되고 있다. 최근 빅데이터의 활용성이 증대되면서 기종점 데이터의 분석 및활용에 대한 수요도 함께 증가하고 있다. 기존의 일반적인 교통 정보 데이터가 수집장비 수() 에 비례하여 데이터양이 증가(·)하는 것과는 다르게, 기종점 데이터는 수집지점 수()의 증가에 따라 수집 데이터의 양이 기하급수적으로 증가(· )하는 경향이 있다. 이로 인하여 기종점 데이터를 원시 데이터의 형태로 장기간 저장하고 빅데이터 분석에 활용하는 것은 대용량의저장 공간이 필요하다는 것을 고려할 때 실용적 대안으로 여겨지지 않고 있다. 이와 함께 기종점 데이터는 0~10 사이의 작은 수요 부분에 패턴화된 형태와 무작위 적인 형태의 데이터가섞여있어 작은 수요가 그룹화되어 발생하는 주요 패턴을 추출하기에 어려움이 있다. 이러한기종점 데이터의 저장용량의 한계와 패턴화 분석의 한계를 극복하고자 본 연구에서는 주성분분석을 활용한 대중교통 기종점 데이터의 압축 및 분석 방법을 제안하였다. 본 연구에서는 서울시와 세종시의 대중교통 이용 데이터를 활용하여 모빌리티 데이터를 분석하고, 모빌리티 기종점 데이터에 포함된 무작위 성향이 높은 데이터를 제거하기 위해 주성분분석 기반의 데이터압축 및 복원에 관한 연구를 수행하였다. 주성분분석으로 분해된 기종점 데이터와 원데이터를비교하여 주요한 수요 패턴을 찾고 이를 통해 압축률과 복원율을 높일 수 있는 주성분 범위를제안하였다. 본 연구에서 분석한 결과, 서울시 기준 1~80, 세종시 기준 1~60까지의 주성분을사용할 경우 주요 이동 데이터의 손실 없이 기종점 데이터에 포함되어있는 노이즈를 제거하고데이터를 압축 및 복원이 가능하였다.