분류기준면들의 기하학적 특성을 고려한 집단 별 데이터 분포 추정과 다집단 분류에의 활용

Cited 0 time in webofscience Cited 0 time in scopus
  • Hit : 429
  • Download : 0
데이터 마이닝에서 다집단(multi-group) 분류문제는 목적변수가 두 가지 이상의 집단으로 구분된 경우, 학습을 통해 설명변수로 구성된 분류 함수를 만들어 각 레코드 마다 가장 적합한 집단을 배정하는 문제이다. 이를 수행하기 위한 대표적인 방법으로 두 집단에 대해 이진 분류(binary classifications)를 수행하여 얻어진 다수의 분류기준면(초평면)들을 다집단 분류가 가능하도록 확장시켜 사용하는 기법에 대한 연구가 진행되어 왔다. 하지만 이진 분류 방식의 효과적인 확장을 위하여 실공간에서 각 목적변수의 집단들이 어떻게 분포하고 있는지에 대해서 분석해보는 것이 선행되어야 함에도 불구하고, 관련연구가 거의 진행된 바 없었다. 본 논문은 실공간상에서 다수의 초평면들간의 기하학적 관계를 이해하도록 하는 이론 체계를 제안하고, 목적변수가 갖는 다수의 집단들이 기하학적으로 어떠한 관계가 있는지에 대해서도 추정할 수 있는 방법론을 제시한다. 이를 통해 분류 함수를 작성하는데 가장 필수적인 초평면들을 선정할 수 있으며, 최소한의 초평면들로 구성된 통합 분류함수를 만드는데 가장 적합한 비교법(comparison method)을 선정하는 프레임워크를 제안한다. 두 집단을 분류하는 초평면을 구하기 위하여 선형 SVMs(Support Vector Machines)이 사용되었다. 국외 신용카드 사용 패턴 데이터를 가지고 실험한 결과 기존의 연구에서 제공하지 못하는 집단 간 관계 정보를 얻을 수 있었으며, 실제 분류 결과도 기존의 연구 결과 보다 높은 수준의 분류 정확성을 보였다.
Issue Date
2008-04-10
Language
KOR
Citation

2008 한국BI데이터마이닝학회 춘계학술대회

URI
http://hdl.handle.net/10203/162279
Appears in Collection
MT-Conference Papers(학술회의논문)
Files in This Item
There are no files associated with this item.

qr_code

  • mendeley

    citeulike


rss_1.0 rss_2.0 atom_1.0