한국어 위키피디아 카테고리에서의 자동적 지식 획득

Cited 0 time in webofscience Cited 0 time in scopus
  • Hit : 328
  • Download : 543
하나의 위키피디아 아티클은 보통 여러 개의 카테고리들이 부여되어 있다. 카테고리는 완전한 문장이 아닌 소수의 단어들로 구성된 명사구 형태를 띠고 있다. 카테고리에는 개체(entity)에 대한 개념(concept) 혹은 개체 간의 관계에 대한 정보가 풍부히 포함되어 있다. 제안하고자 하는 것은 이 카테고리에 담긴 정보를 위키피디아와 연동된 디비피디아의 개체와 프로퍼티(property)에 대한 RDF 트리플렛(triplet) 형태로 변환하는 것이다. 이 때 이미 존재하는 RDF 트리플렛 형태의 시드 데이터(seed data)에서 카테고리를 표현하는 문자열의 내부 표현인 어휘 패턴(lexical pattern)을 학습하여 활용하는 지식 획득 방법을 제안한다. 실험에서는 디비피디아 트리플렛을 시드 데이터로 이용해 위키피디아 카테고리에서부터 0.765의 정확도를 갖는 약 54만개의 관계 인스턴스(relation instance)를 추출해 낼 수 있었다. 위키피디아는 계속해서 증가하는 지식의 원천이기 때문에, 여기서 제안하는 방법을 이용하면 꾸준히 갱신되는 위키피디아 카테고리에서부터 지식을 추출하여 디비피디아를 지속적으로 강화할 수 있다.
Publisher
KCC
Issue Date
2015-06-24
Language
Korean
Citation

2015년 한국컴퓨터종합학술대회

URI
http://hdl.handle.net/10203/210850
Appears in Collection
CS-Conference Papers(학술회의논문)
Files in This Item
06월 - KCC - 김지성 - 한국어 위키피디아 카테고리에서의 자동적 지식 획득.pdf(728.66 kB)Download

qr_code

  • mendeley

    citeulike


rss_1.0 rss_2.0 atom_1.0