기계번역을 활용한 한국어 언어폭력 데이터셋의 구축Constructing Korean Abusive Language Dataset using Machine Translation

Cited 0 time in webofscience Cited 0 time in scopus
  • Hit : 235
  • Download : 0
소셜 미디어나 온라인 커뮤니티 등의 매체를 통해 빠르게 확산되는 언어폭력을 탐지하기 위한 자연언어처리 기법들이 활발하게 연구되고 있다. 선행연구들은 텍스트의 폭력성 여부를 탐지하는 것 외에도 폭력 대상 식별, 폭력의 하위 유형 분류, 암묵적 언어폭력 탐지 등 다양한 언어폭력의 유형을 탐지하는 것에 집중하고 있다. 하지만 아직 한국어에 대한 언어폭력 탐지 연구는 매우 부족한 상황이며, 이보다 앞선 문제는 관련 한국어 데이터셋을 구하기 어렵다는 점이다. 본 연구에서는 새로운 데이터셋 구축의 어려움을 줄이고 기존의 영어 데이터셋을 사용하는 다양한 언어폭력 분야 태스크를 한국어 언어폭력에도 적용 및 구현하기 위하여 기존의 영어 데이터셋을 한국어로 번역하여 활용하는 방안을 제시한다. 또한 실험을 통하여 구축한 한국어 데이터셋을 활용하여 한국어 언어폭력 탐지를 효과적으로 수행할 수 있음을 확인하였다.
Publisher
한국정보과학회
Issue Date
2022-06-29
Language
Korean
Citation

2022 한국컴퓨터종합학술대회 (KCC)

URI
http://hdl.handle.net/10203/299500
Appears in Collection
CS-Conference Papers(학술회의논문)
Files in This Item
There are no files associated with this item.

qr_code

  • mendeley

    citeulike


rss_1.0 rss_2.0 atom_1.0