대형 언어 모델(LLM, Large Language Models)이 일상 생활에서 점점 더 많이 사용됨에 따라, 이들 언어 모델의 추론 일관성과 외부 지식 및 사실들이 제시될 때의 추론 방식을 검증하는 것은 매우 중요하다. 본 연구에서는 언어 모델 내의 사실 기반 추론에 대해 조사하였으며, 그 중에서도 질의 응답과 사실 검증과 같은 작업들에서 대해 대형 언어 모델이 다양한 형태의 지식을 어떻게활용하는지에 대해 실험을 진행하였다. 연구팀은 대형 언어 모델이 사실 검증 작업 중 상충하는 증거나 지식을 바탕으로 모호성을 어떻게 처리하는지에 대해 실험을 진행하였다. 이를 위해, 불확실한 정보에서 맥락적 이해와 추론을 요구하는 새로운 사실 검증 데이터셋, AmbiFC를 제작하였다. 또한 불필요한 정보를 필터링하고 추출된 정보를 요약하는 등의 보다 효율적인 정보 통합 방법을 제안함으로써, 더 적은 검색 결과를 기반으로 모델의 사실 정확성과 실행 시간의 효율을 향상시켰다.
It is critical to validate whether large language models (LLMs) are consistent with reasoning and understand how they reason when presented with facts and external knowledge. This project scrutinizes factual reasoning inside LLMs, particularly how they utilize different forms of knowledge for tasks such as question answering and fact-checking. Prof. James Thorne’s research group studied how LLMs handle ambiguity in tasks such as fact-checking, where evidence may be conflicting, and released AmbiFC, a reference benchmark of fact-checked claims which require contextual understanding and reasoning under uncertainty. The research group developed efficient methods for integration, demonstrating that the factual accuracy and run-time efficiency of models can be improved when using fewer search results by filtering out detrimental information and summarizing the retrieved information.