대학원/논문 리뷰

[논문 요약] Summarization is (Almost) Dead

따듯한 얼음 2023. 10. 16. 17:49
728x90

Summarization is (Almost) Dead

https://arxiv.org/abs/2309.09558

 

Summarization is (Almost) Dead

How well can large language models (LLMs) generate summaries? We develop new datasets and conduct human evaluation experiments to evaluate the zero-shot generation capability of LLMs across five distinct summarization tasks. Our findings indicate a clear p

arxiv.org

LLM 세미나를 다니면서 강연자가 언급했던 논문 중 하나인 <Summarization is (Almost) Dead> 에 대해 리뷰한다. 도발적인 제목으로 내용을 궁금하게 하는 논문이다.

 

Abstract

LLM으로 생성된 요약이 인간이 생성한 요약 또는 fine-tune 된 모델보다 인간 평가자들에서 더 선호되는 것을 시사한다.

해당 연구는 새로운 데이터셋을 개발하고 인간 평가 실험을 통해 다섯 종류의 요약 task에 대한 LLM의 제로샷 생성 능력을 평가한다. LLM이 요약 task에서 만족스러운 성능을 보이므로 우리는 전통적인 요약 task는 더 이상 LLM 분야에서 필수라고 생각하지 않는다. 그러나 높은 품질의 유효한 데이터셋을 생성하거나, 신뢰성 있는 평가 방법론을 탐구하는데에는 여전히 가치가 있다고 생각한다.

 

1. Introduction

NLG task 인 텍스트 요약은 광대한 자료를 간단히 요약하는 것을 목표로 한다. 전통적인 방법으로는 특정 데이터셋에 대해 Fine-tuned 모델을 사용했다. 하지만 LLM의 부상은 초점을 유망한 LLM의 Zero-shot 능력으로 옮겼다.

양적 및 질적 비교 결과, 인간, LLM, Fine-tuned 모델 중 LLM이 생성한 요약문이 인간 평가자들에게 더 선호되며 더 높은 사실적 일관성을 보여준다.

2. Experimental Settings

2.1 Datasets

LLM을 학습할때 사용되지 않은 데이터를 이용하기 위해 최신 데이터를 사용한다. 데이터 셋은 추후 인간 평가를 위해 특별히 구축된 데이터 셋으로, 50개의 샘플로 구성되어 있다.

System M(가로축)이 System N(세로축)보다 선호된 비율을 나타낸다. 색이 어두울 수록 두 시스템 간의 큰 차이를 나타낸다. LLM 모델을 통해 생성된 요약이 인간 평가자들로부터 더 높게 선호된다는 것을 알 수 있다. 재미있는 점은 두 개의 시스템끼리 쌍을 지어 인간 평가자의 선호도를 조사하여 평가지표로 이용한 것이다.

 

2.2 Models

LLM 모델은 GPT-3, GPT-3.5, GPT-4 이용

Fine-tuned 모델은 BART와 T5 이용

 

2.3 Experimental process and details

인간 평가 실험을 위해 두명의 주석자를 고용, 각 질문에 대해 주석자들은 원문 기사와 해당 task를 수행한 요약 시스템의 요약문을 비교 및 대조를 진행함. 두 주석자 간의 코헨의 카파 계수를 계산하여 주석자 간의 일치도가 0.558의 계수로 적절함을 판단함.

코헨의 카파 상관계수 : 2명의 관찰자의 신뢰도를 확보하기위한 확률로서 평가지표로 사용되는 상관계수

 

3. Experiment Results

3.1 Experiment 1: Comparing the overall quality of summaries

해당 실험에서는 인간 평가자를 통해 각각의 요약의 품질을 비교하도록 하였다.  M시스템이 N시스템과 비교하여 얼마나 선호되는지 WinRate(M, N)를 계산하였다. 전반적인 task에서 LLM으로 생성된 요약이 인간 및 Fine-tuned 모델을 능가하였다.

 

여기서 LLM의 요약문이 왜 완벽한 것으로 여겨지는 인간이 작성한 요약문을 능가하는지에 대한 의문을 불러온다.

LLM의 요약은 높은 유창성과 일관성을 나타내지만, 인간의 요약은 사실적 일관성이 불분명 하여 그 이유를 탐구하였다.

 

3.2 Experiment 2: Comparing the factual consistency of summaries

문장 수준의 환각현상(사실적 일관성)을 구분하기 위해 대표적인 LLM으로 GPT-4를 선택하여 이용하였다.

인간이 작성한 요약은 GPT-4의 요약과 비교했을때 같거나 더 높은 빈도의 환각 현상이 발생했다. 해당 현상의 깊은 이해를 위해 외재적 환각과 내재적 환각 두 가지로 나누었다. 내재적 환각은 요약문에서 제공된 사실정보와 원본 간의 불일치를 나타내고, 외재적 환각은 요약문의 특정 사실 정보가 원본에 없는 경우 발생한다.

인간의 요약과 GPT-4의 요약을 비교한 결과, 인간의 요약에서 높은 비율의 외재적 환각이 발생하였으며 이는 낮은 사실적 인과성으로 이어진 것으로 나타났다.

 

6. Conclusion

다양한 요약 tasK에 있어서 LLM을 이용한 요약은 인간의 요약이나 다른 Fine-tuned 모델의 요약에 비해서 높은 성능을 보였다. 특히 전문적이며 흔하지 않은 요약 시나리오에서 높은 유창성, 사실성, 유연성을 보인다. 결과적으로 LLM의 발전으로 이전의 접근 방식들이 덜 의미 있는 것으로 나타났다.

 

Limitations

1. LLaMa 나 Vacuna와 같은 다른 인기있는 LLM을 연구에 포함하지 않았다. 학습 데이터의 마감 날짜를 공개하지 않기 때문이다. 

2. 높은 비용 문제로 인해 다섯 개의 요약 task만을 실험했다. 그러나 더 일반적이지 않고 더 어려운 요약 task 를 탐구하는 것은 향후 연구의 흥미로운 방향일 것이다.

728x90