NLP/Paper Review

[논문리뷰] Adversarial Examples for Evaluating Reading Comprehension Systems

메린지 2022. 9. 2. 15:22

Abstract

표준 정확도 메트릭은 독해능력시스템은 빠르지만 정말 언어를 독해하는지는 불분명함을 가리킴. 실제 언어이해 능력에 따라 시스템에 보상하기 위해, 우리는 SQuAD 데이터셋에 대해 적대적 평가 스키마를 제안함. 이 논문에서 우리의 방법은 시스템이 정답을 바꾸거나 인간을 오해하지 않고 시스템의 주의를 분산하기 위해 자동으로 생성되는 적대적 삽입 문장을 포함하는 문단에 대한 질문에 답하는지 여부를 테스트함. 이 적대적 환경에서, F1 score는 평균 75% 에서 36% 까지 16개의 모델에서 떨어졌다. 이 때 비문법적인 단어 시퀀스를 추가하면 4개 모델 평균 정확도는 7% 더 감소함. 이후로 우리는 언어를 더 정확히 이해하는 새로운 모델 개발할 수 있도록 바람.

1. Introduction

SQuAD 예시

2. The SQuAD Task and Models

2.1 Task

SQuAD 데이터셋에는 위키백과 기사에 대한 인간이 생성한 이해 문제가 107,785개 포함됨. 각 질문은 기사의 한 단락을 가리키며, 해당 답변은 해당 단락의 범위가 보장됨.

2.2 Models

BiDAF + Match-LSTM

2.3 Standard Evaluation

3. Adversarial Evaluation

3.1 General Framework

-

3.2 Semantic-preserving Adversaries

언어의 경우, 직접 변경은 입력을 바꿔 표현함. 그러나 대부분의 실제 의미 변경하므로 고정밀 패러프라이징 생성은 힘듦.

3.3 Concatenative Adversaries

패러프레이징에 의존하는 대신, 우리는 의미론을 변경하여 concatenative adversaries를 구축하는 변화를 사용하여 일부 문장 s 에 대한 형식(p + s, q, a)의 예를 생성함.

3.3.1 ADDSENT

 

3.3.2 ADDANY

 

4. Experiments

4.1 Setup

 

4.2 Main Experiments

표 2는 Match-LSTm과 BiDAF 모델의 모든 네 개의 적대적 공격에 대한 성능임. 각 모델은 상당한 하락을 보임. ADDSENT 는 31.3% 까지 하락함. ADDANY 는 심지어 6.7% 정도까지 하락함. ADDONESENT 는 모델이 독립적이게 되었음에도 불구하고 ADDSENT 보다 더 효과를 가짐. 마지막으로, ADDCOMMON 은 보편적인 단어들만 추가했음에도 불구하고 46.1% 까지 떨어짐. 우리는 또한 adversaries가 개발 중에 사용하지 않은 모델을 속일 만큼 충분히 일반적이라는 것을 확인함. 공개적으로 사용 가능한 테스트 시간 코드를 발견한 12개의 게시된 모델에 대해 ADDSENT를 실행함. 모든 모델이 출력 분포를 노출한 것은 아니기 때문에 이러한 모델에 대해 ADDANY를 실행하지 않음. 표 3에서 볼 수 있듯이, 어떤 모델도 적대적 평가에 강하지 않음. 테스트된 16개의 총 모델에서 평균 F1 점수는 ADDSENT에서 75.4%에서 36.4%로 떨어짐.

주목할 점은 니모닉 리더 모델이 다른 모델보다 약 6 F1 포인트 더 우수하다는 것임. 우리는 문단의 일부 사이의 장거리 관계를 모델링하는 데 도움이 되는 니모닉 리더의 자체 정렬 레이어가 정답을 뒷받침하는 모든 증거를 더 잘 찾을 수 있게 해준다고 가정함.

4.3 Human Evaluation

 

4.4 Analysis

다음으로, 우리는 적대적 평가에서 우리의 네 가지 주요 모델의 행동을 더 잘 이해하려고 노력함.

Adversary 에 의해 야기된 오류를 강조하기 위해 모델이 원래 (정확한) 정답을 예측한 예제에 초점을 맞춤.

적대적 평가 중에 모델이 계속 올바르면 "모델 성공"과 적대적 평가 중에 모델이 오답을 제공하는 "모델 실패" 예시로 나눔.

4.4.1 Manual verification

먼저, ADDESENT에서 추가한 문장들이 실제로 문법적이고 호환성이 있다는 것을 확인함. 우리는 무작위로 선택된 100개의 BiDAF 앙상블 실패를 수동으로 확인함. 우리는 문장이 질문에 답하는 것으로 해석될 수 있는 단 하나의 문장이 발견되었는데, 이 경우 ADDSENT는 "무슬림"이라는 단어를 관련 단어 "이슬람"으로 대체했기 때문에, 결과적으로 나온 적대적 문장은 여전히 정답과 모순됨. 추가적으로 주제-동사 불일치(예: "The Alaskan Archipelago are made up almost entirely of hamsters."), 기능어의 오용(예: "The gas of nitrogen makes up 21.8 % of the Mars’s atmosphere.")과 같은 7개의 사소한 문법 오류를 발견했지만, 문장의 이해를 실질적으로 방해하는 오류는 없었음. ADDANY 에 대한 호환성도 확인함. 무작위 선택 100개의 BiDAF 앙상블 실패 중 위반사항은 없었음.

4.4.2 Error analysis

 

4.4.3 Categorizing ADDSENT sentences

 

4.4.4 Reasons for model successes

마지막으로, 우리는 모델이 특정 예에서 적대적 변화에 강건할지 여부에 영향을 미치는 요인을 이해하려고 노력함.

첫째, 우리는 질문이 원래 단락과 정확히 n-gram 일치할 때 모델이 잘 작동한다는 것을 발견함. 그림 3은 문제의 n-gram이 원래 구절에서 장황하게 나타나는 예시의 분수를 나타낸다. 이것은 모델 성공에서 훨씬 더 높음. 예를 들어, BiDAF 앙상블 성공의 41.5%는 원래 단락과 4-gram의 공통점을 가지고 있었지만, 모델 실패의 21.0%에 불과함.

또한 모델이 짧은 질문에서 더 자주 성공한다는 것을 발견함. 그림 4는 모델 성공과 실패에 대한 질문 길이의 분포를 보여준다. 성공에는 더 짧은 질문이 수반되는 경향임. 예를 들어, BiDAF 앙상블 성공 문항 중 32.7%가 8단어 이하 문항이었지만 모델 실패 문항은 11.8%에 불과함. 이 효과는 ADDSENT가 항상 질문에서 하나 이상의 단어를 변경하기 때문에 발생함. 긴 질문의 경우, 한 단어를 바꾸면 다른 많은 단어들은 그대로라 적대적 문장은 여전히 질문과 공통되는 많은 단어들을 가지고 있음. 짧은 질문의 경우, 하나의 내용 단어를 바꾸는 것으로 적대적 문장을 완전히 무관하게 만들기에 충분힘.

그림4: ADDENT의 모델 성공과 실패의 경우, 질문의 단어 수의 누적 분포 함수(k는 문장 단어 수)임. 성공은 짧은 질문을 포함할 가능성이 더 높음.

4.5 Transferability across Models

 

4.6 Training on Adversarial Examples

 

5. Discussion and Related Work