요약: 기계 독해는 기계가 주어진 지문과 질문을 이해하여 답변을 하는 과제 - 챗봇/무인콜센터 자동응답기술의 핵심
한국어 기계 독해를 위한 질의응답 데이터셋 - KorQuAD(Korean Question Answerig Dataset), 70,000+
1. 서론
KorQuAD는 영문 표준 질의응답 데이터인 SQuADv1.0[1]와 동일한 기준으로 구축하여 표준성을 확보
2. 관련 데이터셋
한국어 기계독해를 위한 질의응답 데이터로는 표준이라 할 만한 공개된 학습 데이터가 거의 존재하지 않음
- 스탠포드의 SQuAD (Stanford Question Answering Dataset): 위키 문서와 그에 대한 질문, 문서 내 답변이 되
는 영역으로 구성된 10만 건 이상의 데이터, 질의응답 과제의 대표적인 데이터셋 - 마이크로소프트의 MS Marco(Microsoft Machine Reading Comprehension Dataset): Bing 검색 엔진에서 발생한 실사용자의 질의와 웹 결과를 이용한 것, 정답은 사람이 직접 생성하였기 때문에 문단 내 어휘와 그대로 일치하지 않을 수 있음
- Facebook의 bAbI task dataset: 여러 서술문을 읽고 맥락을 기억하여 20가지 유형의 질의에 대해 응답을 종합 추론해야 하는 데이터셋
- 최근 발표된Hotpot QA: 여러 건의 문서로부터 추론하여 응답해야 하는 데이터셋, 응답을 위해 필요한 정보를 문장 단위로 태깅하여 제공
- K-QuAD: 영문 SQuAD를 번역한 질문-답변 70,000여건과 직접 생성한 질문 4,000여건
KorQuAD는 자연스러운 한국어 문장을 위해 번역을 사용하지 않고 모든 질문을 국문으로 새로 생성한 점에서 KQuAD와는
차이
3. 수집과정
SQuADv1.0의 데이터 수집 방식을 벤치마크 하여 문서 수집, 질문-답변은 크라우드소싱을 통해 약 70,000여건 생성
한국어 질의응답 과제의 특성에 맞게 작업 가이드를 작성하여 다양한 질의 양식과 풍부한 어휘 사용
3,1 대상 문서 수집
모두 위키백사에서 문서 수집 - 구성 좋은 양질의 컨텐츠로 선정한 '알찬 글' 100개와 '좋은 글' 143개 문서 목록 제공
이후 1420개 문서 추가 수집, 총 1637개 문서
수집한 문서는 문단 단위로 추출하여 질의 대상 문단으로 정제, SQuAD와 마찬가지로 이미지, 표, URL 제거, 300자 미만 짧은 문단이나 수식 포함 문단 삭제
이후 1420개는 Train, 140개는 Validation, 77개는 Test로 분할
3.2 질문-답변 생성
수집한 문단에 대해 크라우드소싱을 통해 문단당 평균 6개의 질문-답변 쌍 생성
작업자가 문단을 읽고 직접 질문 생성 -> 가이드를 통해 자신만의 언어로 바꿈(반말, 존댓말 등 다양한 형식)
단순 번역 질문 지양, 답변 영역 지정
4. 데이터셋 분석
질문 유형과 답변의 다양성을 파악하기 위해 검증 데이터 140개 문서에 대해 각각 2개의 질의를 표본 추출해 질문-답변 유형 분석-> 모델은 다양한 구문/어휘 변형 이해, 대상, 인물, 시간, 장소, 방법, 원인 등의 정답 추론 독해 능력 학습 필요
4,1 질문 유형 분석
6개 카테고리 수동 분류
- 구문 변형 - 근거 문장 어순 변형 및 구분 재구성해 질의 56.4%
- 유의어 어휘 변형 13.6%
- 일반상식 어휘 변형 3.9%
- 여러 문장으로 근거 수집해 추론 19.6%
- 열거된 선택지 중 질문 조건에 맞는 하나만 선택하거나 괄호 안 정보 적극 활용 3.6%
- 기타 출제 오류 2.9%
4.2 답변 유형 분석
5. 실험 및 결과
한국어 질의응답 데이터에 좋은 성능을 낸 S-Net으로 100 epoch 학습 후 평가
또한 사람의 성적 측정을 위해 테스트 데이터에 대해 2차적 답변 태깅 진행
5.1 실험 결과
성능 측정 척도
EM: 실제 정답과 정확하게 일치하는 예측치 비율
F1: 실제 정답과 예측치의 겹치는 부분을 고려한 점수로, EM보다 완화된 평가 척도
-> 한국어에서 어절 단위로 F1을 구할 경우 다양한 활용형태로 인해 영문의 F1보다 낮게 측정되므로 음절 단위 F1 도입
5.2 결과 분석
모델의 강약점 분석을 위해 답변에 요구되는 추론 유형에 따른 모형 정확도 분석
유의어 활용 어휘 변형 유형 -> 가장 취약 60.53% 정확도
일반상식 이용 어휘 변형 유형 -> 인간 성능과 18%p 차이로 기계가 다양한 어휘에 유연하지 않음을 확인
근거 취합과 논리적 추론 문제 -> 사람과 10%p 차이
6. 결론 및 향후 방향
SQuAD와 마찬가지로 리더보드에 자신의 모델을 제출하여 모델간 성능을 객관적으로 평가 가능
여러 문서를 비교하여 정답을 추출하는 과제, 표나 웹문서처럼 평문이 아닌 양식이 있는 데이터에 대한 질의응답 과제 등 다양한 주제로 확장하여 표준데이터를 만들 예정