본문 바로가기

논문리뷰

[Question Answering] emrQA: A Large Corpus for Question Answering on Electronic Medical Records, 18'EMNLP

Abstract

이 논문에서는 특정 도메인의 많은 데이터를 생성하는 방법론을 제안한다. 도메인지식이 있는 전문가의 노력이 많이 필요한 Electronic Medical Records (EMR)에서 전문가의 적은 개입으로만으로도 Question Answering (QA) 데이터를 만들수 있음을 보였다. 기존의 다른 Natural Language Processing task를 위해 만들었던 데이터셋에서 전문가가 주석을 달은 clinical notes를 이용하여 QA 데이터로 만들었다. 결과적으로 100만개의 questions-logical form과 40만개 이상의 question-answering evidence pair를 제안했다.

 

Motivation

Automatic Question Answering 분야는 많은 annotated 데이터를 이용하여 발전을 이루었다. 하지만 데이터셋 구성을 위해 전문가의 지식이 필요한 EMR 도메인에서는 large-scale 데이터를 만들지 못하였다. 또한, 환자의 기록이 공개적으로 이용되기에는 개인정보 문제에 따른 제약이 많았다. 정교하고 많은 데이터는 EMR QA 모델을 구성하기 위해 필수적인 요소이기 때문에 데이터셋에 대한 필요성이 대두되었다.

 

QA Dataset Generation Framework

QA데이터셋을 생성하기 위해서 3가지의 단계를 구성했다. 

 

1. Collecting questions to capture domain-specific user needs, followed by normalizing the collected questions to templates by replacing entities in the question with placeholders

의료분야에서 의사들이 환자기록에서 어떠한 질문을 하는지를 수집하고 이를 템플릿화 하는 작업을 하였다. 예를 들어, 이 환자가 마지막으로 투여받은 약은 무엇인가?, 이 환자가 마지막으로 받은 시술은 무었인가?, 이 환자가 처음으로 처방받은 약은 무었인가?, 라는 식의 질문들이 있다고 하면 이는 "환자가 {시기}에 받은 {prescription, procedure}은 무었인가?" 와 같이 템플릿화 할수 있다. 

 

2. Associating question templates with expert-annotated logical form templates and the question entity type with an answer entity type.

의료분야 전문가로 부터 질문을 수집하고 템플릿화한 후에는 이를 Logical Form (LF)과 연관시킨다. LF는 데이터에 대한 제약조건, 관계, 그리고 특성 등을 구조화한 ontology schema를 잘 반영할수 있는 문법형태이다.  

Ontology Schema
LF Grammar

Question templates을 LF templates으로 매칭시키는 작업은 의료 전문가에 의해 이루어진다. 다수의 question templates은 하나의 LF로 매칭될수 있으며 이는 해당 LF의 의미가 다른 말로 표현될수 있다는 것을 의미한다. 매칭의 예시는 아래에 표와 같다.

Matched examples

표에서 Stats. 는 전체 질문중에서 해당 행의 property를 갖는 비율을 의미한다. |medication|안은 medication entity를 의미하며 [dosage=x]는 dosage라는 answer type과 x라는 해당 answer 값을 의미한다.

3. Populating question logical form templates and generating answers.

2.에서 만들어진 LF templates에 annotated clinical notes로 부터 값을 채워 넣어야 한다. annotated clinical note에는 해당 entity정보, answer type, 그리고 answer 값과 함께 있기 때문에 clinical note로 부터 값을 채워 넣을수 있다.

 

Annotated clinical note

추가적으로 질문에 대한 답이 어떤 문맥에 나왔는지가 중요하기 의료 의사결정을 하는데 있어 매우 중요하기때문에 answer evidence로 해당 answer가 포함된 문장을 추가적으로 추출한다. clinical note로 부터 QA pair을 완성하는 작업은 가지고 있는 기반 dataset에 따라 방법과 결과에 차이가 있다. emrQA는 6개의 NLP tasks로 부터 얻어졌다.

Templates

위와 같은 과정을 통해 최종적으로 45만개의 QA pairs와 120만개의 Question LF을 얻었다. QA pair 더 적은 이유는 clinical note의 한계로 answer를 얻을 수 없는 경우가 있기 때문이다.