본문 바로가기

CNS Story

LG CNS, AI 기반 언어지능 연구에 박차를 가한다!

국내 대표 IT 기업인 LG CNS가 AI 언어지능 연구를 위한 질의응답 학습 데이터셋을 무료 공개하고 학회 저술 활동도 활발히 진행하는 등 AI 기반의 언어지능 연구 활동을 활발히 진행하고 있습니다.


 LG CNS가 공개한 KorQuAD란?


LG CNS가 사이트(https://korquad.github.io)를 통해 공개한 KorQuAD 데이터셋은 질의응답(MRC;Machine Reading Comprehension) 과제를 위한 한국어 표준 데이터로, 인공지능이 한국어 질문에 대한 답변을 하기 위해서 필요한 학습 데이터입니다.


KorQuAD 데이터셋은 1,550개의 Wikipedia article에 대해 10,649 건의 하위 문단과 크라우드 소싱을 통해 제작한 63,952개의 질의응답 쌍으로 구성되어 있습니다. 사이트를 통해 누구나 KorQuAD로 학습한 자신의 모델을 제출하고 리더보드를 통해 공식 평가를 받을 수 있습니다.



 KorQuAD 데이터셋 공개로 인한 기여


KorQuAD 공개는 질의응답 과제에 대해 ‘한국어 표준 데이터’를 수립했다는 데 의의가 있습니다. AI 알고리즘을 만들기 위해선 그 목적에 맞는 학습 데이터가 필요한데 그 표준이 되는 데이터를 표준 데이터라 합니다.


예를 들어, 기계가 자동으로 한•영 번역을 하도록 하기 위해선 여러 한국어 문장들과 그에 해당하는 영어 문장 쌍이 있어야 합니다. AI 연구자들이 문장 분류, 기계 번역, 질의응답과 같은 자연어 처리 과제들을 수행하기 위한 자신의 알고리즘을 만들려면 학습을 시킬 데이터셋이 필수적입니다.


또한 표준 데이터는 모델 간의 성능 비교를 위해 쓰입니다. 각 연구자가 같은 데이터로 모델을 만들어 성능을 평가하면 어떤 모델이 더 좋고, 나쁜지를 판단할 수 있는 기준이 됩니다. 표준 데이터를 이용해야 내 모델이 논문이나 학술 발표에서 공신력을 가질 수 있습니다.



요약하자면, 표준 데이터는 (1) 연구자들이 특정 태스크를 수행하는 모델을 만들기 위해 이용할 수 있는 기본 데이터이자 (2) 여러 모델 간 성능 비교를 위한 공신력 있는 기준입니다. 웬만한 과제들에는 영어로 된 표준 데이터가 존재합니다.


하지만 국내에는 이렇게 AI 학습을 위한 한국어 표준 데이터가 거의 존재하지 않습니다. 이번 KorQuAD 데이터셋의 공개로 한국어 질의응답 모델을 만들고자 하는 연구자들은 데이터를 마련하기 편해졌습니다.



기존에는 영어권의 표준 데이터를 번역해서 이용하거나, 자체적으로 데이터를 마련해야 했으나 개인 또는 대학원 랩과 같은 소규모 연구소에서 작업하긴 만만치 않은 분량입니다. LG CNS가 KorQuAD 데이터셋을 만들어 공개함에 따라 다량의 질의응답 데이터를 구하기 쉬워졌고, 이를 표준으로 공신력 있는 모델 간 성능 비교도 가능해졌습니다.


LG CNS는 질의응답 과제를 비롯해 향후 다양한 태스크에 대해 표준 데이터를 만들고 공개해 한국어 AI 자연어 처리 분야에서도 활발한 연구가 진행될 수 있도록 기여할 예정입니다.


글 l LG CNS AI빅데이터담당


* 해당 콘텐츠는 저작권법에 의하여 보호받는 저작물로 LG CNS 블로그에 저작권이 있습니다.

* 해당 콘텐츠는 사전 동의없이 2차 가공 및 영리적인 이용을 금하고 있습니다.