MRC 학습을 위한 지문기반 QA 문장 구축

MRC 학습을 위한 지문기반 QA 문장 구축

개요

  • 산업 분류: IT/공학
  • 세부 Task: 멀티턴 대화 데이터 구축
  • 데이터 출처: 위키피디아
  • 작업량: Confidential
  • 납품 형태: xlsx(Excel)
  • 활용 서비스: Confidential

문제

페르소나를 가진 AI 어시스턴트와의 지식 정보 중심의 Q&A 데이터를 필요로 했습니다. 이 데이터는 다수의 도메인으로 양질의 데이터를 구축해 MRC 엔진의 학습 효과를 높인다는 목표가 있었습니다. 

이를 위해 위키피디아 내 서로 다른 페이지의 4개 지문을 바탕으로 복합 정보를 활용한 대화 데이터를 만들어야 하는 어려움이 있었습니다.

해결 방안

우선 여러 지문을 참고해야 하는 크루의 데이터 구축 과정이 효율적일 수 있도록 불필요한 과정을 없애고 데이터 구축 자체에 집중할 수 있게 작업 구조를 설계했습니다. 크루의 시선 흐름을 고려하여 설계한 작업구조를 고안, 적용하여 생산성을 높였습니다.

활용해야 하는 지문이 여러가지여서 어려운 작업이었지만, TEXTNET은 여러 지문을 활용하여 이어지는 두 번째 턴 대화에 담아 복합 정보를 제공했습니다. 다양한 도메인 정보를 지닌 데이터를 구축하기 위해 리서치를 통해 추가적인 정보를 찾아 구축에 활용했습니다. 

이 프로젝트의 데이터 기획은 아래 Project Manager가 담당했습니다.
이지예, 이유


TEXTNET 소개

지금의 딥러닝을 있게 한 AI Guru 제프리 힌튼의 데이터셋 'ImageNet'에 어원을 둔 TEXTNET은 (주)스피링크가 운영하는 AI/챗봇을 위한 텍스트 데이터 설계 및 구축 서비스입니다.

TEXTNET은 언어학, 심리학, 전산언어학 석·박사를 포함한 전문 인력으로 구성된 언어전문가 그룹으로서, 고객사의 니즈에 부합하는 텍스트 데이터를 설계·가공·구축하고 내부 R&D를 통해 설계 방식을 지속적으로 개선하여 최적의 데이터 설계 방법을 제안합니다. 프로젝트 목적에 따라 적합한 숙련 작업자를 선별하여 투입하고, 체계적이고 효율적으로 고품질의 학습데이터를 생산합니다.

TEXTNET은 삼성, LG, KT, SK 등 유수 대기업의 데이터 구축 파트너로 함께하며 금융, 마케팅, 콘텐츠, 메타버스, 서비스 기획, CS 등 다양한 도메인을 다루고 있습니다.