대화 데이터셋이 만들어지는 과정

대화 데이터 구축 과정

인공지능 학습 데이터는 상당 부분 ‘대화’의 형태를 띄고 있습니다. 고객이 발화 주체인 대화 데이터이거나, 디지털 휴먼의 경우 엔진이 먼저 대화를 시작하기도 하죠. 그런데 이런 대화 데이터는 어떤 과정으로 만들어질까요? 대화 데이터를 구축하는 과정에서 언어 전문성이 필수적인 이유는 무엇일까요? TEXTNET이 신규 고객사와 소통을 시작한다는 가정 아래, 과정을 하나하나 짚어볼까 합니다.

언어자원 구축을 통해 질문 시작하기

어떤 특정한 내용을 주제로 대화 데이터를 구축하려고 했을 때, 가장 먼저 필요한 것은 바로 언어자원의 구축입니다. 대화의 주제가 될 내용이 있어야 데이터 생성이 가능하기 때문이죠. 고객사가 제공한 정보를 바탕으로 언어 전문가가 직접 의미적 맥락을 파악하여 초기 핵심 언어자원을 선별하여 정리합니다. 이 때 내용의 예시는 고객사의 유형에 따라 다음과 같이 예시를 들어볼 수 있겠습니다.

통신사 - 요금제, A/S,결합상품 안내 등
은행 - 예금 대출 등 상품 안내, 가까운 지점이나 온라인 업무 가능여부 안내 등
디지털 휴먼 - 패션, 학업, 환경, 문화 등 일상 대화(특정 주제에 집중된 대화 가능)

이 때 내용 속에서 단순히 빈도 기준으로 키워드를 도출한다면 의미 없는 언어자원이 포함될 수 있습니다. 많이 언급되었다고 해서 꼭 중요한 데이터는 아니라는 소리죠. 때문에 데이터의 의미를 바탕으로 핵심 내용을 재가공하고 선별하는 과정이 있습니다. 단어가 포함된 맥락은 물론, 챗봇 형태로 가공될 경우 질문과 답을 동시에 고려해야 하므로 언어전문가가 직접 눈으로 확인하는 과정이 필수적인 거죠. 모든 과정을 거쳐 언어자원 구축 과정이 마무리되면 최종 선별된 키워드를 포함해 질문 문장을 생성합니다.

질문에서 대화로, 지식자원 구축하기

앞서 구축한 의미 기반의 언어자원을 활용해 질문-답 세트를 만들 수 있는데요. 이 때 언어자원을 카테고리로 분류하고 중복 제거 및 병합 과정을 거쳐 분류 체계를 수립하는 과정이 지식자원 구축 과정입니다. 대화 데이터를 품은 엔진이 정보를 폭넓게 활용할 수 있도록 하는 것이 목표가 됩니다.

띄어쓰기 변화, 어순 변화, 서법 변화에 따른 추론율 변화

예를 들어, 띄어쓰기에 변화를 주거나 어순이 변했을 때, 서법이 변했을 때에도 동일한 의미의 질문에 동일한 답을 얻을 수 있도록 엔진의 추론율을 살피는 것입니다. 어순 변화 카테고리에서 추론율이 낮게 유지될 경우 대화 설계의 방향성을 추론율이 높은 영역으로 설정하여 엔진에 맞춤화 된 말뭉치 구축을 진행하는 방법입니다.

대화 데이터 시나리오 분기 처리 방식

또한 발화의 의도(Intent)를 단계화하여 그룹화 시킴으로써 데이터의 갯수를 줄여 효율성을 극대화하는 방법도 있습니다. 의도별로 문장을 묶지 않고 무한히 새로운 문장을 생성한다면 엔진이 스크리닝해야 할 데이터가 무한히 늘어나겠죠. 그룹화를 통해 엔진은 불필요한 의도의 문장들을 스킵할 수 있게 되고 결과적으로 효율성이 증대됩니다.

발화문 유형과 유형에 따른 의도 추론율

대화 데이터 구축에 언어 전문가가 필요한 이유

이처럼 언어 전문가는 같은 의도의 문장 내에서 어떤 국문학적 요소에 따라 추론율이 달라지는지 규명하고, 이를 보완하는 방식으로 유사 발화문을 생성합니다. 유사 발화문을 구축함으로써 발화 주체가 어떻게 말해도 찰떡같이 알아듣는 인공지능 대화 데이터가 탄생한다고 볼 수 있겠죠.

챗봇의 경우 시나리오를 입체적으로 구현하는 과정이 필요하므로, 계층 구조(재질문)를 설계하여 단편적인 시나리오로 흐르지 않도록 방지합니다. 유사한 언어자원을 추가 구축하면 정확도를 높일 수 있습니다. 고객사 및 엔진의 기획 의도와 성능에 따라 특정 변주 요소 선택 및 비중 등을 설계해 데이터를 생성합니다. 최종적으로 구축된 데이터에 대한 엔진 빌드업을 진행하면 구축 과정이 완료됩니다.

구축이 끝나면 이미 구축된 유사 질문과 다른 랜덤 질문들로 테스트를 수행하고, 답변이 나오지 않거나 틀린 답변이 나올 경우 오류 유형에 따라 모델을 수정하거나, 언어 자원을 추가하거나 유사 질문을 추가하는 방식으로 학습을 진행함으로써 엔진을 고도화합니다.


TEXTNET 소개

지금의 딥러닝을 있게 한 AI Guru 제프리 힌튼의 데이터셋 'ImageNet'에 어원을 둔 TEXTNET은 (주)스피링크가 운영하는 AI/챗봇을 위한 텍스트 데이터 설계 및 구축 서비스입니다.

TEXTNET은 언어학, 심리학, 전산언어학 석·박사를 포함한 전문 인력으로 구성된 언어전문가 그룹으로서, 고객사의 니즈에 부합하는 텍스트 데이터를 설계·가공·구축하고 내부 R&D를 통해 설계 방식을 지속적으로 개선하여 최적의 데이터 설계 방법을 제안합니다. 프로젝트 목적에 따라 적합한 숙련 작업자를 선별하여 투입하고, 체계적이고 효율적으로 고품질의 학습데이터를 생산합니다.

TEXTNET은 삼성, LG, KT, SK 등 유수 대기업의 데이터 구축 파트너로 함께하며 금융, 마케팅, 콘텐츠, 메타버스, 서비스 기획, CS 등 다양한 도메인을 다루고 있습니다.