챗봇 발화 스타일 및 구조 고도화

챗봇 발화 스타일 및 구조 고도화

개요

  • 세부 Task: 멀티턴 대화 데이터 구축
  • 데이터 출처: 신규 생성
  • 작업량: 2,560set
  • 활용 서비스: 내부 프로젝트
챗봇 발화 스타일 및 구조 작업 화면

문제

챗봇 발화의 스타일과 구조를 고도화 하기 위한 일상 및 목적 대화 데이터를 수집하는 프로젝트를 TEXTNET 내부적으로 진행했습니다. 인위적인 느낌이 들지 않도록 캐릭터의 스타일을 최대한 살린 데이터가 구축될 수 있도록 진행했으며, 다양한 대화 목적과 주제, 상황, 상대에 따른 대화문을 구축했습니다. 또한 1인 2역의 대화문도 구축해 보았습니다.

해결 방안

일상 대화와 전문 대화를 분리해 300여 개의 대화 주제를 바탕으로 친밀한 사이, 낯선 사이, 거리가 있는 사이 중 선택해 자유롭게 작업을 진행했습니다.

이 프로젝트의 데이터 기획은 아래 Project Manager가 담당했습니다.
강민선, 현은진


TEXTNET 소개

지금의 딥러닝을 있게 한 AI Guru 제프리 힌튼의 데이터셋 'ImageNet'에 어원을 둔 TEXTNET은 (주)스피링크가 운영하는 AI/챗봇을 위한 텍스트 데이터 설계 및 구축 서비스입니다.

TEXTNET은 언어학, 심리학, 전산언어학 석·박사를 포함한 전문 인력으로 구성된 언어전문가 그룹으로서, 고객사의 니즈에 부합하는 텍스트 데이터를 설계·가공·구축하고 내부 R&D를 통해 설계 방식을 지속적으로 개선하여 최적의 데이터 설계 방법을 제안합니다. 프로젝트 목적에 따라 적합한 숙련 작업자를 선별하여 투입하고, 체계적이고 효율적으로 고품질의 학습데이터를 생산합니다.

TEXTNET은 삼성, LG, KT, SK 등 유수 대기업의 데이터 구축 파트너로 함께하며 금융, 마케팅, 콘텐츠, 메타버스, 서비스 기획, CS 등 다양한 도메인을 다루고 있습니다.