맥락을 이해하는 페르소나 대화 데이터 구축

맥락을 이해하는 페르소나 대화 데이터 구축
✔️
이런 분들에게 도움이 되는 글이에요!
- 다양한 페르소나를 구사하는 대화 데이터 구축이 필요하신 분
- 사용자의 몰입을 만드는 대화 데이터에 관심이 있으신 분
- 대화 데이터 구축에 있어 자연스러움을 만드는 요소가 궁금하신 분 

개요

  • 산업 분류: IT/공학
  • 세부 Task: 페르소나 설계, 멀티턴 대화 데이터 구축
  • 데이터 출처: 신규 생성
  • 작업량: Confidential
  • 납품 형태: xlsx(Excel)
  • 활용 서비스: Confidential

문제

페르소나가 부여된 화자와 일반 화자가 나누는 둘 사이의 멀티턴 대화 데이터셋을 구축하는 프로젝트였습니다. 사전 설정된 페르소나 요소를 반영하면서도 대화의 맥락을 이해하면서 적절한 답변을 출력할 수 있는 대화 데이터를 구축했습니다. 더불어 페르소나를 부정하는 발화 데이터도 구축하였습니다. 최대한 자연스러우면서도 풍부한 표현력을 데이터에 담아야 했습니다.

해결 방안

  • 다양하면서도 중복이 없는 페르소나 요소 설계
    하나의 캐릭터를 상정하는 것이 아니라 페르소나가 드러나는 요소를 창작하는 것이 목표였기 때문에, 다양한 구성이 가능하도록 대분류를 설계하고 분류별로 키워드를 수집하여 중복 또한 피할 수 있었습니다.

  • 데이터의 품질을 높이는 가이드라인 작성
    대화 흐름에 큰 영향을 미치는 대화 시작 메시지를 유형별로 다양하게 수집하여 데이터를 구축하는 크루에게 사전 공유함으로써 다양성을 확보하였습니다. 또한 페르소나 부정 발화 구축시에도 발화 패턴을 규명하고 이를 크루에 공유하여 데이터가 특정 유형에만 너무 치우치지 않도록 관리감독했습니다.

  • 자연스러움을 위한 디테일 추구
    대화 흐름이 자연스러울 수 있도록 갑작스러운 화제 전환 메시지를 최소화하여 데이터를 구축했습니다. 또한 페르소나 요소를 대화 내에서 드러낼 때 직접 언급하기 보다는 상황 설명등을 통해 간접적으로 드러냄으로써 자연스러움을 표현했습니다.

  • 대화 데이터에 대한 연구와 프로젝트 반영
    사용자의 질문에 따라 대화의 양상이 천차만별로 달라지는 대화 데이터임을 감안, 질문 발화에 대한 내부 연구를 진행하고 이를 데이터에 반영함으로써 데이터 품질을 높였습니다.

프로젝트 결과

  • 페르소나를 구성하는 다양한 요소 규명
  • 보다 자연스러운 대화 데이터를 위한 디테일 연구

고객사 평가

"여러 차례에 걸쳐 진행된 작업 기간 동안 끝까지 신경써서 데이터를 봐 주셔서 좋았습니다. 주변에 데이터 구축 업체를 찾는 사람이 있다면 열심히 데이터를 만들어주시고 담당자와 적극적으로 의사소통하는 업체라고 소개하고 싶습니다. TEXTNET 화이팅! " - 담당자 김OO님

이 프로젝트의 데이터 기획은 아래 Project Manager가 담당했습니다.
김새롬, 김지원, 김보배, 이유, 김다혜, 김리하, 남보름, 강현호


TEXTNET 소개

지금의 딥러닝을 있게 한 AI Guru 제프리 힌튼의 데이터셋 'ImageNet'에 어원을 둔 TEXTNET은 (주)스피링크가 운영하는 AI/챗봇을 위한 텍스트 데이터 설계 및 구축 서비스입니다.

TEXTNET은 언어학, 심리학, 전산언어학 석·박사를 포함한 전문 인력으로 구성된 언어전문가 그룹으로서, 고객사의 니즈에 부합하는 텍스트 데이터를 설계·가공·구축하고 내부 R&D를 통해 설계 방식을 지속적으로 개선하여 최적의 데이터 설계 방법을 제안합니다. 프로젝트 목적에 따라 적합한 숙련 작업자를 선별하여 투입하고, 체계적이고 효율적으로 고품질의 학습데이터를 생산합니다.

TEXTNET은 삼성, LG, KT, SK 등 유수 대기업의 데이터 구축 파트너로 함께하며 금융, 마케팅, 콘텐츠, 메타버스, 서비스 기획, CS 등 다양한 도메인을 다루고 있습니다.