세일즈 지식 챗봇을 위한 학습 데이터 구축

세일즈 지식 챗봇을 위한 학습 데이터 구축

개요

  • 산업 분류: 교육
  • 세부 Task: MRC QA 데이터셋 구축, 데이터 레이블링(Labeled Corpus)
  • 데이터 출처: 고객사 제공 자료
  • 작업량: Confidential
  • 납품 형태: xlsx(Excel)
  • 활용 서비스: 챗봇

문제

세일즈 직무 교육 서비스를 제공하는 챗봇을 위한 학습 데이터를 구축했습니다. 유저에게 세일즈 지식을 잘 전달할 수 있도록 Q&A 데이터셋 구축, 질문 인식률을 높이기 위한 패러프라이즈, 세일즈 지식 기반 라벨링 작업을 진행했습니다.

해결 방안

  • 서비스의 초반을 다지는 작업이라 창의적인 시도 보다는 안정성이 중요한 프로젝트였습니다. 이후 단계들을 고려해 보다 효율적일 수 있도록 데이터 정리 및 규격화에 중점을 두었습니다. 정확한 정보 전달을 위해 별도로 정리된 키워드 문서를 근거로 하여 라벨링을 진행했습니다.
  • 다양한 질문에도 대응할 수 있도록 단순히 정의를 묻는 질문 유형 이외에 8개의 질문 유형을 추가했습니다. 질문 유형을 규격화 함으로써 작업 시 검색이 용이하게 만들어 작업량을 쉽게 파악할 수 있었습니다.
  • 더불어 유저의 가독성을 고려해 문체를 설계했습니다. 챗봇이 응답을 할 때 단순히 설명을 하는 구조가 아니라 한 줄 요약 후 결론을 말하는 구조로 작업함으로써 유저의 흥미를 유도했습니다.

이 프로젝트의 데이터 기획은 아래 Project Manager가 담당했습니다.
이유


TEXTNET 소개

지금의 딥러닝을 있게 한 AI Guru 제프리 힌튼의 데이터셋 'ImageNet'에 어원을 둔 TEXTNET은 (주)스피링크가 운영하는 AI/챗봇을 위한 텍스트 데이터 설계 및 구축 서비스입니다.

TEXTNET은 언어학, 심리학, 전산언어학 석·박사를 포함한 전문 인력으로 구성된 언어전문가 그룹으로서, 고객사의 니즈에 부합하는 텍스트 데이터를 설계·가공·구축하고 내부 R&D를 통해 설계 방식을 지속적으로 개선하여 최적의 데이터 설계 방법을 제안합니다. 프로젝트 목적에 따라 적합한 숙련 작업자를 선별하여 투입하고, 체계적이고 효율적으로 고품질의 학습데이터를 생산합니다.

TEXTNET은 삼성, LG, KT, SK 등 유수 대기업의 데이터 구축 파트너로 함께하며 금융, 마케팅, 콘텐츠, 메타버스, 서비스 기획, CS 등 다양한 도메인을 다루고 있습니다.