RASA 기반 사내 업무지원 챗봇 학습 데이터셋 구축
개요
- 산업 분류: 공공기관
- 세부 Task: 싱글턴 대화 데이터 구축
- 데이터 출처: 고객사 제공 사내 매뉴얼
- 작업량: Confidential
- 납품 형태: xlsx(Excel)
- 활용 서비스: 챗봇
문제
RASA 엔진을 활용하여 사내 업무지원 챗봇 개발을 연구하는 프로젝트였습니다. 해당 챗봇에 들어갈 인텐트/엔티티 설계 및 학습 데이터셋을 구축하는 것이 목표였습니다.
업무지원을 위한 매뉴얼 내용을 파악하여 인텐트 및 엔티티가 설계되어야 했고, 업무지원 NLU 학습을 위한 유사질문 데이터셋 구축량이 적어 인텐트당 15문장에서 30문장 이상으로 문장 수량 추가가 필요했습니다. 엑셀로 된 설계서를 RASA에서 사용할 수 있도록 변환하는 프로그램 개발도 필수적이었습니다.
전문적인 내용은 물론 겹치는 키워드가 많아서 학습데이터를 구축하는 데 충분한 고민이 필요했습니다. 또한 UI가 없는 챗봇의 데이터를 구축하다 보니 챗봇 정확도나 답변을 내보내는 방식을 알기가 어려워 설계와 데이터 구축 단계에서 어려움이 있었습니다.
해결 방안
TEXTNET은 다양한 문장 구축보다는 겹치는 키워드 위주로 인텐트와 엔티티를 관리하며 챗봇의 답변 정확도를 높이는 방향으로 작업을 진행했습니다. 더불어 고객사와의 소통을 늘리고 꾸준한 질의를 통해 어려운 부분들을 해결해나갔습니다.
변환 프로그램 개발 과정에서는 설계서 버전 관리를 체계화하여 지속적인 중간 테스트로 오류를 줄여나가고, 데이터가 많아진 후에는 자동으로 놓친 부분을 확인할 수 있는 함수를 설정하여 검수 시간을 줄였습니다. PM과 기술진의 빠른 소통으로 설계 내용과 프로그램 사이의 이슈를 함께 관리하였습니다.
이 프로젝트의 데이터 기획은 아래 Project Manager가 담당했습니다.
임소은, 김예슬, 오영환, 이승민
TEXTNET 소개
지금의 딥러닝을 있게 한 AI Guru 제프리 힌튼의 데이터셋 'ImageNet'에 어원을 둔 TEXTNET은 (주)스피링크가 운영하는 AI/챗봇을 위한 텍스트 데이터 설계 및 구축 서비스입니다.
TEXTNET은 언어학, 심리학, 전산언어학 석·박사를 포함한 전문 인력으로 구성된 언어전문가 그룹으로서, 고객사의 니즈에 부합하는 텍스트 데이터를 설계·가공·구축하고 내부 R&D를 통해 설계 방식을 지속적으로 개선하여 최적의 데이터 설계 방법을 제안합니다. 프로젝트 목적에 따라 적합한 숙련 작업자를 선별하여 투입하고, 체계적이고 효율적으로 고품질의 학습데이터를 생산합니다.
TEXTNET은 삼성, LG, KT, SK 등 유수 대기업의 데이터 구축 파트너로 함께하며 금융, 마케팅, 콘텐츠, 메타버스, 서비스 기획, CS 등 다양한 도메인을 다루고 있습니다.