챗봇 성능 개선을 위한 데이터 구축 및 정제

챗봇 성능 개선을 위한 데이터 구축 및 정제
✔️
이런 분들에게 도움이 되는 글이에요!
- 운영하고 있는 챗봇 성능을 개선하는 방법이 궁금하신 분
- 챗봇에 신규 콘텐츠를 추가할 때 고려할 점에 대해 궁금하신 분

개요

  • 산업 분류: 금융
  • 세부 Task: 챗봇 데이터 정제
  • 데이터 출처: 고객사 보유 데이터
  • 작업량: Confidential
  • 납품 형태: xlsx(Excel)
  • 활용 서비스: 사내 챗봇

문제

인사 제도 및 업무를 안내하는 챗봇의 데이터를 정제하여 사용자 질의의 인식률을 높이는 것이 목표였습니다. 동시에 기존 콘텐츠와의 충돌이나 이질감 없이 새로운 콘텐츠를 탑재할 수 있도록 데이터를 정제해야 했습니다.

해결 방안

  • 기존 데이터와 신규 데이터간 통일감 부여
    운영하고 있는 챗봇에 새로운 정보를 탑재할 때, 데이터 구축 시점과 주체가 달라 답변 형식이 불규칙적인 경우가 많았습니다. TEXTNET은 규칙을 수립하고 그에 맞춰 답변을 정제함으로써 사용자가 통일감을 느낄 수 있도록 했습니다.

  • 문장 디테일 조정 제안
    데이터 중 대소문자 구분이 되어있지 않거나 특정 단어가 겹쳐 인식률이 떨어지는 문제점을 발견하고 개선을 제안했습니다.

  • 데이터 추가로 인식률 제고
    사용자의 다양한 질문 패턴에도 올바른 답변이 출력될 수 있도록 키워드와 문장형 질의를 추가하였습니다.

  • AI를 활용한 단순 반복 작업 자동화로 효율 향상
    데이터 정제 과정에서 AI를 활용하여 반복적인 작업을 자동화함으로써 시간을 단축하고 데이터 품질을 높이는 작업에 리소스를 집중할 수 있었습니다.

프로젝트 결과

  • 기존 데이터와의 이질감 없는 챗봇 데이터 현행화
  • 사용자의 다양한 질문 패턴에 대응할 수 있는 챗봇 데이터 정제
  • 작업 효율을 향상시키는 AI 활용 자동화 방안 마련

이 프로젝트의 데이터 기획은 아래 Project Manager가 담당했습니다.
김명신


TEXTNET 소개

지금의 딥러닝을 있게 한 AI Guru 제프리 힌튼의 데이터셋 'ImageNet'에 어원을 둔 TEXTNET은 (주)스피링크가 운영하는 AI/챗봇을 위한 텍스트 데이터 설계 및 구축 서비스입니다.

TEXTNET은 언어학, 심리학, 전산언어학 석·박사를 포함한 전문 인력으로 구성된 언어전문가 그룹으로서, 고객사의 니즈에 부합하는 텍스트 데이터를 설계·가공·구축하고 내부 R&D를 통해 설계 방식을 지속적으로 개선하여 최적의 데이터 설계 방법을 제안합니다. 프로젝트 목적에 따라 적합한 숙련 작업자를 선별하여 투입하고, 체계적이고 효율적으로 고품질의 학습데이터를 생산합니다.

TEXTNET은 삼성, LG, KT, SK 등 유수 대기업의 데이터 구축 파트너로 함께하며 금융, 마케팅, 콘텐츠, 메타버스, 서비스 기획, CS 등 다양한 도메인을 다루고 있습니다.