RAG 대응 사실 기반 QA 데이터 구축

RAG 대응 사실 기반 QA 데이터 구축
Image by Freepik
✔️
이런 분들에게 도움이 되는 글이에요!
- LLM을 위한 QA 데이터 구축 시 주의해야 할 점에 대해 궁금하신 분
- 데이터 소스가 부족할 때 해결할 수 있는 방법이 궁금하신 분
- 데이터 퀄리티를 높이는 프로젝트 운영 방법이 궁금하신 분

개요

  • 산업 분류: IT/통신
  • 세부 Task: MRC QA 데이터셋 구축
  • 데이터 출처: 고객사 제공 데이터
  • 작업량: Confidential
  • 납품 형태: xlsx(Excel)
  • 활용 서비스: 사내 챗봇

문제

그룹사 및 계열사 관련 질문에 응대할 수 있는 생성형AI 개발을 위한 QA 데이터를 구축하는 프로젝트였습니다. 향후 LLM 도입에 앞서 RAG(Retrieval-Augmented Generation)에 대응 가능한 지식 DB를 마련하는 것이 목표였습니다.

해결 방안

  • 리서치를 통한 데이터 확장
    사내 챗봇을 위한 QA 데이터 구축이므로 직원들이 실제로 물어볼만한 질문으로 자연스러운 데이터를 구성했습니다. 기획한 질문의 범위가 고객사가 제공한 내부 자료의 범위를 벗어나는 경우가 많았기 때문에 추가로 공신력있는 출처에서 확보할 수 있는 고객사 및 계열사 정보를 모아 활용함으로써 데이터 범위를 확장하고 다양성도 높일 수 있었습니다.

  • 모델 학습을 고려한 데이터 수준 조정
    추론, 확률, 통계를 통해 답변을 생성하는 LLM의 특성을 고려하여 정답과 오답 데이터의 수준을 조정하여 인식률을 높이는 방향으로 데이터를 설계했습니다. LLM이 오답 데이터를 정답으로 혼동하지 않도록, 상호배타적인 내용으로 답변 데이터를 설계했습니다.

  • 꼼꼼하고 자세한 구축 가이드라인 작성
    크루(작업자)에게 제공하는 구축 가이드라인을 통해 구축의 범위와 대상, 내용의 깊이, 활용 가능한 정보 출처에 대한 공통된 컨센서스를 가지고 작업이 진행될 수 있도록 했습니다. 작업 전 예상 가능한 오류 유형과 풍부한 예시를 포함하여 작업 중 이슈 발생 시 빠른 해결이 가능하도록 하고, 데이터 구축 시 활용 가능한 정보들을 지속 제공하여 작업 효율을 높였습니다.

  • 크루(작업자)의 원활한 관리
    실시간 라이브 교육과 채팅을 통해 작업 초기 빠르게 크루(작업자)의 프로젝트 이해도를 높였습니다. 매일 이전 작업 데이터에 대한 피드백과 고객사 피드백을 함께 전달하여 전체 프로젝트의 맥락 안에서 퀄리티 높은 데이터가 나올 수 있도록 크루(작업자)를 관리했습니다.

프로젝트 결과

  • 고객사 제공 데이터 기반 추가 리서치를 통해 데이터 커버리지 확장
  • LLM의 인식률을 높이는 상호배타적인 QA 데이터 설계
  • 데이터 퀄리티를 높이는 크루(작업자) 사전 교육/운영/관리

고객사 평가

"다른 업체에 비해서 경험이 풍부해 이슈가 발생했을 때 해결책을 달라고 요구하는 것이 아니라 먼저 해결책을 제시해주는 부분이 좋았습니다. 이런 학습데이터는 처음 해보는데 기대한 것 이상의 퀄리티라서 만족스럽습니다. 요청했던 Task 모두 데이터와 서비스 품질이 우수하다는 것을 느낄 수 있었습니다." - 담당자 이OO님

이 프로젝트의 데이터 기획은 아래 Project Manager가 담당했습니다.
남보름, 박항아


TEXTNET 소개

지금의 딥러닝을 있게 한 AI Guru 제프리 힌튼의 데이터셋 'ImageNet'에 어원을 둔 TEXTNET은 (주)스피링크가 운영하는 AI/챗봇을 위한 텍스트 데이터 설계 및 구축 서비스입니다.

TEXTNET은 언어학, 심리학, 전산언어학 석·박사를 포함한 전문 인력으로 구성된 언어전문가 그룹으로서, 고객사의 니즈에 부합하는 텍스트 데이터를 설계·가공·구축하고 내부 R&D를 통해 설계 방식을 지속적으로 개선하여 최적의 데이터 설계 방법을 제안합니다. 프로젝트 목적에 따라 적합한 숙련 작업자를 선별하여 투입하고, 체계적이고 효율적으로 고품질의 학습데이터를 생산합니다.

TEXTNET은 삼성, LG, KT, SK 등 유수 대기업의 데이터 구축 파트너로 함께하며 금융, 마케팅, 콘텐츠, 메타버스, 서비스 기획, CS 등 다양한 도메인을 다루고 있습니다.