LLM-RAG 기반 디지털 휴먼을 위한 데이터셋 구축

LLM-RAG 기반 디지털 휴먼을 위한 데이터셋 구축
✔️
이런 분들에게 도움이 되는 글이에요!
- 원시 데이터의 효율적인 전처리 및 정제 방법이 궁금하신 분
- LLM-RAG 기반 생성 데이터의 할루시네이션을 해결하고 싶으신 분
- 실존 인물을 디지털 휴먼으로 구현할 때 주의할 점이 궁금하신 분

개요

  • 산업 분류: 공공·교육
  • 세부 Task: 데이터 전처리, MRC QA 데이터셋 구축, 데이터 레이블링(Labeled corpus), 윤문, RAG(Retrieval-Augmented Generation)
  • 데이터 출처: 고객사 제공 자료
  • 작업량: Confidential
  • 납품 형태: xlsx(Excel)
  • 활용 서비스: 디지털 휴먼

문제

실존 인물을 디지털 휴먼으로 구현하는 프로젝트로, 디지털 휴먼이 사실을 바탕으로 발화할 수 있도록 LLM-RAG 기반 QA 데이터셋을 구축하는 것이 고객사의 목표였습니다. 고객사에서 제공한 설문조사 데이터를 디지털화하고, 문헌을 바탕으로 생성된 QA 데이터셋에서 할루시네이션을 검수했습니다. AI 윤리를 고려하여 사용자의 혐오 표현에 대응할 수 있는 불용 주제 데이터셋도 함께 구축하였습니다.

해결 방안

  • 효율적인 데이터 전처리 수행
    설문조사 데이터를 디지털화하는 동시에 주제 유형을 재정의하여 이후 진행될 라벨링 작업의 혼란성을 낮추고 생산성을 높일 수 있었습니다. 또한 머신러닝 기반 클러스터링으로 데이터 내 중복을 빠르게 제거하고 유사 질의를 묶어 핵심 데이터만 잔존시키는 방식으로 데이터 퀄리티를 높였습니다.

  • LLM-RAG 기반 생성 데이터의 할루시네이션 검수
    LLM이 생성한 데이터의 RAG 오류를 유형화하여 라벨링하는 방식으로 질문과 답변 데이터의 할루시네이션을 검수했습니다. 오류 유형에 따라 적절한 수정 방안을 적용하고 작성 주체가 다른 여러 자료들 사이에서 데이터 일관성을 유지할 수 있도록 작업했습니다.

  • 페르소나를 반영한 윤문
    가상 페르소나가 아닌 실존 인물의 페르소나였기 때문에 사실 여부 확인 및 혐오, 차별 등 민감한 이슈 관리가 중요했습니다. 이를 고려하여 고객사 제공 자료를 종합, 3인의 디지털 휴먼에 적절한 말투와 호칭 등을 정의하여 반영했습니다.

  • 구축 및 검수 방향 제시
    생산성을 고려한 가장 효율적인 데이터 구축 및 검수 방안을 먼저 기획하여 제안했습니다. 고객사가 이후 프로젝트를 수행할 때 용이한 방향으로 데이터의 세부 사항을 정의했습니다.

프로젝트 결과

  • 원시 데이터의 디지털화 및 정제 과정을 머신러닝을 활용하여 보다 효율적으로 진행
  • 작성 주체, 자료 형태가 달라 통일되지 않은 원천 데이터를 기반으로 일관성 있는 데이터 구축
  • 짧은 수행 기간 내 납품이 가능한 효율적인 데이터 구축 프로세스 제안

고객사 평가

"사업 기간 내 원활한 의사소통으로 당사 일정에 지장 없이 데이터를 납품받을 수 있었고, 구축된 데이터의 품질도 우수했습니다. 많은 양의 QA 데이터를 두 달이라는 짧은 시간안에 구축할 수 있어 만족스러웠고 다음번에도 좋은 기회로 함께하고 싶습니다." - 담당자 박OO님

이 프로젝트의 데이터 기획은 아래 Project Manager가 담당했습니다.
박다혜, 이원재


TEXTNET 소개

지금의 딥러닝을 있게 한 AI Guru 제프리 힌튼의 데이터셋 'ImageNet'에 어원을 둔 TEXTNET은 (주)스피링크가 운영하는 AI/챗봇을 위한 텍스트 데이터 설계 및 구축 서비스입니다.

TEXTNET은 언어학, 심리학, 전산언어학 석·박사를 포함한 전문 인력으로 구성된 언어전문가 그룹으로서, 고객사의 니즈에 부합하는 텍스트 데이터를 설계·가공·구축하고 내부 R&D를 통해 설계 방식을 지속적으로 개선하여 최적의 데이터 설계 방법을 제안합니다. 프로젝트 목적에 따라 적합한 숙련 작업자를 선별하여 투입하고, 체계적이고 효율적으로 고품질의 학습데이터를 생산합니다.

TEXTNET은 삼성, LG, KT, SK 등 유수 대기업의 데이터 구축 파트너로 함께하며 금융, 마케팅, 콘텐츠, 메타버스, 서비스 기획, CS 등 다양한 도메인을 다루고 있습니다.