LLM 도입을 위한 데이터 정제 및 학습 데이터 구축

LLM 도입을 위한 데이터 정제 및 학습 데이터 구축
Image by storyset on Freepik
✔️
이런 분들에게 도움이 되는 글이에요!
- LLM에 맞는 데이터 구조화 방법이 궁금하신 분
- 다양한 형태의 자료를 텍스트 데이터로 변환하여 활용하고 싶으신 분
- 난도 높은 도메인 데이터를 다룰 때 주의해야 할 점이 궁금하신 분

개요

  • 산업 분류: 금융
  • 세부 Task: 비정형 데이터의 정형화, 데이터 정제, MRC QA 데이터셋 구축, LLM 학습 데이터셋 구축
  • 데이터 출처: 고객사 내부 문서
  • 작업량: Confidential
  • 납품 형태: xlsx(Excel)
  • 활용 서비스: 사내 챗봇

문제

금융기관의 LLM 도입을 위해 다양한 형태의 사내 문서를 텍스트로 추출, 정제하여 체계화한 후 이를 바탕으로 QA 데이터셋을 구축하는 프로젝트였습니다. 실제 직원들이 물어볼 만한 질문으로 자연스러운 데이터를 구축함과 동시에 도메인 특성상 전문 용어에 대한 정확한 이해와 활용이 중요했습니다.

해결 방안

  • 층위와 맥락을 고려한 데이터 구조화
    다양한 형태의 디지털 문서를 텍스트로 변환, 정돈되지 않은 상태의 데이터를 맥락을 고려하여 층위를 구분하는 등 구조화했습니다. LLM이 답변을 잘 찾아낼 수 있도록 구조가 복잡한 데이터의 표제와 내용을 분리하고 중복 또는 누락된 부분을 확인하여 보완했습니다.

  • 생산성 증대를 위한 작업 효율화
    작업 단계 간략화, 반복 작업의 자동화, 목적에 따른 필수 작업 정의, 데이터 통합 등을 통해 과정을 효율화하여 데이터 품질에 집중하면서도 일정 지연 없이 프로젝트를 마무리했습니다.

  • 구축 가이드라인 개선 방안 제안
    복수의 작업자가 동일한 수준의 데이터를 구축할 수 있도록 공통 항목, 필수 요소, 서술 정도, 톤 앤 매너, 답변 출처, 패러프레이징 정도 등의 항목을 미리 정의한 후 작업을 진행할 수 있도록 개선 방안을 제안했습니다.

프로젝트 결과

  • LLM의 답변 정확도를 높이는 데이터 구조화
  • 구축 작업의 효율을 높이는 과정 설계
  • 데이터 일관성을 높일 수 있는 방안 마련

고객사 평가

"데이터 구축 업무 뿐만 아니라 프로젝트 전반에 대해 도움을 받을 수 있었어요. 덕분에 일정 지연 없이 프로젝트를 종료할 수 있었고, 다른 학습 데이터 구축 인력과 차별화되어 있다는 인상을 받았습니다." - 담당자 최OO님

이 프로젝트의 데이터 기획은 아래 Project Manager가 담당했습니다.
김수진, 류소정


TEXTNET 소개

지금의 딥러닝을 있게 한 AI Guru 제프리 힌튼의 데이터셋 'ImageNet'에 어원을 둔 TEXTNET은 (주)스피링크가 운영하는 AI/챗봇을 위한 텍스트 데이터 설계 및 구축 서비스입니다.

TEXTNET은 언어학, 심리학, 전산언어학 석·박사를 포함한 전문 인력으로 구성된 언어전문가 그룹으로서, 고객사의 니즈에 부합하는 텍스트 데이터를 설계·가공·구축하고 내부 R&D를 통해 설계 방식을 지속적으로 개선하여 최적의 데이터 설계 방법을 제안합니다. 프로젝트 목적에 따라 적합한 숙련 작업자를 선별하여 투입하고, 체계적이고 효율적으로 고품질의 학습데이터를 생산합니다.

TEXTNET은 삼성, LG, KT, SK 등 유수 대기업의 데이터 구축 파트너로 함께하며 금융, 마케팅, 콘텐츠, 메타버스, 서비스 기획, CS 등 다양한 도메인을 다루고 있습니다.