AI 모델 학습을 위한 TA 학습데이터 구축

AI 모델 학습을 위한 TA 학습데이터 구축
✔️
이런 분들에게 도움이 되는 글이에요!
- STT 데이터 구축 방법이 궁금하신 분
- 데이터 생산성 효율화 과정이 궁금하신 분
- 상황별, 페르소나별 데이터를 구축하고 싶으신 분

개요

  • 산업 분류: IT/통신
  • 세부 Task: 데이터 요약, 데이터 레이블링, 멀티턴 대화 데이터 구축
  • 데이터 출처: TEXTNET 보유 데이터 및 신규 생성
  • 작업량: Confidential
  • 납품 형태: xlsx(Excel)
  • 활용 서비스: Confidential

문제

IT/통신 기업의 자체 개발 LLM의 텍스트 분석을 위한 학습 데이터를 구축하는 프로젝트였습니다. 단기간 내에 다량의 데이터를 구축함과 동시에 데이터 활용 목적에 맞는 다양한 상황과 페르소나 등의 디테일을 살리는 것이 중요했습니다.

해결 방안

  • 생산성 증대를 위한 작업 효율화
    PM의 설계 하에 데이터 구축 수량과 세부 테스크 등 프로젝트 진행 상황을 한 눈에 파악할 수 있는 대시보드를 구축하여 작업을 안정화하였습니다. 명확한 가이드라인에 기반하여 대화문 정제부터 상담 요약까지 원스톱으로 진행하고 요약 프롬프트를 활용하여 작업의 효율성을 극대화했습니다.
  • 전사 데이터 디테일 극대화
    STT 과정과 고유 발화 특징, 습관 전사 데이터의 특징을 분석하고 인위적인 표현을 삭제하여 작업을 간소화하였습니다. 다양한 상황과 고객 페르소나의 다양성을 반영하여 전사 데이터의 디테일을 극대화하였습니다.
  • 구축 가이드라인 개선 방안 제안
    샘플 데이터에 대한 가이드라인이 명확하지 않아 해당 이슈에 대한 방향성을 제시하여 수정을 최소화하였으며, 모호한 기준에 대한 2가지 개선안을 제안하여 빠르고 명확하게 데이터를 구축할 수 있는 기반을 마련했습니다.

프로젝트 결과

  • 콜센터 상담 데이터의 구조 마련
  • STT 데이터 창작, 다양한 페르소나 반영으로 실세 상황같은 데이터 생성
  • 데이터 일관성을 높일 수 있는 가이드 마련

고객사 평가

"프로젝트의 효율 및 데이터 품질 향상을 위한 개선점을 먼저 제시해주시고 촉박한 프로젝트 일정에도 기한에 맞춰 프로젝트를 완수해주셔서 좋았습니다. 특히 요청사항을 즉각적으로 반영해주시는 덕분에 단기간에 고품질의 데이터를 구축할 수 있었습니다."

이 프로젝트의 데이터 기획은 아래 Project Manager가 담당했습니다.
김다혜, 남관우


TEXTNET 소개

지금의 딥러닝을 있게 한 AI Guru 제프리 힌튼의 데이터셋 'ImageNet'에 어원을 둔 TEXTNET은 (주)스피링크가 운영하는 AI/챗봇을 위한 텍스트 데이터 설계 및 구축 서비스입니다.

TEXTNET은 언어학, 심리학, 전산언어학 석·박사를 포함한 전문 인력으로 구성된 언어전문가 그룹으로서, 고객사의 니즈에 부합하는 텍스트 데이터를 설계·가공·구축하고 내부 R&D를 통해 설계 방식을 지속적으로 개선하여 최적의 데이터 설계 방법을 제안합니다. 프로젝트 목적에 따라 적합한 숙련 작업자를 선별하여 투입하고, 체계적이고 효율적으로 고품질의 학습데이터를 생산합니다.

TEXTNET은 삼성, LG, KT, SK 등 유수 대기업의 데이터 구축 파트너로 함께하며 금융, 마케팅, 콘텐츠, 메타버스, 서비스 기획, CS 등 다양한 도메인을 다루고 있습니다.