LLM 성능 평가 및 테스트 데이터 구축

LLM 성능 평가 및 테스트 데이터 구축
✔️
이런 분들에게 도움이 되는 글이에요!
- 한국어 기반 LLM의 성능 평가 방법이 궁금하신 분
- 학습 데이터셋이 아닌 벤치마크 데이터셋을 구축할 때의 유의점이 궁금하신 분
- 기존 벤치마크 데이터셋의 한계점을 보완하고 싶으신 분

개요

  • 산업 분류: IT/통신
  • 세부 Task: 벤치마크 데이터셋 구축, 데이터 레이블링
  • 데이터 출처: 공개 데이터를 바탕으로 신규 구축
  • 작업량: Confidential
  • 납품 형태: json

문제

LLM과 대화형 AI의 성능을 평가할 수 있는 데이터셋을 구축하고 평가 가이드라인을 작성하는 프로젝트였습니다. 공개된 해외 벤치마크 데이터셋들이 있지만, 한국어 기반 LLM을 평가하기에는 적합하지 않은 부분이 있어 이를 한국화하면서도 평가의 변별력을 잃지 않도록 하는 것이 중요했습니다.

해결 방안

  • 평가를 위한 질문 유형 다양화
    대화형 AI 성능 평가를 위한 질문을 체계화하는 과정에서 평가의 커버리지를 높일 수 있도록 사전에 협의된 카테고리를 기반으로 한국어의 언어적 특성을 고려하여 신규 유형을 더하거나 기존 유형을 보완하였습니다.

  • 해외 벤치마크 데이터셋 한국화
    현업에서 주로 쓰이고 있는 문장 완성, QA, 언어 이해, 의미 분석 등의 해외 벤치마크 데이터셋을 한국화하였습니다. 단순히 영어 데이터를 번역하는 것이 아니라 한국 문화에 맞게 평가 영역을 신설하거나 맞지 않는 데이터를 수정하고, 국내에서 사용하는 전문 용어로 변경하는 등의 윤문 작업을 거쳤습니다.

  • 평가 목적에 맞는 변별력 있는 데이터셋 구축
    LLM의 언어 이해도를 평가하기 위해 구성된 벤치마크 데이터셋의 경우, 객관적인 평가를 위해 한국에 특화된 정보로 데이터를 구성함과 동시에 모델이 정답을 쉽게 구할 수 없도록 작성해야 했습니다. 이와 같은 미묘한 부분을 가이드라인에 자세히 반영하여 구축, 검수 과정에서 지속 보완을 거쳤습니다.

프로젝트 결과

  • 한국어 능력을 평가할 수 있는 벤치마크 데이터셋 구성 경험
  • LLM의 성능을 유의미하게 평가할 수 있는 변별력 있는 데이터셋 구축 경험
  • 한국어 모델에 맞는 LLM 평가 방법 연구 기반 마련

고객사 평가

"문의 및 요구 사항에 빠르 피드백 및 대응이 만족스러웠습니다. 변경사항을 요청드렸을 때에도 빠르게, 잘 수정하여 전달해 주셔서 좋았습니다." - 담당자 문OO님

이 프로젝트의 데이터 기획은 아래 Project Manager가 담당했습니다.
이민주, 김수진


TEXTNET 소개

지금의 딥러닝을 있게 한 AI Guru 제프리 힌튼의 데이터셋 'ImageNet'에 어원을 둔 TEXTNET은 (주)스피링크가 운영하는 AI/챗봇을 위한 텍스트 데이터 설계 및 구축 서비스입니다.

TEXTNET은 언어학, 심리학, 전산언어학 석·박사를 포함한 전문 인력으로 구성된 언어전문가 그룹으로서, 고객사의 니즈에 부합하는 텍스트 데이터를 설계·가공·구축하고 내부 R&D를 통해 설계 방식을 지속적으로 개선하여 최적의 데이터 설계 방법을 제안합니다. 프로젝트 목적에 따라 적합한 숙련 작업자를 선별하여 투입하고, 체계적이고 효율적으로 고품질의 학습데이터를 생산합니다.

TEXTNET은 삼성, LG, KT, SK 등 유수 대기업의 데이터 구축 파트너로 함께하며 금융, 마케팅, 콘텐츠, 메타버스, 서비스 기획, CS 등 다양한 도메인을 다루고 있습니다.