LLM 추론 능력 향상을 위한 학습 데이터 구축

LLM 추론 능력 향상을 위한 학습 데이터 구축
✔️
이런 분들에게 도움이 되는 글이에요!
- LLM의 추론 능력을 향상시키는 방법이 궁금하신 분
- LLM의 작동 원리에 맞는 데이터 설계 방법이 궁금하신 분
- 고난도 데이터 구축 시 작업 효율화 방법이 궁금하신 분

개요

  • 산업 분류: IT
  • 세부 Task: 지식/정보 설계, 대화 데이터 구축, 데이터 레이블링
  • 데이터 출처: 고객사 제공 데이터
  • 작업량: Confidential
  • 납품 형태: xlsx(Excel)

문제

단답형 질문 외에 유추가 필요한 질문, 복합적인 질문에도 대응할 수 있도록 LLM의 추론 능력을 향상 시키는 학습 데이터를 구축하는 것이 목표였습니다. 데이터의 내용이 될 특정 도메인 자료를 가공하여 원천 데이터로 만드는 과정을 시작으로, 사용자가 실제 사용할 법한 표현과 말투를 반영하여 자연스러운 대화데이터를 구축했습니다.

해결 방안

  • 사전 구축 범위 설정
    고객사 LLM의 기존 성능을 바탕으로 어떤 범위의 데이터를 어느 수준까지 다뤄야 하는지 사전에 확인한 뒤 데이터를 구축함으로써 리소스를 줄이고 작업을 효율화할 수 있었습니다. 특히 추론 과정에 있어 주관적인 기준에 의해 답이 달라질 수 있는 내용은 구축 범위에서 제외하여 정확도를 높이는 데 집중했습니다.

  • 최신 방법론 활용
    LLM의 추론 성능을 높일 수 있는 다양한 방법론을 리서치, 연구하여 데이터 설계에 반영하였습니다. 프롬프트 엔지니어링 방법론 중 CoT(Chain-of-Thought) 기법을 활용함으로써 데이터에서 가장 자연스러운 단어 시퀀스를 찾아내는 LLM의 작동 원리에 맞게 문장을 구성하였습니다.

  • 데이터 유형화/체계화
    고객사 제공 도메인 자료 전체를 분석하여 정보를 체계화한 후 구축할 데이터를 사전에 유형화하여 다양한 형태의 추론이 가능하도록 구성했습니다. 단일 유형의 추론은 물론 여러개의 Task가 섞인 복합 유형의 추론도 포함했습니다.

  • 맞춤형 구축 환경 설계
    구축 단계에서부터 오류를 줄일 수 있도록 맞춤형 구축 환경을 마련했습니다. 작업자(크루)의 인지 부하량을 줄이는 방식으로 오류가 발생할 수 있는 지점을 사전에 제거하여 이후 검수 리소스까지 절약할 수 있었습니다. 이외에도 작업자가 손쉽게 도메인 정보를 찾을 수 있도록 검색기를 배치하는 등 효율화를 통해 데이터 퀄리티에 집중할 수 있도록 했습니다.

프로젝트 결과

  • 자료를 바탕으로 정확한 답변을 구사하는 LLM 학습 데이터 구축
  • CoT(Chain-of-Thought)을 반영한 추론 데이터 설계안 마련
  • 다양한 추론 Task 정의 및 패턴화

이 프로젝트의 데이터 기획은 아래 Project Manager가 담당했습니다.
김수진, 김성연, 류소정, 박다혜


TEXTNET 소개

지금의 딥러닝을 있게 한 AI Guru 제프리 힌튼의 데이터셋 'ImageNet'에 어원을 둔 TEXTNET은 (주)스피링크가 운영하는 AI/챗봇을 위한 텍스트 데이터 설계 및 구축 서비스입니다.

TEXTNET은 언어학, 심리학, 전산언어학 석·박사를 포함한 전문 인력으로 구성된 언어전문가 그룹으로서, 고객사의 니즈에 부합하는 텍스트 데이터를 설계·가공·구축하고 내부 R&D를 통해 설계 방식을 지속적으로 개선하여 최적의 데이터 설계 방법을 제안합니다. 프로젝트 목적에 따라 적합한 숙련 작업자를 선별하여 투입하고, 체계적이고 효율적으로 고품질의 학습데이터를 생산합니다.

TEXTNET은 삼성, LG, KT, SK 등 유수 대기업의 데이터 구축 파트너로 함께하며 금융, 마케팅, 콘텐츠, 메타버스, 서비스 기획, CS 등 다양한 도메인을 다루고 있습니다.