초거대 AI의 추론 능력 향상을 위한 한국어 학습 데이터 구축

초거대 AI의 추론 능력 향상을 위한 한국어 학습데이터 구축
✔️
이런 분들에게 도움이 되는 글이에요!
- 스스로 학습하고 추론하는 초거대 AI에 필요한 데이터의 특성이 궁금하신 분
- 한국어 특성을 반영한 데이터 구축을 원하시는 분

개요

  • 산업 분류: IT/공학
  • 세부 Task: 데이터 레이블링(Labeled corpus), 문장 생성
  • 데이터 출처: 개방 공공데이터
  • 작업량: 데이터셋 8,000개
  • 납품 형태: xlsx(Excel)
  • 활용 서비스: AI 모델 학습 및 추론 자동화 플랫폼

문제

고객사는 추론, 분류, 질의응답 등 다양한 자연어처리 작업에 활용할 수 있는 100억 개 이상의 파라미터를 가진 초거대 한국어 AI 모델을 개발했습니다. 이 모델은 전문성을 요하는 추가 작업 없이 비전문가들도 다양한 한국어 문장 처리에 적용할 수 있도록 제공될 예정이었습니다.
고객사는 초거대 AI 모델의 효율적인 추론을 가능하게 하는 서빙 시스템을 보유하고 있었지만, 주 모델 언어가 영어였기 때문에 한국어로 된 학습 데이터 구축이 필요한 상황이었습니다. 단순히 영어 데이터를 번역, 변환해서 사용할 경우 데이터의 높은 품질을 기대할 수 없습니다. 영어와 한국어는 전반적인 언어 체계가 다르고, 특히 한국어의 경우 내용 전달 시 맥락에 의존하는 고맥락 언어이기 때문입니다. 한국어는 다양한 문체 구사가 가능하다는 점도 고려해야 합니다.

해결 방안

  • 다양성 확보를 위한 사전 정보 구조화
    주제와 언어적 특성을 바탕으로 데이터에 반영되어야 할 정보를 구조화하고 각 분류마다 균일한 비율로 데이터가 구축될 수 있도록 관리했습니다.

  • 리얼월드(Real-World)를 반영하기 위한 노력
    일상생활에서 자주 쓰는 단어 위주로 구축하기 위해 한국어의 다양한 동형어(형태는 같으나 뜻이 다른 단어)를 수집하여 사전으로 구축했습니다. 실제 구축 과정에서는 동형어가 어떤 의미로 사용되었는지에 대해 라벨링이 함께 진행되었습니다. 데이터에 꼭 필요한 문장요소를 담으면서도 어색함을 최소화할 수 있도록 가이드라인을 제시해 관리하였습니다.

  • 추론 Task를 위한 맞춤형 데이터 구축
    AI가 스스로 넓은 범위의 맥락을 고려하여 핵심을 추론해낼 수 있도록 하기 위해서는 다량의 저품질 데이터가 아닌 고품질 데이터를 구축해야 했습니다. TEXTNET은 원문의 핵심 단어를 지정하여 정답 테스트를 설계하고 추론 난이도를 상/중/하로 분류하여 작업함으로써 Task에 맞는 데이터를 구축할 수 있었습니다.

프로젝트 결과

  • 한국어 기반으로 작동하는 추론 시스템 구축
  • 데이터 구축 시 고려해야 하는 한국어 특성 규명

이 프로젝트의 데이터 기획은 아래 Project Manager가 담당했습니다.
강민선, 김수진, 조아임, 현은진


TEXTNET 소개

지금의 딥러닝을 있게 한 AI Guru 제프리 힌튼의 데이터셋 'ImageNet'에 어원을 둔 TEXTNET은 (주)스피링크가 운영하는 AI/챗봇을 위한 텍스트 데이터 설계 및 구축 서비스입니다.

TEXTNET은 언어학, 심리학, 전산언어학 석·박사를 포함한 전문 인력으로 구성된 언어전문가 그룹으로서, 고객사의 니즈에 부합하는 텍스트 데이터를 설계·가공·구축하고 내부 R&D를 통해 설계 방식을 지속적으로 개선하여 최적의 데이터 설계 방법을 제안합니다. 프로젝트 목적에 따라 적합한 숙련 작업자를 선별하여 투입하고, 체계적이고 효율적으로 고품질의 학습데이터를 생산합니다.

TEXTNET은 삼성, LG, KT, SK 등 유수 대기업의 데이터 구축 파트너로 함께하며 금융, 마케팅, 콘텐츠, 메타버스, 서비스 기획, CS 등 다양한 도메인을 다루고 있습니다.