초거대 AI를 위한 문장 생성 및 요약 데이터셋 구축
개요
- 산업 분류: IT/공학
- 세부 Task: 추출 및 생성 요약 데이터셋 구축, 데이터 레이블링(Labeled corpus)
- 데이터 출처: 고객사 보유 상담 대화 데이터
- 작업량: Confidential
- 납품 형태: xlsx(Excel)
문제
- 기계처럼 똑같은 대답을 하지 않고, 매번 사람처럼 다른 대답을 할 수 있는 AI 서비스 상용화에 가까운 기술을 구현하는 것이 목표였습니다. AI가 어휘 변용한 문장을 자동 생성해 스스로 학습 성능을 높일 수 있는 문장 생성 기술과 긴 상담 및 대화 내용을 한 줄로 요약하는 문장 요약 기술을 통해 학습 데이터 구축 시간 및 서비스 응대 시간을 획기적으로 단축하고자 하였습니다.
- 초거대AI 시대를 맞이하여 기존의 저품질-多데이터 기조에서 벗어나 고품질-多파라미터에 초점을 맞춘 프로젝트가 국내외에서 활발히 진행되고 있습니다. 비교적 적은 양의 데이터로도 고도화된 AI학습이 가능하게 되었기 때문에 제대로 된 학습을 위한 전문성 있는 고품질의 데이터 구축이 필요했습니다.
- 기계식으로 추출한 구문의 단순 집합체가 아닌 매끄러운 문장 생성과 별도의 추가 가공 없이 바로 학습 진행이 가능한 형태의 데이터, 폭 넓은 언어 데이터 생성이 관건이었습니다. 원문이 문맥을 통한 유추가 반드시 필요한 비정형 상담 대화 데이터였기 때문에 문해력, 문장력이 모두 요구된 프로젝트였습니다.
해결 방안
- TEXTNET은 텍스트 데이터를 전문적으로 다루는 언어 전문가 그룹임과 동시에 각종 어노테이션 프로젝트도 다수 진행하고 있어 고객사의 다양한 요청을 동시에 수행할 수 있는 팀 구성이 가능했습니다. 이에 총 11개의 정보를 주어진 방식대로 라벨링하며, 상담 대화문의 주제가 담긴 한 문장의 서술 요약문을 작성하는 두 가지 작업을 동시에 진행했습니다. 라벨링 데이터의 오류를 낮추고 기준에 부합하는 서술 요약문을 작성하는 데 중점을 뒀습니다.
- 여러 크루가 작업하더라도 마치 한 명이 요약문을 작성하는 것처럼 동일한 수준으로 서술 요약문이 작성되어야 했기 때문에, 검수 인력이 실시간 모니터링을 진행했습니다. 요약문 모범 사례를 공유해 참고할 수 있도록 하고, 사전 분류를 통해 불필요한 작업이 진행되지 않도록 관리했습니다.
- TEXTNET은 반복되는 상담 대화를 패턴화하여 해당 대화 내에서 많이 언급되는 라벨링 대상을 리스트업해 설계를 진행했습니다. 자주 사용되는 서비스명을 사전으로 만들어 크루의 혼란을 줄이고, 통일되지 않은 개체명의 라벨링을 규칙화하여 일관성 있는 라벨링이 진행될 수 있도록 작업했습니다.
- 요약 및 구문, 라벨링 구축 즉시 학습 진행 및 실시간 피드백이 이루어졌기 때문에 오류율이 0%에 수렴하도록 지속적인 고도화 작업이 진행되었으며, 1차로 진행했던 데이터의 학습 결과가 좋아 난도를 높여 2차 구축까지 수행했습니다.
이 프로젝트의 데이터 기획은 아래 Project Manager가 담당했습니다.
윤이나, 박다혜, 현은진
TEXTNET 소개
지금의 딥러닝을 있게 한 AI Guru 제프리 힌튼의 데이터셋 'ImageNet'에 어원을 둔 TEXTNET은 (주)스피링크가 운영하는 AI/챗봇을 위한 텍스트 데이터 설계 및 구축 서비스입니다.
TEXTNET은 언어학, 심리학, 전산언어학 석·박사를 포함한 전문 인력으로 구성된 언어전문가 그룹으로서, 고객사의 니즈에 부합하는 텍스트 데이터를 설계·가공·구축하고 내부 R&D를 통해 설계 방식을 지속적으로 개선하여 최적의 데이터 설계 방법을 제안합니다. 프로젝트 목적에 따라 적합한 숙련 작업자를 선별하여 투입하고, 체계적이고 효율적으로 고품질의 학습데이터를 생산합니다.
TEXTNET은 삼성, LG, KT, SK 등 유수 대기업의 데이터 구축 파트너로 함께하며 금융, 마케팅, 콘텐츠, 메타버스, 서비스 기획, CS 등 다양한 도메인을 다루고 있습니다.