자연어 데이터 구축, 초반 작업이 가장 중요한 이유(사전 체크리스트 포함)

자연어 데이터 구축, 초반 작업이 가장 중요한 이유(사전 체크리스트 포함)

학습데이터는 도메인, 사용자, 서비스 형태, 목적에 따라 설계가 다르고 최종 결과물이 달라집니다. 자연어 데이터의 경우 모호하고 복잡하기 때문에 더더욱 그러한데요. 데이터 구축을 의뢰해 결과물을 받았는데, 처음에 생각했던 것과 너무 달라서 당황했던 경험이 있다는 이야기를 많이 듣습니다. 이전에 데이터 수요처 담당자로서 발주를 해 봤던 저도 크게 공감하는 부분입니다. 데이터 수요처, 데이터 구축 업체 관리자, 데이터 구축 업체 PM, 데이터 구축자… 최종 서비스를 사용하게 될 사용자까지 수많은 이해관계자가 있는 일이기 때문에 어쩌면 당연합니다.

자연어 데이터 구축 초반 작업을 잘못하면 일어나는 일
개발자 밈… 데이터 구축에도 적용되는 밈이었습니다… (출처: https://x.com/dktmvk12/status/658434240955023360?s=20)

그래서 자연어 데이터 구축은 초반 작업이 매우 중요합니다. 방향을 잘 정해야 목적지에 빠르고 안전하게 도달할 수 있는 것처럼 자연어 데이터 구축에 있어 초반 작업은 전체 과정을 좌우할 정도로 중요한 부분입니다. 따라서 이 글에서는 자연어 데이터 구축 전 협의를 어떻게 진행하는지, 초반 기획은 어떤 내용을 포함하는지 다루려고 합니다.

자연어 데이터 구축 과정에서 가장 중요한 것

바로 ‘지피지기 백전불태(知彼知己百戰不殆)’입니다. 구축하려는 데이터에 대해 더 많은 정보를 알 수록 데이터의 퀄리티가 높아지기 때문입니다. 단순히 ‘필요 수량을 맞춘다’가 아니라, ‘목적을 달성하는 데이터를 만드는 것’도 중요합니다. 이를 위해 사전에 상세한 조사와 협의를 진행해야 작업 과정이 단축되고, 더 나은 방향이나 새로운 관점을 제시할 수 있습니다.

TEXTNET도 고객 맞춤형 데이터 구축을 위해 이 단계를 세심하게 진행하고 있는데요. TEXTNET의 경우를 예로 들어 자연어 데이터 구축 초반 작업을 어떻게 해야 하는지 살펴보도록 하겠습니다.

자연어 데이터 구축: 사전 조사하기

구축 전 조사를 통해 데이터의 구축 목적과 역할 범위에 대해 그려봅니다. 현재 데이터 수요처, 즉 고객사는 어떤 기술 수준을 가지고 있고 어떻게 사업을 전개하고 있는지, 제시한 프로젝트는 이런 맥락 안에서 어떤 성격과 가치를 지니는지를 살핍니다. 더 나아가 고객사가 이 프로젝트를 TEXTNET에 맡기게 된 이유를 고려합니다.

데이터 수요처에 대한 정보 조사

프로젝트를 원활히 수행하기 위해 고객사에 대한 인사이트가 필요합니다. 예를 들어, 고객사의 데이터 구축 목적이 ‘마케팅 전략 수립을 위한 감성 분석 모델 활용’이라면 감성 분석 모델에 필요한 데이터 구축에 있어서 ‘고객사의 주요 고객이 누구인지’가 중요한 정보가 됩니다.

아래와 같은 자료를 살펴봄으로써 고객사가 현재 어떤 목적을 가지고 관련 사업을 운영하고 있고, 최근 어떤 영역에 관심을 두고 있는지, 주요 고객은 누구인지 확인합니다. 이는 고객사의 기술 수준, 사업 전개 방식, 서비스 형태, 프로젝트의 가치와 성격을 이해하는 데 도움이 됩니다.

  • 관련 언론 보도
  • 최근 연구 성과
  • 기존 운영 서비스와 최근 런칭 서비스
  • 데이터가 적용될 서비스/모델 관련 정보
    • 해당 서비스/모델 직접 사용해 보기
    • 해당 서비스/모델에 대한 온라인 리뷰 조사

데이터 구축 서비스를 이용하는 것이 아니라 자체적으로 데이터를 구축한다면, 거시적인 관점에서 ①어떤 목적으로 데이터가 필요한 것인지 ②궁극적인 지향점은 무엇인지 ③향후 어떤 방향으로 사업/서비스를 운영할 것인지 등을 고려해야 하겠죠.

목적에 따른 대상, 범위의 명료화

데이터 수요처의 데이터 활용 목적과 세부 사항을 고려하지 못한다면 프로젝트의 목표를 제대로 달성하지 못할 수 있습니다. 프로젝트의 목적과 범위를 이해하면 더 효율적이고 효과적인 데이터 구축이 가능합니다. 아래와 같이 예를 들어볼 수 있습니다.

목표: 상품평을 통한 감성 분석 모델 훈련
대상: 분석 대상은 무엇인가?‘상품평’은 무엇을 뜻하는가?어떤 상품을 다루는가?의류, 잡화, 화장품, 전자 기기
범위: 어느 범위까지 감성 분석을 진행해야 하는가?긍정/부정/중립만 구분하면 되는가?인간의 감정(기쁨, 슬픔, 즐거움, 화남, 분노 등)에 따른 세부 구분이 필요한가?

‘상품평을 통한 감성 분석 모델 훈련’이라는 목표를 가진 프로젝트가 있습니다. 이 목표를 이루기 위해서는 대상과 범위를 설정해야 합니다. ‘상품평’은 무엇인지, ‘감성 분석’은 어느 범위까지 진행을 해야 하는지 설계해야 합니다. ‘상품평’은 의류, 잡화, 화장품, 전자 기기 등 다양한 도메인을 가지고 있으며 각각 다른 특성을 갖습니다. ‘감성 분석’은 ‘긍정, 부정, 중립’으로 분류할 수 있으며 혹은 인간의 감정(기쁨, 슬픔, 즐거움, 화남, 분노 등)으로 분류할 수 있습니다.

만약, 이러한 목적과 대상의 범위를 설정하지 않고 데이터를 구축한다면 상품평에 특화된 감성과 그 표현을 이해하지 못하는 데이터 때문에 모델 성능이 떨어질 수 있습니다.

프로젝트에 대한 선행 연구 조사

프로젝트 관련 참고할 수 있는 선행 연구를 조사합니다. 프로젝트 내용에 따라 데이터의 품질을 높이는 지표나 가이드라인을 새로 고안하거나, 유사 서비스 조사 및 기존 레퍼런스를 통해 이미 존재하는 노하우를 활용할 수 있습니다. 예를 들면 아래와 같은 것들이 있습니다.

  • 적용 모델에 대한 연구
  • 동일 주제/학습 방법론에 대한 연구
  • 관련 지표/프레임워크 연구
  • 유사 서비스 조사
  • 기존 레퍼런스 중 관련 레퍼런스의 노하우 조사

이 과정을 통해 생각하지 못했던 부분이나 개선점을 확인한 후 기획을 구체화합니다. 머릿속으로 구축 과정을 여러 번 그려보고 꼼꼼히 체크해야 작업 리소스를 줄이고 퀄리티에 집중할 수 있겠죠.

세부 논의 사항의 이해와 준비

데이터 수요처에 대한 사전 이해와 관련 선행 연구 조사를 통해 프로젝트 설계 및 세부적으로 논의할 사항에 대한 질문지를 작성합니다. 또한 프로젝트 진행 시 발생할 수 있는 문제점을 사전에 파악하고, 해결책을 고민합니다.

가령, 감성 분석 데이터를 만들기 위해서는 데이터 선별 작업이 중요하므로 리뷰 데이터에 어떤 유형의 데이터가 있을지 미리 예측해 볼 수 있습니다. 의류 제품 리뷰에는 재질, 색감, 디자인, 특정 브랜드에 대한 선호도 등 다양한 견해가 담겨져 있습니다. 반면, 특정한 정보 없이 사용자가 이유 없이 반복적인 메세지(예: “좋아요좋아요좋아요좋아요”등)를 남기는 경우도 있습니다.

앞서 조사한 결과를 토대로 대면/비대면 협의를 통해 충분히 논의하여 데이터 구축 방식을 확정합니다. 일련의 과정들은 구축 과정에서의 리소스를 줄이고 품질 향상에 집중할 수 있도록 합니다.

자연어 데이터 구축 사전 체크리스트

  • 기본: 데이터의 형태, 필요 수량, 일정 등 일반적으로 확인할 사항들입니다.
    • 목적
      • 어떤 이유로 이 프로젝트를 진행하게 되었는가?
      • 이 프로젝트에서 최우선으로 여기는 가치는 무엇인가?
      • 데이터 구축자에게 기대하는 점은 무엇인가?
    • 형식
      • 원시 데이터의 종류: 분석할 원시 데이터는 어떤 형태로, 어떤 방식으로 제공되는가?
      • 작업 환경: 어떤 작업 도구를 활용하는가?
      • 필요 수량: 샘플링 수량은 어느 정도인가? 데이터는 한꺼번에 전달/나누어 전달 하는가? 나누어 전달한다면 수량은 어떻게 나누어야 하는가?
      • 데이터 형태: 데이터의 항목과 형태는 어떻게 구성하는가?
      • 기한: 중간/최종 데이터 필요 시기는 언제인가?
    • 기타
      • 원활한 소통을 위해 누구와 소통해야 하는가? 소통 방식은 어떻게 해야 하는가?
      • 주간, 월간, 수시 회의 등 회의 일정 및 방식은 어떻게 진행하면 좋은가?
      • 착수, 중간, 최종 보고 등 프로젝트 보고 일정과 방식은 어떻게 하면 좋은가?
      • 보안 등 이슈로 인해 구축 작업 장소를 제한해야 하는가?
  • 특수: 일반 질문 사항 외에도 프로젝트의 성격에 따른 질문 사항이 있을 수 있습니다. 보통은 데이터의 내용, 대상 언어와 관련이 있습니다. 예를 들면 아래와 같습니다.
    • Example 1) 대화 데이터 평가 상세 질문
      • 기존 데이터만 평가하는 것인가, 아니면 평가 후 적절한 문장으로 수정하는 작업도 포함인가?
      • 평가에 대한 구체적인 가이드라인이 있는가? 추가적인 지표 설계가 필요한가?
      • 초성 표현 및 특수 기호의 허용 범위는 어디까지인가?
      • 신조어, 줄임말의 허용 범위를 알 수 있는가?
    • Example 2) 일상 대화 데이터 구축 상세 질문
      • 주제는 자유 대화인가? 또는 주제를 특정해야 하는가?
      • 인구통계학적 특성을 어느 범위까지 지정해야 하는가?
      • 개인정보 비식별화는 어떻게 진행해야 하는가?
      • 싱글턴 혹은 멀티턴의 대화를 구축해야 하는가?
        • 멀티턴이라면 최소/최대 몇 턴의 대화를 구성해야 하는가?
        • 턴수 별 데이터 수량은 어느 정도로 구성해야 하는가?

자연어 데이터 구축: 작업 환경과 과정 설계하기

대면/비대면 미팅을 마쳤다면, 확인한 사항을 바탕으로 구축 과정, 작업 환경, 가이드라인 및 교육을 설계합니다.

  • 작업자 구성: 프로젝트 목적 달성에 맞는 특화된 작업자 선발을 위한 방안을 마련합니다.
  • 작업 환경 구현: 작업 효율을 중심으로 데이터 구축에 필요한 저작 도구와 작업자 관리 환경을 구현합니다.
  • 가이드라인 설계: 여러 작업자가 동일한 수준의 데이터를 구축할 수 있도록 데이터에 대한 자세한 설명과 예시를 활용하여 작성합니다.
  • 교육 방안 기획: 사전/작업 중 교육, 여러 차수의 교육, 가이드라인 숙지 평가 등 작업자 교육을 구체적으로 고안합니다.
도메인, 사용자, 서비스 형태, 목적에 따라 다양한 형태로 구축될 수 있는 자연어 데이터
학습 데이터, 특히 자연어 데이터는 도메인, 사용자, 서비스 형태, 목적에 따라 다양한 형태로 구축될 수 있습니다. (출처: https://media.giphy.com/media/45O9F2aiLOZXy/giphy.gif)

지금까지 자연어 데이터 구축에 앞서 무엇을 준비해야 하는지 알아보았습니다. 기획을 어떻게 하느냐에 따라 수백, 아니 수만 가지 형태로 구축될 수 있는 자연어 데이터인 만큼 구축 과정 초반 뿐만 아니라 전체 과정에 있어 꼼꼼하고 세심하게 접근하는 전략이 필요하다는 것을 콘텐츠를 정리하며 다시 한번 깨닫게 된 것 같습니다. 앞으로는 좀 더 새로운 관점, 더 넓은 시야를 견지하며 프로젝트를 진행해야겠다고 다짐하며 글을 맺습니다.

✏️
Editor │ 데이터사업팀 이민주 PM
멈춰서 있지 않고 항상 발전하는 PM이 되기 위해 노력하고 있습니다.

TEXTNET 소개

지금의 딥러닝을 있게 한 AI Guru 제프리 힌튼의 데이터셋 'ImageNet'에 어원을 둔 TEXTNET은 (주)스피링크가 운영하는 AI/챗봇을 위한 텍스트 데이터 설계 및 구축 서비스입니다.

TEXTNET은 언어학, 심리학, 전산언어학 석·박사를 포함한 전문 인력으로 구성된 언어전문가 그룹으로서, 고객사의 니즈에 부합하는 텍스트 데이터를 설계·가공·구축하고 내부 R&D를 통해 설계 방식을 지속적으로 개선하여 최적의 데이터 설계 방법을 제안합니다. 프로젝트 목적에 따라 적합한 숙련 작업자를 선별하여 투입하고, 체계적이고 효율적으로 고품질의 학습데이터를 생산합니다.

TEXTNET은 삼성, LG, KT, SK 등 유수 대기업의 데이터 구축 파트너로 함께하며 금융, 마케팅, 콘텐츠, 메타버스, 서비스 기획, CS 등 다양한 도메인을 다루고 있습니다.