개인정보 개체명 포함 대화 데이터셋 구축

개인정보 개체명 포함 대화 데이터셋 구축
✔️
이런 분들에게 도움이 되는 글이에요!
- AI 기반 개인정보 탐지 및 비식별화를 위한 데이터가 필요하신 분
- TEXTNET이 크루(작업자)와 함께 일하는 방식이 궁금하신 분

개요

  • 산업 분류: IT/공학 기업 및 연구기관 컨소시엄
  • 세부 Task: 대화 설계, 대화 생성, 태깅
  • 데이터 출처: 신규 생성
  • 작업량: Confidential
  • 납품 형태: xlsx(Excel)
  • 활용 목적: AI 기반 개인정보 탐지 및 비식별화 기술 개발

문제

일상 대화 속에서 개인정보를 구분하고 비식별화 하는 기술을 개발하기 위한 데이터셋 구축이 목표였습니다. 이름부터 주민등록번호, 카드번호까지 다양한 난도를 가진 개체명이 포함된 자연스러운 일상 대화 데이터를 유형별로 균형 있게 구축할 필요가 있었습니다. 특히 기술 개발, 데이터 기획, 실제 학습을 담당하는 주체가 컨소시엄 내에서 서로 달랐기 때문에 컨소시엄 구성원 모두의 니즈를 확인하여 반영하는 것이 중요했습니다.

해결 방안

  • 데이터의 품질을 높이는 사전 테스트와 가이드라인
    데이터에 포함되는 가상의 개인정보가 최대한 실제와 같아야 했기 때문에 계좌번호, 차량번호 등의 개인정보가 어떤 규칙을 가지는지 확인하여 개인정보 예시를 만들었고, 이를 크루(작업자)에 배포했습니다. 일관성을 가진 데이터 구축을 위해 태깅 규칙을 구체적으로 작성함으로써 오류를 줄였습니다. 혐오/차별/편견이 없는 데이터를 위해 크루 선발을 위한 사전 테스트부터 꼼꼼히 살폈습니다.

  • 크루(작업자)와의 협업
    실제로 데이터를 창작하는 크루의 프로젝트 이해도를 높이기 위해 자습, 셀프 테스트와 실습을 포함한 실시간 교육을 진행하였습니다. 프로젝트 진행 전 담당 PM이 직접 데이터를 창작해보며 어려움을 느끼는 부분을 파악했고 문제를 해결할 수 있는 참고자료를 지속적으로 제공했습니다. 크루가 고난도의 프로젝트 진행 중 이탈하지 않고 책임감을 바탕으로 데이터를 구축할 수 있도록 정서적인 지원에도 힘썼습니다.

  • 컨소시엄과의 원활한 소통
    컨소시엄의 각 주체별 역할을 확인하고 필요한 정보를 효율적으로 전달하여 소통 비용을 줄이고 니즈가 다른 주체간 이해관계를 조정하는 역할을 담당했습니다.

프로젝트 결과

  • 목적에 부합하면서도 일관성 있고 편향되지 않은 데이터 구축
  • 크루(작업자)와의 효과적인 협업 시스템 운영
  • 컨소시엄 내 여러 주체들의 니즈를 반영한 데이터셋 구축

고객사 평가

"자세하고 구체적으로 정리해주셔서 감사드립니다. 면밀하게 준비해 주신 만큼 연구에 잘 활용하도록 하겠습니다." - 담당자 강OO님

이 프로젝트의 데이터 기획은 아래 Project Manager가 담당했습니다.
남보름, 김수진


TEXTNET 소개

지금의 딥러닝을 있게 한 AI Guru 제프리 힌튼의 데이터셋 'ImageNet'에 어원을 둔 TEXTNET은 (주)스피링크가 운영하는 AI/챗봇을 위한 텍스트 데이터 설계 및 구축 서비스입니다.

TEXTNET은 언어학, 심리학, 전산언어학 석·박사를 포함한 전문 인력으로 구성된 언어전문가 그룹으로서, 고객사의 니즈에 부합하는 텍스트 데이터를 설계·가공·구축하고 내부 R&D를 통해 설계 방식을 지속적으로 개선하여 최적의 데이터 설계 방법을 제안합니다. 프로젝트 목적에 따라 적합한 숙련 작업자를 선별하여 투입하고, 체계적이고 효율적으로 고품질의 학습데이터를 생산합니다.

TEXTNET은 삼성, LG, KT, SK 등 유수 대기업의 데이터 구축 파트너로 함께하며 금융, 마케팅, 콘텐츠, 메타버스, 서비스 기획, CS 등 다양한 도메인을 다루고 있습니다.