영어 외래어 및 관용적 표현이 포함된 한영 혼합 발화 데이터 가공

영어 외래어 및 관용적 표현이 포함된 한영 혼합 발화 데이터 가공

개요

  • 산업 분류: 공공기관
  • 세부 Task: 음성전사(Transcription), 데이터 레이블링(Labeled corpus)
  • 데이터 출처: 고객사 제공 음성 파일
  • 작업량: Confidential
  • 활용 서비스: Confidential

문제

일상생활 및 여러 전문분야에서 영어 외래어 사용이 증가함에 따라 대화 중 자연스럽게 구사되는 영어 외래어 및 관용적 표현이 포함된 한영 혼합 발화에 대한 음성 인식률을 높이는 프로젝트였습니다.

실제 발화에서는 표준 발음법에 맞게 발음하지 않는 경우가 많아 다양한 발화형에 대한 음성 인식률을 높이기 위해 대화 내 외래어에 대해 발화형, 한글 사전형(외래어 표기법 근거), 영어 알파벳 표기형으로 구분하여 라벨링 작업이 필요했습니다. 더불어 영어 외래어 및 관용적 표현에 대해 ETRI 개체명 분류 체계를 따라 라벨링 할 필요도 있었습니다.

해결 방안

TEXTNET은 모든 음성 데이터를 듣고 영어 외래어 및 관용적 표현을 최대한 발음에 가깝게 전사하여 다양한 발화형 데이터를 확보했습니다.

ETRI 개체명 분류 체계는 한국어 개체명에 대한 분류 체계였기 때문에, 외래어 개체명에 맞는 분류체계를 재정립하였고, 라벨링의 일관성을 유지하고 작업의 체감 난이도를 낮추기 위해 '라벨링 사전'을 제작하여 크루에 공유하였습니다.

이 프로젝트의 데이터 기획은 아래 Project Manager가 담당했습니다.
김수정, 윤이나, 임예리, 현은진, 조아임, 손민경


TEXTNET 소개

지금의 딥러닝을 있게 한 AI Guru 제프리 힌튼의 데이터셋 'ImageNet'에 어원을 둔 TEXTNET은 (주)스피링크가 운영하는 AI/챗봇을 위한 텍스트 데이터 설계 및 구축 서비스입니다.

TEXTNET은 언어학, 심리학, 전산언어학 석·박사를 포함한 전문 인력으로 구성된 언어전문가 그룹으로서, 고객사의 니즈에 부합하는 텍스트 데이터를 설계·가공·구축하고 내부 R&D를 통해 설계 방식을 지속적으로 개선하여 최적의 데이터 설계 방법을 제안합니다. 프로젝트 목적에 따라 적합한 숙련 작업자를 선별하여 투입하고, 체계적이고 효율적으로 고품질의 학습데이터를 생산합니다.

TEXTNET은 삼성, LG, KT, SK 등 유수 대기업의 데이터 구축 파트너로 함께하며 금융, 마케팅, 콘텐츠, 메타버스, 서비스 기획, CS 등 다양한 도메인을 다루고 있습니다.