혐오표현 유도 및 대응 발화 패턴 데이터 구축

인공지능 AI 혐오표현 유도 및 어뷰징 대응 발화 패턴 데이터 구축
✔️
이런 분들에게 도움이 되는 글이에요!- AI의 차별 및 혐오표현에 대해 관심이 있으신 분- AI에게 악의적인 발언을 유도하는 적대적 공격(Adversarial Attack)에 대한 연구가 궁금하신 분

개요

  • 산업 분류: IT/공학
  • 세부 Task: 연구, 데이터 분류
  • 데이터 출처: 자체 수집
  • 작업량: Confidential
  • 납품 형태: 연구보고서

문제

고객사는 자사 서비스 기능 개발을 위해 혐오표현의 구체적인 기준을 수립하고, 이를 판별하는 모델을 테스트할 수 있는 데이터를 구축하고자 했습니다. 흔히 혐오표현이라고 지칭하는 비속어나 소수자에 대한 차별적 표현, 편향적인 표현을 비롯하여 타인에게 위해를 주는 표현까지 범위를 넓혀 데이터에 반영하는 것이 목표였습니다. 문자 그대로 혐오표현임을 알 수 있는 키워드 이상의 것들도 AI가 감지해낼 수 있도록 해야 했기 때문입니다. 한국어의 경우 발화의 맥락에 따라 의미가 달라질 수 있다는 점도 고려해야 했습니다.

해결 방안

  • 다양한 채널에서 데이터 수집
    TEXTNET은 인터넷 주요 커뮤니티 게시판, 뉴스 댓글 등을 참고하여 혐오표현을 조사하고 다양한 예문을 수집하고 이를 유형화했습니다. 혐오표현이 등장하는 대화의 패턴 파악을 위해 챗봇에 대한 어뷰징 사례들도 꼼꼼히 살폈습니다.

  • 선행 연구를 바탕으로 프로젝트 진행
    혐오표현 분류에 대한 선행 연구, 공신력있는 정책 기관의 자료를 바탕으로 혐오표현에 대한 더욱 고도화된 기준을 수립하여 제안했습니다. 선행 연구 자료는 대부분 영미권의 연구 사례여서 한국어에 그대로 반영하기에는 다소 어려움이 있었기 때문에, 그대로 적용하기 어려운 범주는 보완하고 한국어의 특성을 반영한 범주를 신설하기도 했습니다.

  • 단계적인 연구 진행
    혐오표현 기준 수립에 이어 사용자가 혐오표현을 유도하는 발화를 하는 패턴을 규명하고, 혐오표현에 대한 AI의 반응을 유형화했습니다.

프로젝트 결과

  • 한국어 특성에 맞는 혐오표현 분류와 기준 정립
  • 데이터 구축 작업에 반영 가능한 혐오표현 예방 가이드라인 마련
  • 사용자의 적대적 공격(Adversarial Attack) 대응을 위한 기초 연구

고객사 평가

"프로젝트에 대한 깊은 고민이 느껴지는 결과물이었어요. 저희가 생각하지 못한 관점을 제안해 주신 것이 도움이 많이 됐고요. 특히 혐오표현을 다양하게 수집해야 했는데 저희가 생각한 것보다 더욱 다양한, 예상하지 못한 표현들을 모아오셔서 많이 놀라기도 했습니다." - 담당자 최OO님

"오랫동안 이 연구 주제를 가지고 혼자 헤매고 있었는데, 명쾌해진 느낌이에요. 진작 의뢰드릴걸 그랬어요. 후속 프로젝트도 꼭 맡기고 싶어요!" - 담당자 김OO님

이 프로젝트의 데이터 기획은 아래 Project Manager가 담당했습니다.
남보름, 강지윤, 김성연, 박항아, 김새롬


TEXTNET 소개

지금의 딥러닝을 있게 한 AI Guru 제프리 힌튼의 데이터셋 'ImageNet'에 어원을 둔 TEXTNET은 (주)스피링크가 운영하는 AI/챗봇을 위한 텍스트 데이터 설계 및 구축 서비스입니다.

TEXTNET은 언어학, 심리학, 전산언어학 석·박사를 포함한 전문 인력으로 구성된 언어전문가 그룹으로서, 고객사의 니즈에 부합하는 텍스트 데이터를 설계·가공·구축하고 내부 R&D를 통해 설계 방식을 지속적으로 개선하여 최적의 데이터 설계 방법을 제안합니다. 프로젝트 목적에 따라 적합한 숙련 작업자를 선별하여 투입하고, 체계적이고 효율적으로 고품질의 학습데이터를 생산합니다.

TEXTNET은 삼성, LG, KT, SK 등 유수 대기업의 데이터 구축 파트너로 함께하며 금융, 마케팅, 콘텐츠, 메타버스, 서비스 기획, CS 등 다양한 도메인을 다루고 있습니다.