에듀테크 서비스 LLM 개발을 위한 대화 데이터 구축

에듀테크 서비스 LLM 개발을 위한 대화 데이터 구축
✔️
이런 분들에게 도움이 되는 글이에요!
- 에듀테크 산업에 LLM 도입하고 싶으신 분
- 사용자에 최적화된 대화 시나리오 구축 방법이 궁금하신 분
- 불용어 데이터 관리에 대해 궁금하신 분

개요

  • 산업 분류: 에듀테크
  • 세부 Task: 대화 시나리오 설계, 페르소나 설계, 불용어 사전 구축
  • 데이터 출처: TEXTNET 보유 데이터 및 신규 생성, 고객사 내부 문서
  • 작업량: Confidential
  • 납품 형태: xlsx(Excel)
  • 활용 서비스: Confidential

문제

AI 관리교사를 휴먼 관리교사의 보조 기능으로 활용함으로써 특화된 AI 학습 관리 시스템을 마련하는 것이 목표인 프로젝트였습니다. AI 관리교사가 맞춤형 학습 가이드를 제공함으로써 휴먼 관리교사의 업무 가중을 완화시키고 학습자들의 자기주도학습 능력 강화를 지원하는 것이 핵심이었습니다.

해결 방안

  • 개인 맞춤 버추얼 튜터를 위한 대화 시나리오 설계
    생성형 언어 모델을 통해 구축한 대화 시나리오를 파인튜닝하고 학생 개인별 학습 분석 데이터를 학습하였습니다. 학습자의 학습 환경에 기반한 커리큘럼 관리를 통해 맞춤형 학습 관리를 제공하고, 학습 결과에 기반한 일관성 있는 상담을 제시할 수 있도록 대화 시나리오를 설계하였습니다.
  • 일상대화 및 고민 데이터로 대화의 자연스러움 극대화
    사용자의 실제 대화를 바탕으로 구축한 일상 대화 데이터와 학업에 대한 고민과 솔루션을 나눌 수 있는 멀티턴 형태의 대화 데이터를 구축함으로써 교사와 학생간의 자연스러운 상호작용이 가능하도록 페르소나를 구축하였습니다.
  • 불용어 사전 구축
    고객사가 보유한 불용어 사전을 기반으로 현재 언어 모델의 활용 가능성을 염두하여 금칙어 목록을 확장하고 사용자 중심의 현실적인 목록으로 정비하였습니다. 언어 모델의 어뷰징 방지는 물론 다양한 맥락에서 적용 가능하도록 검수, 정비하였습니다.

프로젝트 결과

  • 학습 능력 강화 및 학습자의 감정 상태에 대응할 수 있는 대화 시라니오 구축
  • 학습 시간에 이루어지는 교사와 학습자 간의 상호작용을 반영한 페르소나 구축
  • 범용 비정상 발화 데이터 구축

고객사 평가

"하나하나 꼼꼼하게 분석하고 설계해준 점이 특히 마음에 들었고 내부적으로 고민이 많았던 부분에 대해서도 함께 고민하고 논의하며 체계를 잡을 수 있어서 좋았습니다. 이번 한번으로 끝나지 않고 다음에도 더 좋은 기회로 꼭 함께했으면 좋겠습니다."

이 프로젝트의 데이터 기획은 아래 Project Manager가 담당했습니다.
남보름, 이민주, 박항아


TEXTNET 소개

지금의 딥러닝을 있게 한 AI Guru 제프리 힌튼의 데이터셋 'ImageNet'에 어원을 둔 TEXTNET은 (주)스피링크가 운영하는 AI/챗봇을 위한 텍스트 데이터 설계 및 구축 서비스입니다.

TEXTNET은 언어학, 심리학, 전산언어학 석·박사를 포함한 전문 인력으로 구성된 언어전문가 그룹으로서, 고객사의 니즈에 부합하는 텍스트 데이터를 설계·가공·구축하고 내부 R&D를 통해 설계 방식을 지속적으로 개선하여 최적의 데이터 설계 방법을 제안합니다. 프로젝트 목적에 따라 적합한 숙련 작업자를 선별하여 투입하고, 체계적이고 효율적으로 고품질의 학습데이터를 생산합니다.

TEXTNET은 삼성, LG, KT, SK 등 유수 대기업의 데이터 구축 파트너로 함께하며 금융, 마케팅, 콘텐츠, 메타버스, 서비스 기획, CS 등 다양한 도메인을 다루고 있습니다.