LLM 기반 대화형 AI 사용성 평가

LLM 기반 대화형 AI 사용성 평가
✔️
이런 분들에게 도움이 되는 글이에요!
- 벤치마크 중심의 LLM 성능 평가가 아닌 실제 사용자 관점의 LLM 사용성 평가에 대해 궁금하신 분
- LLM 사용성 평가 진행 시 일관성 유지 방법이 궁금하신 분
- LLM 평가를 진행할 때 어떤 부분을 고려해야 하는 지 궁금하신 분

개요

  • 산업 분류: IT/통신
  • 세부 Task: 대화 평가, 서비스 품질 개선
  • 데이터 출처: 고객사 보유 서비스 로그, 실제 사용을 통해 확보한 로그
  • 작업량: Confidential
  • 활용 서비스: 대화형 AI

문제

한 플랫폼 내의 복수의 대화형 AI가 목적에 따라 실제 사용자 관점에서 유용한지 평가하는 기준을 정의하고 객관적으로 평가함으로써 대화 품질을 향상시키는 것이 목표였습니다. 고객사가 제공한 로그 바탕의 평가는 물론 직접 서비스를 이용해보면서 평가를 진행했고, 향후 개선 방안도 제안했습니다.

해결 방안

  • 개발 및 서비스 운영 환경을 고려한 평가
    고객사의 대화형 AI는 여러개의 모델이 복합적으로 구동되는 방식으로, 일상 주제의 대화인 Open domain 대화부터 실제 문제 해결을 지원하는 Task oriented 대화까지 아우르는 다양한 목적의 챗봇을 운영하고 있었습니다. TEXTNET은 각 챗봇의 목적과 기능, 모델의 특성에 맞게 지표를 서로 다르게 설정하여 평가를 진행했습니다.

  • 객관적이고 일관적인 평가 지표 적용
    평가 전 지표를 최대한 명확하게 설정했다고 하더라도 여러 사람이 평가하는 경우 일관성 유지가 쉽지 않기 때문에 이를 보완하기 위한 지속적인 크로스 체크 및 기준 합의 과정을 거쳤습니다. 필요한 경우 예시 보완, 세부 기준 수립 등으로 평가자간 편차를 최대한 줄이는 방향으로 프로젝트를 진행했습니다.

  • 고객의 니즈를 반영한 평가 지표 설계
    일반적으로 적용하는 평가 지표 외에도 고객사가 평가를 희망하는 부분을 파악하여 추가 지표를 설정했습니다. 기본 지표들 중에서도 평가하기 모호한 지표는 수치화된 세부 기준을 설정하거나 평가 범주와 방법을 조정하여 명확히 했습니다.

  • 문제점 확인 및 개선 아이디어 제시
    실제 대화 로그, 평가자별/기준별 점수 뿐만 아니라 업데이트 전/후 모델을 비교 분석한 자료를 작성하여 언어 전문가, 챗봇 설계 전문가의 관점에서 추가 개선이 필요한 부분 및 아이디어를 적극적으로 제시하였습니다. 지표별로 어떻게 점수가 변화했는지 정량적인 정보는 물론 정성적인 개선 포인트에 대하여 다양한 예시를 함께 제공함으로써 서비스 고도화의 기반을 마련했습니다. 고객사는 실제 프로젝트 종료 이후 TEXTNET이 제공한 자료를 바탕으로 고도화를 진행하고 있습니다.

프로젝트 결과

  • 다양한 챗봇의 목적과 성격에 맞는 LLM 평가 기준 수립
  • ​벤치마크, 리더보드 중심의 LLM 성능 평가가 아닌 실제 사용자의 만족도와 실용성을 반영하는 '사용성' 평가 진행
  • 정량적인 평가 데이터에서 나아가 구체적인 개선 방향 확인 및 아이디어 제안

고객사 평가

"요청을 빠르게 이해하고 처리해주시고, 작업 중 이슈가 발생했을 때 빠르게 파악하고 해결 방안까지 제시해 주셔서 많은 도움이 되었습니다. 평가 업무에 들이는 리소스를 줄이면서도 보다 다양한 평가를 진행할 수 있어서 좋았습니다. 올해 TEXTNET과 다시 협업할 계획을 세우고 있습니다." - 담당자 장OO님

이 프로젝트의 데이터 기획은 아래 Project Manager가 담당했습니다.
김예슬, 김다혜, 이민주, 주다희, 남관우, 현은진


TEXTNET 소개

지금의 딥러닝을 있게 한 AI Guru 제프리 힌튼의 데이터셋 'ImageNet'에 어원을 둔 TEXTNET은 (주)스피링크가 운영하는 AI/챗봇을 위한 텍스트 데이터 설계 및 구축 서비스입니다.

TEXTNET은 언어학, 심리학, 전산언어학 석·박사를 포함한 전문 인력으로 구성된 언어전문가 그룹으로서, 고객사의 니즈에 부합하는 텍스트 데이터를 설계·가공·구축하고 내부 R&D를 통해 설계 방식을 지속적으로 개선하여 최적의 데이터 설계 방법을 제안합니다. 프로젝트 목적에 따라 적합한 숙련 작업자를 선별하여 투입하고, 체계적이고 효율적으로 고품질의 학습데이터를 생산합니다.

TEXTNET은 삼성, LG, KT, SK 등 유수 대기업의 데이터 구축 파트너로 함께하며 금융, 마케팅, 콘텐츠, 메타버스, 서비스 기획, CS 등 다양한 도메인을 다루고 있습니다.