LLM 평가, 사용성이 중심이 되어야 하는 이유

LLM 평가, 사용성이 중심이 되어야 하는 이유
Image by freepik

지난 콘텐츠(LLM 평가 지표: 최선의 LLM 성능 평가 방법은 무엇일까?)에서는 목적에 맞는 LLM 평가 지표를 개발해야 하는 이유에 대해서 살펴보았습니다. 이와 함께 LLM 평가에 일관성이 필요한 이유와 평가 일관성을 유지하는 방법, 그리고 LLM 성능 평가의 후속으로 이어져야 할 Task까지 알아보며 LLM 성능 평가를 위해 고려해야 할 점을 전반적으로 소개했는데요.

💡 LLM의 목적에 맞는 평가 지표를 개발해야 하는 이유
1. LLM의 목적에 따라 평가에 사용되는 지표가 달라짐
2. LLM의 목적에 따라 같은 평가 지표더라도 세부 기준이 달라짐
3. LLM의 목적에 따라 평가 기준의 난도를 조정해야 함

이번 콘텐츠에서는 LLM 기반 서비스를 실제로 사용하는 입장에서의 평가는 어떻게 이뤄져야 할 지 고민해 보고자 합니다.

LLM 사용성 평가의 필요성

LLM의 뛰어난 자연어 이해 및 생성 능력 덕분에 NLP Task의 하위 스펙트럼이 넓어지고 있습니다. 발전된 기술을 기반으로 한 서비스도 활발하게 출시되고 있는데요. 동시에 LLM의 성능을 평가하려는 다양한 시도도 함께 이루어지고 있습니다.

NLP Task
NLP Task란 생성, QA, 번역, NER 등을 말하며 위 그림의 예시들이 해당합니다. (출처: https://vitalflux.com/natural-language-processing-nlp-task-examples)

특히 ChatGPT 등장 이후로 기업에서는 LLM을 기존 대화형 서비스에 적용하려는 움직임이 활발한데요. 서비스의 경쟁 우위를 확보하기 위해서는 사용자의 만족도를 높여 지속적인 사용을 이끌어내는 것이 중요합니다.

현재 LLM 평가는 Task 위주의 능력, 성능 평가로 진행되고 있습니다. 예를 들어 Ko-LLM 리더보드에서는 추론능력(ARC), 상식능력(HellaSwag), 언어이해력(MMLU), 환각방지능력(TruthfulQA), 한국어상식생성능력(KoCommonGEN-V2)의 5개의 평가지표로 성능을 확인하고 있습니다. 하지만 LLM을 활용한 서비스의 사용자 만족도와 지속적 사용에 영향을 미치는 요인에 대한 연구는 부족한 상태입니다.

Ko-LLM Leaderboard의 평가지표
Ko-LLM Leaderboard의 평가지표(출처: https://www.aihub.or.kr/leaderboard/view.do?currMenu=500&topMenu=102)

각종 리더보드에서 높은 순위를 얻어 성능이 우수하다고 평가되는 LLM이라 할지라도, 실제 사용자의 만족도 또한 높을 것이라고 단정하기는 어렵습니다. LLM이 적용된 서비스(챗봇 혹은 인공지능 스피커 등)의 이용 목적과 도메인, 사용자에 따라서 만족을 느끼는 지점이 다르기 때문입니다.

따라서 LLM 기반 서비스의 만족도 평가를 위해서는 실제 서비스에 적용된 상태에서 사용자가 체감하는 만족도를 함께 평가해야 합니다. 우리가 ChatGPT의 성능에 놀라는 한편 어딘가 어색하다고 느끼는 것은 아직은 AI와 실제 세계, Real World의 간극을 느끼기 때문입니다. 이는 ChatGPT(또는 타 LLM 기반 서비스)와 대화를 나누는 대상인 ‘사람이 어떻게 느끼느냐’는 LLM의 성능과는 다른 차원이라는 방증입니다.

사용성(Usability)과 사용자 경험(User Experience)

사용자가 특정 서비스를 이용하여 이득을 얻고, 그로 인해 만족을 얻었는지를 평가하기 위해서는 사용성과 사용자 경험 두 가지를 살펴보아야 합니다.

💡사용성(Usability)이란?
사용자의 목표를 달성하도록 돕는 도구 측면에서의 용이함
💡사용자 경험(User Experience)이란?
사용자가 시스템과의 상호작용을 인식하고 그것이 사용자에게 심리적으로 어떤 영향을 끼치는지를 고려하는 것

이 두 가지 측면을 살펴본다면 사용자가 서비스를 통해 목적을 달성했는지, 이 경험이 심리적으로 긍정적인 영향을 끼쳐 결국에 만족도가 상승했는지를 알 수 있을 것입니다.

사용성에 대한 연구는 1971년 밀러(Miler)에 의해 ‘사용하기 쉬움’의 정도를 측정하는 시도로 처음 시작되었으며 이후 구체화되었는데요. 그 결과 사용성은 효과성, 효율성, 만족도의 세 가지 개념으로 정의되고 있습니다.

ISO 9241-11 standard (국제표준화기구의 사용성 정의)

구분 내용
효과성
(Effectiveness)
  • 이용자 필요와 목적에 적합한 기능과 정보 제공
  • 신뢰성 있고 안정적인 제품
효율성
(Efficiency)
  • 사용 방법을 학습하기 쉬운 제품
  • 이용자의 실수를 줄여주는 제품
만족도
(Satisfaction)
  • 차별화된 경험을 제공하는 제품
  • 이용자의 감성적인 성향에 부합하는 제품

대표적인 사용자 경험 측정 방식으로는 피터 모빌의 허니콤 모형 7가지(2004)가 있습니다. 피터 모빌의 허니콤 모형은 UX의 질적 특성을 평가할 수 있는 7가지 구성 요소를 설정하고 이를 벌집 모양의 그림으로 제시한 방법론입니다.

User Experience Honeycomb
User Experience Honeycomb(출처: https://semanticstudios.com/user_experience_design)

피터 모빌의 허니콤 모형(User Experience Honeycomb) 7가지

구분 내용
사용성
(Usable)
제품이나 서비스를 사용하는 데 쉽게 이해하고 사용할 수 있는지
유용성
(Useful)
제품이나 서비스가 사용자의 목적을 달성하는 데 도움이 되거나 문제를 해결하는지
매력성
(Desirable)
제품과 서비스가 사용자에게 감성과 감정적인 요구를 충족하는지
접근성
(Accessible)
제품이나 서비스에 사용자가 쉽게 접근할 수 있는지
가치성
(Valuable)
제품이나 서비스가 사용자의 요구에 부합하고 가치가 충분한지
검색성
(Findable)
제품이나 서비스가 원하는 정보를 쉽게 찾을 수 있는지
신용성/신뢰성
(Credible)
제품이나 서비스가 사용자가 예상한 대로 작동하고 안정적인지

위의 두 가지 방법론은 사용자 경험 디자인 요소를 선정하고 평가하는데 규범이자 표준으로 인식되어 왔습니다. 그러나 인공지능 기반 서비스에서는 자동화와 지능화를 반영한 사용자 경험 디자인 요소의 정의와 평가가 필수적이었고, 이에 따라 평가 지표의 구성과 평가 방식에도 변화가 필요했습니다.

LLM 사용자 경험 관련 최근 연구 동향

안무정 & 강태임 (2023)에서는 ChatGPT 사용자 경험 디자인 요소를 16가지로 정의하고 이 중에서 6가지 항목을 선정하여 ChatGPT 사용자 경험 디자인 설문 항목을 제시하고 있습니다.

ChatGPT 사용자 경험 디자인 요소

💡 ChatGPT 사용자 경험 디자인 요소 16가지
사용성, 효율성, 유용성, 만족도, 매력성, 조작성, 신뢰성, 가치성, 접근성, 안정성, 성능, 공정성, 사회적 책임, 해석 가능성, 투명성, 의인화

ChatGPT 사용자 경험 디자인 설문 항목

구분 내용
유용성 챗GPT는 업무, 일상생활에서 발생하는 문제를 해결하거나 목적을 달성하는 데 도움이 되는가?
신뢰성 챗GPT가 생성한 결과의 내용과 맥락이 일관성을 유지하여 사용자가 원하는 정보를 제공하는가?
성능 챗GPT는 빠른 처리 속도와 높은 답변 정확도를 제공하는가?
공정성 챗GPT는 나이, 성별, 지역 등과 같은 인적 특성에 대한 편견 없이 결과를 생성하는가?
사회적 책임 챗GPT는 사회적 가치의 위협이 되거나 유해한 질문을 거부하는가?
사용성 챗GPT는 사용이 간편하며 원하는 정보를 검색하는 데 효과적인가?

위 연구는 사용자 경험 디자인 설문 항목을 통해 유용성, 신뢰성, 성능, 공정성, 사회적 책임, 사용성 등 6가지 항목이 기획, 운영, 지원 업무에 미치는 영향을 밝히고 이를 통해 ChatGPT UX를 평가한 후 보완할 요소를 제안했습니다. 대화형 AI의 사용자 경험 관련 연구가 부재한 상황에서 사용자 경험 평가의 가이드라인으로 활용될 수 있다는 점에서 의의가 있습니다. 하지만 그 대상이 ChatGPT의 ‘업무 활용’ 분야에 국한되어 있기 때문에, LLM에 범용적으로 적용할 수 있는 사용자 평가를 위해서는 추가적인 고민이 필요해 보입니다.

LLM 사용성 평가가 어려운 이유

유혜리&민영(2023)에서는 데이비스(Davis, 1989)의 기술 수용 모델을 소개하며 새로운 기술을 지속적으로 이용하려는 의도에 영향을 미치는 핵심 변인은 인지된 유용성과 인지된 용이성이라고 언급합니다. 또 각각의 요소는 해당 기술의 특성과 사용 맥락에 따라 달라질 수 있다고 했는데요. LLM 서비스 사용자의 만족도를 평가하기 위해서도 기술의 특성과 사용 맥락을 고려하여 평가 체계를 구체화해야 할 것으로 보입니다.

먼저 기술의 특성 측면에서는 LLM 활용 서비스가 챗봇 혹은 음성인식 스피커 등의 다양한 형태로 서비스 되고 있다는 점을 고려해야 합니다. 이는 서비스 형태가 다르기 때문에 각 서비스 형태의 입력과 출력의 양상을 반영한 평가 체계가 필요하다는 것을 의미합니다.

<💁‍♀️예시> 답변 형태별 표현성 평가 지표
[텍스트 답변]
답변의 가독성이 좋아 사용자가 이해하기에 적절한가
[음성 답변] 답변의 발화 속도가 적당하여 사용자가 이해하기에 적절한가

위의 예시처럼 동일한 답변에 대한 표현성 평가라도 답변이 텍스트로 보이는지, 음성으로 제공되는지에 따라 지표가 달라져야 합니다.

또한 LLM 활용 서비스를 사용하는 다양한 목적을 고려한 사용 맥락에 맞는 평가체계 설계가 필요합니다.

<💁‍♀️예시> 사용 목적별 유용성 평가 지표
[목적 대화]
답변 내용이 질문의 내용과 연관성이 있어 문제를 해결하는 데 도움이 되었는가
[일상 대화] 답변 내용이 질문의 내용과 연관성이 있어 대화를 매끄럽게 이어나갈 수 있었는가

LLM 관련 서비스를 이용하는 맥락을 크게 ‘목적 대화’와 ‘일상 대화’로만 구분해 봐도 위의 예시처럼 평가 내용이 달라지는 것을 확인할 수 있습니다.

*목적 대화: 텍스트 또는 음성을 통해 사용자의 특수한 요구를 만족시켜 주는 대화 (김학동 외 2019)

LLM 사용성 평가에 대한 연구는 아직 진행 중이며, 이렇다 할 정답은 없는 상태입니다. Task 위주의 성능 평가는 지속적으로 연구되고 있지만, 해당 모델을 직접 사용하는 사용자 중심의 평가 결과를 확인하기는 어렵습니다.

국내/외 LLM 평가 지표 관련 연구를 살펴보면 공통적으로 LLM 평가는 다양한 측면에서 이루어져야 함을 지속 강조하고 있습니다. 많은 사람이 사용할수록 성능과 커버리지가 확장되는 LLM의 경우, LLM 기반 서비스를 이용하는 사용자의 실제 만족도(언어 모델과의 전반적인 대화 경험 만족도)는 중요한 지표가 될 수 있습니다.

LLM 기반 서비스에서 사용자의 대화 상대가 되는 AI Agent를 기준으로 보았을 때 사용자의 대화 경험 만족도 확인을 위해서는 사용자가 AI Agent를 통해 얻고자 하는 것은 무엇인지, 사용자가 마주하는 AI Agent의 성격은 어떤지, 사용자가 AI Agent와 대화하는 과정 전반에서 긍정적인 경험을 하고 있는지 등을 총체적으로 고려해야 합니다. 도구적인 측면에서의 LLM 서비스 평가와 함께 LLM을 활용하여 제공한 서비스를 사용하며 사용자가 겪을 수 있는 총체적인 만족감을 평가할 수 있도록 지표를 구성하는 것이 필요합니다.

💁‍♀️ LLM 사용성 평가를 위해 고려해야 할 사항
- LLM 기반 서비스 사용자가 사용 전, 중, 후에 겪게 되는 일련의 모든 신체적・정신적 경험의 속성
- LLM기반 서비스 사용자가 만족하고 지속적인 사용으로 이어질 수 있도록 하는 데 영향을 미치는 모든 요인

LLM 사용성 평가를 위해서는 기존의 사용성과 사용자 경험과 관련된 개념을 바탕으로 사용자가 LLM과의 대화를 통해 느끼게 되는 종합적인 만족감을 무엇으로 정의할 것인지를 생각하는 것이 필요하겠죠. 그다음으로 이에 맞는 평가 지표와 평가 방식을 고민해야 할 것으로 보입니다.

하지만 이러한 개념은 매우 추상적이고 주관적이기 때문에 객관화된 평가 지표를 만들기가 어렵습니다. AI Agent와 나눈 대화에서 사용자가 느끼는 만족감을 측정해 낼 수 있는 지점은 어디일지, 그리고 이를 객관화하여 수치로 나타낼 방법은 무엇일지 다양한 시각에서 분석하고 고민하는 것이 필요합니다.

다시 대화하고 싶은 LLM을 만들기 위한 노력

TEXTNET에서는 다수의 챗봇 프로젝트를 통해 얻은 기술 및 플랫폼에 대한 전문성과 함께 사용자 맞춤형 대화 구현에 대한 TEXTNET만의 노하우를 담아서 사용자가 LLM과 만족스러운 대화를 하고 있는지를 평가하는 방법에 대해 고민을 이어나가고 있습니다. TEXTNET은 LLM 사용성 평가를 통해 LLM 분야의 서비스가 더 고도화될 수 있도록 끊임없이 연구를 수행할 예정입니다. 더불어 LLM 평가와 관련하여 이어질 콘텐츠도 많이 기대해 주세요.

Reference

  1. 안무정, and 강태임. "디지털 트랜스포메이션 경영을 위한 챗 GPT 사용자 경험 (UX) 디자인 평가-오픈 AI 챗 GPT 와 마이크로소프트 빙 챗 GPT 교차활용을 중심으로." 한국디자인문화학회지 29.2 (2023): 237-247.
  2. 황성원, and 김현석. "패스트푸드점의 무인주문결제 키오스크 사용자 경험 연구." 디지털콘텐츠학회논문지 20.8 (2019): 1491-1501.
  3. 유혜리, and 민영. “생성형 인공지능 챗봇 챗지피티(ChatGPT) 이용 의도에 대한 연구 : 기술 수용 모델과 어포던스를 중심으로”. 방송통신연구 124.005 (2023): 141-169.
  4. 김학동, 고명현, 임헌영, 이유림, 지민규, 김원일. “목적 지향 대화를 위한 효율적 질의 의도 분석에 관한 연구”. 방송공학회논문지 24.1 (2019): 48-57
✏️
Editor │ 연구개발팀 강지윤 Researcher
다시 대화하고 싶은 AI를 만들기 위해 고민합니다.

TEXTNET 소개

지금의 딥러닝을 있게 한 AI Guru 제프리 힌튼의 데이터셋 'ImageNet'에 어원을 둔 TEXTNET은 (주)스피링크가 운영하는 AI/챗봇을 위한 텍스트 데이터 설계 및 구축 서비스입니다.

TEXTNET은 언어학, 심리학, 전산언어학 석·박사를 포함한 전문 인력으로 구성된 언어전문가 그룹으로서, 고객사의 니즈에 부합하는 텍스트 데이터를 설계·가공·구축하고 내부 R&D를 통해 설계 방식을 지속적으로 개선하여 최적의 데이터 설계 방법을 제안합니다. 프로젝트 목적에 따라 적합한 숙련 작업자를 선별하여 투입하고, 체계적이고 효율적으로 고품질의 학습데이터를 생산합니다.

TEXTNET은 삼성, LG, KT, SK 등 유수 대기업의 데이터 구축 파트너로 함께하며 금융, 마케팅, 콘텐츠, 메타버스, 서비스 기획, CS 등 다양한 도메인을 다루고 있습니다.