효과적인 LLM 사용성 평가(LLM System Evaluation) 방법
LLM 경쟁이 심화되면서 LLM 평가에 대한 관심도 커지고 있습니다. TEXTNET 블로그의 여러 콘텐츠 중에서도 LLM 평가 관련 콘텐츠는 늘 상위에 랭크되어 있는데요. 이전 콘텐츠에서는 LLM 평가 방법에는 어떤 것이 있는지, 효과적인 LLM 성능 평가는 어떻게 해야 하는지, 성능 평가와 더불어 사용성 평가의 중요성에 대해서도 다루었습니다.
이번에는 구체적으로 LLM 사용성 평가란 무엇이고, 어떻게 진행하는지 소개하려고 합니다. 다시 한번 사용성 평가의 뜻을 설명하자면 이렇습니다.
LLM 사용성 평가(LLM System Evaluation)란?
LLM의 시스템 프롬프트를 변경하며 입력에 따라 출력이 어떻게 달라지는지를 분석하고 그 결과물의 질을 평가하는 평가 방법입니다. 사용자가 체감하는 만족도를 평가하기 때문에 흔히 ‘사용성 평가’라고 불리며, 생성형 AI 시스템의 결과물이 적절한지를 평가할 수 있습니다.
LLM 성능 평가에 비해 사용성 평가는 생소하게 느껴지실 수 있지만, 아예 존재하지 않았던 개념은 아닙니다. ‘챗봇 아레나(Chatbot Arena)’는 지난해 5월에 처음 공개된 LLM 리더보드로 같은 입력에 대한 언어모델 간의 출력을 비교하여 인간 선호도를 측정하는 블라인드 평가 시스템을 통해 LLM의 순위를 매기고 리더보드에 게시하고 있습니다.
이처럼 LLM 사용성 평가는 챗봇/콜봇 등 대화형 AI, AI Agent를 사용자 관점에서 평가하는 방법입니다. LLM 사용성 평가는 평가 대상인 LLM의 서비스 형태와 목적, 수행 Task, 사용자 등 다양한 요소에 따라서 세부 지표가 달라집니다. ‘챗봇 아레나’의 방식은 범용적으로 적용할 수는 없지만, 사람이 직접 기준에 따라 LLM 출력을 평가한다는 점에서 유사하다고 할 수 있습니다. 그렇다면 LLM 사용성 평가는 어떻게 해야 할까요?
LLM 사용성 평가(LLM System Evaluation)의 과정
- 평가 대상 모델/서비스 확인: LLM의 서비스 형태와 목적, 수행 Task, 주요 사용자의 특성 등을 살피고, 평가 기준과 지표를 설계하기 위한 정보를 수집합니다. LLM 기반이 아니더라도 국내/외에서 유사 서비스의 사용성 평가를 진행한 레퍼런스가 있는지 리서치합니다.
- 평가 기준과 지표 수립: LLM 사용성에 대한 기본 평가 체계를 바탕으로 평가 대상 모델/서비스에 맞는 추가 지표를 기획합니다. 사용자의 특성과 서비스에 대한 기대를 중심으로 고안하며 대상 언어의 특성을 고려하여 단어, 문장, 전체 맥락 단위에서 평가할 수 있도록 설계합니다.
- 채점 방식 선정 및 조정: 양자택일, 리커트 척도 등 다양한 채점 방식을 선정합니다. 채점 방식 선정 시에는 지표 및 세부 지표의 특성을 고려하여 평가 결과의 일관성과 정확성을 유지할 수 있는 방식을 선택하는 것이 좋습니다. 점수 통계 방식 또한 지표에 따라 달라질 수 있습니다.
- 평가 진행 및 모니터링: 진행 중에도 평가의 일관성과 정확성을 유지할 수 있도록 지속적인 Sync-up을 위한 장치를 마련합니다. 기존에 설계한 지표만으로 부족할 경우 부가 기준을 세워 최대한 동일한 기준 아래 평가가 진행될 수 있도록 모니터링합니다.
- 평가 결과 해석 및 개선 방안 도출: 단순히 점수의 높고 낮음을 떠나 모델이 소기의 목적을 달성하고 있는지, 사용자의 기대 수준과 모델의 성능 수준이 일치하는지, 모델이 특히 강점/약점을 가지는 부분은 무엇인지 확인합니다. 당장 적용이 가능한 개선 방안에서부터 데이터 차원의 근본적인 개선 방안까지 도출합니다.
LLM 사용성 평가(LLM System Evaluation)에서 반드시 고려해야 할 점
LLM 사용성 평가는 벤치마크 데이터셋을 활용하는 성능 평가와 달리 사람이 직접 평가를 수행하기 때문에 필연적으로 가지는 단점들이 있습니다. LLM의 정확한 성능과 사용자 만족도를 확인하기 위해 꼭 수행되어야 할 사용성 평가라면, 이를 보완하는 방안으로 평가 진행 전 몇 가지 고려해야 할 점들이 있습니다.
평가 기준과 지표는 모델에 따라 달라야 합니다.
앞에서 계속 언급해 왔던 것처럼, LLM 사용성 평가의 기준과 지표는 모델의 특성에 따라 달라져야 합니다. 모델이 어떤 특성을 가지느냐에 따라 사용자가 선호를 느끼는 부분과 정도가 달라지기 때문입니다.
예를 들어 구조화된 데이터 안에서 사용자가 요구하는 정보를 정확히 추출하는 것이 목적인 모델이라면 입력에서 요구한 정보가 출력에 모두 포함되어 있는지, 그 정보는 정확한 것인지, 맥락 차원에서만 파악할 수 있는 내용까지 모두 담고 있는지를 확인해야 합니다.
마찬가지로 질의응답 시스템이라면 답변이 정확한지, 형식이 간결하여 사용자가 원하는 정보를 인지하기 쉬운지를 기준으로 평가할 수 있습니다. LLM의 할루시네이션을 줄이기 위한 RAG-LLM 형태의 모델이라면 Vector DB에서 검색이 정확하게 이루어지고 있는지, 최종 답변은 검색 결과를 바탕으로 정확하게 제공되고 있는지를 확인해야 하겠죠.
모델에 따라 달라지는 이런 평가 기준들은 세분화된 평가 체계로 정리되어야 합니다. 평가 체계는 대분류와 소분류를 가지며 다양한 측면에서 결과물의 품질과 유용성, 사용자의 만족도를 평가할 수 있도록 합니다.
만약 서로 다른 모델을 동일한 기준으로 평가한다면 비교할 수 있다는 점에서 메리트가 있겠지만, LLM 사용성 평가는 사용자 중심으로 LLM의 성능을 평가하여 만족도를 높일 수 있는 개선방안을 찾는 것이 목적이므로 모델에 맞는 평가 기준과 지표를 찾는 것이 필수적이라고 할 수 있습니다.
평가의 정확성과 일관성을 유지할 수 있는 방안을 마련해야 합니다.
- 세밀한 기준과 풍부한 예시 포함
LLM 사용성 평가는 인간이 직접 평가하는 방식이기 때문에 평가 결과에 오류가 발생할 수 있습니다. 가령 LLM이 얼마나 친절한 문체를 구사하는지를 평가한다면 평가자에 따라 받아들이는 정도가 다를 수 있습니다. 그 때문에 평가 체계에는 여러 사람이 지표에 대해 동일한 이해를 할 수 있도록 자세한 설명과 풍부한 예시가 포함되어야 합니다. - 지표에 따라 다른 채점 방식 적용
지표에 따라 서로 다른 채점 방식을 적용하는 데에도 이유가 있습니다. 평가 기준이 모호하여 평가의 일관성 유지가 어려운 경우, 기준에 해당하는 경우에만 점수를 가산하는 이진 척도(Binary scale)를 활용하거나 범주를 간소화할 수 있습니다. - 평가자 다양성 유지
다양한 측면에서의 평가를 위해서 평가자는 평가를 진행하기 위한 기본적인 역량 + 다양한 배경을 가진 사람들로 선정되어야 합니다. 오픈 도메인 대화를 평가하는 경우 평가자의 배경에 따라 평가 내용이 달라질 수 있기 때문입니다. 더불어 평가의 내용에 따라서 어떤 평가자를 선정할지, 평가자는 몇 명으로 둘 지를 조정합니다. - 평가 중 지속적인 모니터링과 Sync up
평가 진행 중에는 통계적 방법을 통해 평가 점수의 평균 및 표준편차, 백분율 등을 확인하여 수치적 검수를 동시에 진행합니다. 편차 또는 평균이 비정상적으로 큰 항목은 없는지 확인하여 평가자 간 크로스체크와 협의를 통해 모호한 평가 기준을 세밀하고 정확하게 만듭니다.
평가 결과는 구체적인 개선 방안 수립에 활용되어야 합니다.
LLM 사용성 평가의 목적은 타 모델과의 경쟁과 비교가 아니라 모델과 모델을 기반으로 만들어진 서비스가 사용자 친화적인지 확인하는 데 있습니다. 따라서 평가 지표와 체계에 따라 점수를 매기는 데서 그쳐서는 안 됩니다.
평가자들은 평가 과정에서 대상 LLM과 다양한 주제와 형태의 대화를 나누기 때문에 어떤 부분이 문제이고 개선되어야 할 지 제안할 수 있습니다. 금융, 교육, 상담, 의료, 로봇, 마케팅 등 다양한 도메인은 물론 데이터 기획부터 사용자 중심 설계, 구축과 품질 관리까지 LLM 도입의 전 과정을 경험한 평가자라면 더욱 깊이 있는 분석이 가능하겠죠. 데이터에 대한 노하우와 이해도가 있는 평가자라면 단순한 선호와 비선호가 아니라 데이터 관점에서의 피드백이나 조정안을 기대할 수도 있습니다.
이러한 깊이 있는 사용성 평가는 모델 업데이트 전/후의 성능을 비교하거나, 병합 모델들을 비교하여 적절한 구성을 찾거나, 유사 서비스 대비 차별성을 발견하고 개발할 수 있도록 돕습니다. 무엇보다 사용자가 다시 이야기하고 싶은 LLM, 자주 말을 걸고 싶은 LLM으로 발전시킨다면 고객 커뮤니케이션과 충성도를 향상시키는 데 큰 도움이 될 수 있습니다.
보다 정확하고 효율적으로 LLM을 평가하려면
사용성 평가만이 LLM의 성능을 평가하는 최고이자 최선의 방법은 아닙니다. 벤치마크 데이터셋을 활용한 LLM 평가 또한 LLM의 추론 능력, 상식 능력, 언어 이해력 등을 평가하는 데 목적이 있기 때문에 대화 능력 평가에는 부적합할 수 있습니다.
때문에 LLM의 성능과 사용성을 종합적으로 평가하려면 성능 중심의 벤치마크는 물론 대화 능력을 평가할 수 있는 벤치마크, 인간 선호도 평가를 함께 적용하거나 목적에 맞게 평가 방법을 취사선택하는 것이 바람직합니다.
최근에는 앞서 언급한 챗봇 아레나와 같이 한국어 LLM을 보다 객관적으로, 멀티턴 대화 능력을 포함하여 평가하려는 방법과 리더보드도 제안되고 있습니다. 사람이 평가하는 것 대비 평가 일관성을 향상시킬 수 있도록 LLM-프롬프트를 활용해 평가하거나, AI 기반 LLM 평가 도구를 활용하는 방법도 있습니다. LLM 결과물을 LLM으로 평가한다는 것이 낯설게 느껴질 수 있으나, LLM은 Human Evaluator와 달리 평가 순서나 내용에 영향을 받지 않기 때문에 평가 편차를 줄이고 일관된 결과를 얻을 수 있어, 특정 task에 있어서는 사람이 직접 평가하는 것보다 신뢰할 수 있는 결과를 보이기도 합니다. 또한, 평가 프로세스 자동화가 가능해지고 대량의 데이터를 빠르게 처리함으로써 Human Evaluation의 가장 큰 단점인 시간과 비용 소모를 크게 줄일 수 있다는 장점이 있습니다.
하지만 사용성 평가 시 모든 평가 지표와 기준에 AI를 적용해서는 안 됩니다. AI로 정확하게 평가할 수 없는 지표가 있기 때문입니다. 충분한 테스트와 검증을 통해 가능한 부분에만 AI를 적용하여 활용하는 것은 사용성 평가의 단점을 보완할 방법이 될 수 있습니다.
어려운 것을 쉽게 쓰는 일에 늘 고전합니다.
TEXTNET 소개
지금의 딥러닝을 있게 한 AI Guru 제프리 힌튼의 데이터셋 'ImageNet'에 어원을 둔 TEXTNET은 (주)스피링크가 운영하는 AI/챗봇을 위한 텍스트 데이터 설계 및 구축 서비스입니다.
TEXTNET은 언어학, 심리학, 전산언어학 석·박사를 포함한 전문 인력으로 구성된 언어전문가 그룹으로서, 고객사의 니즈에 부합하는 텍스트 데이터를 설계·가공·구축하고 내부 R&D를 통해 설계 방식을 지속적으로 개선하여 최적의 데이터 설계 방법을 제안합니다. 프로젝트 목적에 따라 적합한 숙련 작업자를 선별하여 투입하고, 체계적이고 효율적으로 고품질의 학습데이터를 생산합니다.
TEXTNET은 삼성, LG, KT, SK 등 유수 대기업의 데이터 구축 파트너로 함께하며 금융, 마케팅, 콘텐츠, 메타버스, 서비스 기획, CS 등 다양한 도메인을 다루고 있습니다.