AI에게 창의성을 부여하는 방법 - 추론 능력 향상을 중심으로

AI에게 창의성을 부여하는 방법 - 추론 능력 향상을 중심으로

누구나 GPT를 찾는 세상, 추론하는 LLM을 향해

“누나, 먼저 GPT한테 물어봐. 그게 제일 빨라.”

대학생인 동생이 과제를 하는 모습은 몇 년 전과 비추어봤을 때 사뭇 생경합니다. 학교 도서관 홈페이지나 논문 사이트를 뒤적여보던 과거 저의 모습과는 달리 동생은 ChatGPT에게 먼저 물어보고는 합니다. 동생의 모습을 통해 저는 새삼 LLM(Large language model)의 상용화를 체감했습니다. 이과랑은 거리가 먼 친구도 익숙하게 사용할만큼 LLM이 우리 가까이에 있음을 몸소 느낄 수 있었으니까요.

GPT 모델이 전 세계적으로 강세를 보이며 국내에서도 한국어 전용 LLM을 구축하는 사례가 이어지고 있습니다. 이와 같은 상황에서 LLM의 성능을 개선하여 최대한 인간에 가까운 언어 능력을 구현하는 것이 시장의 화두로 떠오르고 있습니다. 특히, 허깅페이스 오픈 LLM 리더보드에서는 전 세계 500여 개의 오픈 모델들이 추론과 상식 능력, 언어 이해 종합 능력 및 환각 현상 방지 등의 지표를 가지고 평균 점수로 경쟁하고 있습니다. 여기서 평가 항목으로 포함된 추론 능력은 LLM 성능 평가에 있어서 중요한 지표로 볼 수 있는데, AI와 인간을 구분하는 가장 큰 특성인 창의성의 영역, 즉 새로운 것을 사고하는 능력과 관련이 있기 때문입니다.

Open LLM Leaderboard(23/10/16)
Open LLM Leaderboard(23/10/16)

이 글에서는 추론 능력 향상을 통하여 AI에 창의성을 부여하는 방법에 대해 논하고자 합니다. TEXTNET만의 노하우를 중점으로 LLM의 추론 능력을 개선하기 위해 어떻게 데이터를 구축했는지 설명하고, 주안점을 말씀드리겠습니다.

우리 LLM, 추론 능력 키워줘야 할까요?

ChatGPT보다 우수한 언어 모델을 꿈꾸며 한국어 전용 LLM을 선보인 국내 기업들은 공통적으로 어떤 어려움에 봉착했습니다. 이는 보다 다양한 유저의 질문에 정확하게 답변하는 것이었는데요, 여기에서 LLM의 추론 능력을 개선하고 싶다는 기업의 니즈가 발생합니다. 이미 학습한 데이터를 근거로 새로운 판단을 이끌어내려면 정확한 추론 능력이 요구되기 때문입니다.

LLM의 추론 능력 개선이 필요한 한 가지 사례를 들어보면 다음과 같습니다.

LLM의 추론 능력 개선이 필요한 사례

위 사례에서 LLM은 ‘산타할아버지한테서 선물은 초등학생까지만 받을 수 있다’는 정보를 이미 학습하여 알고 있습니다. 이때, 유저가 15살인 아이도 산타할아버지 선물을 받을 수 있냐고 물어봅니다. 그런데, 15살이 초등학생 범위에서 벗어나는 것을 추론하지 못한 LLM은 오답을 생성하고야 맙니다. 이때의 LLM은 말을 처음 배우는 어린아이나 한국어를 배우고 있는 외국인에 비유하면 좀 더 쉽게 와닿을 것 같아요. 15살이 초등학생이 아니라는 것을 추론해낼 수 있도록 학습이 필요한 상황인 것이죠.

TEXTNET은 LLM을 이렇게 가르쳤습니다!

위와 같은 사례로 LLM 성능을 강화하고 싶은 기업들은 TEXTNET의 문을 두드렸고, TEXTNET은 아래와 같은 방법으로 추론형 학습 데이터를 구축하여 고객사의 니즈를 충족하였습니다.

  1. 문제 + 답을 알려주는 방식으로 학습 데이터 구축
    1. 문단 내 맥락을 활용한 추론으로 문장의 빈칸 완성하기
    2. 문장 맥락으로 한국어 동어/동음이의어 관계 추론하기
    3. 주어진 대명사가 문장 내 두 객체 중 어떤 것을 지칭하는지 추론하기
    4. 복수 문장 내 인과관계를 파악하여 어떤 문장이 결론 혹은 원인에 해당하는지 추론하기
  2. 문제 + 풀이 + 답을 알려주는 방식으로 학습 데이터 구축
    1. CoT(Chain of Thought) 기법 활용

LLM은 대용량의 언어 모델로 문장 내의 단어들 사이의 유사성과 문맥을 파악해 다음 단어를 생성하는 작동 원리를 가집니다. 다음 단어를 생성하는 데 있어 문법 규칙이나 단어의 정의 등 언어적 규칙은 따르지 않으며 빈도수, 문법적인 특성 등을 학습해 작동하는 것입니다. 이에 따라 LLM 성능을 개선하기 위해서는 데이터가 많으면 많을수록 좋은데, 특정 능력을 단기간에 향상시키기 위해 대량의 데이터를 구축하는 것은 현실적인 한계가 따릅니다. 그래서 TEXTNET은 LLM의 추론 능력 향상이라는 목적성이 뚜렷한 학습 데이터를 구축하기 위해 추론 문제와 답을 모두 LLM에게 알려주는 방식으로 데이터를 만들었습니다. 추론 문제를 주고 그에 대한 답을 알려줘서 ‘잘 봤지? 이렇게 답을 추론할 수 있는거야’하고 유사한 유형의 문제를 풀 수 있도록 추론하는 방법을 LLM에게 떠먹여주는 방식이라고 할 수 있지요.

1번 방법(문제+답을 알려주는 방식으로 학습 데이터 구축)과 2번 방법(문제 + 풀이 + 답을 알려주는 방식으로 학습 데이터 구축)의 차이는 ‘풀이’까지 알려주는지 여부에 있습니다. 1번이 특정 문제 유형으로 문단 혹은 문장 내 맥락으로 답을 추론하는 능력을 향상하는 데 초점을 맞춘 방법이라면, 2번은 문제에 대한 답을 추론해내는 과정, 즉 ‘풀이’를 상세하게 설명해주어 다양한 질문에 대답할 수 있도록 하는 방법입니다. 2번과 같이 사고하는 과정을 풀어서 설명해주는 방식을 CoT(Chain of Thought) 기법이라고 하는데, 가장 자연스러운 단어 시퀀스를 찾아내는 LLM의 특성에 기반해 중간 과정을 단계별로 풀이하여 정답에 다가가는 경로를 알려줍니다. 정답까지 추론해나가는 과정을 차근차근 알려주기 때문에 LLM으로 하여금 추론하는 방법을 익히고 정답률까지 높일 수 있습니다.

1번 방법을 사용한 프로젝트의 고객사는 영어로 된 언어 모델을 보유하고 있었고, 이 모델만큼 추론 능력을 보유한 한국어 언어 모델을 개발하기를 희망했습니다. 따라서 TEXTNET은 LLM이 한국어 문단 및 문장의 맥락을 파악하여 정답을 추론해내는 능력을 키우는 데 주안점을 두고 4가지 유형의 추론 문항을 설계한 후 정답까지 학습시키고자 했습니다. 영어와 구분되는 한국어 특성이 드러나는 한국어 동음, 동음이의어를 포함했고 번역투가 아닌 한국어에서 실제 통용되는 대명사를 활용해 데이터를 구축했습니다. 이로써 한국어 특성을 반영한 추론형 학습 데이터를 만들어낼 수 있었습니다.

2번 방법을 사용한 프로젝트에서는 특정 도메인을 활용한 QA 데이터를 최종 산출물로 만들어야 했습니다. 따라서 LLM의 추론 능력을 개선하는 목적이 특정 도메인에 대한 QA 데이터의 정확도를 높이기 위함이었습니다. 사전 학습 데이터에 포함되지 않은 정보도 추론을 통해 정확하게 답변할 수 있도록 만들기 위해 CoT(Chain of Thought) 기법을 적용한 학습용 QA 데이터를 만들었습니다. 이를 간단히 설명하면 다음과 같습니다.

CoT(Chain of Thought) 기법을 적용한 학습용 QA 데이터
CoT(Chain of Thought) 기법을 적용한 학습용 QA 데이터

특정 도메인 데이터에 ‘C부터 AA를 할 수 있다’라는 정보가 명시되어 있고, LLM은 이를 학습을 통해 알고 있습니다. 유저가 ‘D는 AA를 할 수 있어?’라고 물었을 때, D가 정보에 명시되어 있지 않더라도 AA를 할 수 있다고 답변할 수 있도록, 추론의 단서를 제공합니다. TEXTNET은 CoT(Chain of Thought) 기법에 따라 ‘D는 C의 다음이므로 C부터에 해당한다. 따라서 D는 AA를 할 수 있다.’고 추론의 과정을 단계적으로 서술한 데이터를 구축했습니다. 이로써 LLM으로 하여금 추론의 과정을 학습시킬 수 있었습니다. 이후 비슷한 유형의 유저 질문이 투입되었을 때 LLM이 학습한 추론의 과정을 활용하여 정확한 답변을 산출하도록 성능을 개선할 수 있었습니다.

예시로는 단순한 문장을 설명했지만 특정 도메인 특성상 전문성이 요구되었고, 해당 도메인의 정보를 원천데이터로 다루는 과정에서 정확성을 잃지 않도록 분석하는 과정도 놓치지 않았습니다. 이에 따라 해당 프로젝트의 목적이었던, ‘LLM의 추론 능력을 개선해 QA 데이터의 정확도 향상’을 달성할 수 있었죠!

우리 LLM이 달라졌어요
우리 LLM이 달라졌어요..!

인간처럼 말하고 사고하는 AI, 함께 만들어요

LLM의 추론 능력은 인간에 가까운 AI에 다가가기 위해 반드시 강화해야할 성능 중 하나입니다. 이미 학습한 정보를 기반으로 다른 정보 또한 생성할 수 있어야 인간이 투입하는 수많은 요구들을 해석하고 정확한 결과값을 내놓을 수 있기 때문이죠. 특히 추론은 입력한 학습 데이터들 사이에서 논리적인 연결을 찾아내는 과정이고, 이를 통해 AI가 새로운 사고를 하도록 창의성을 부여할 수 있습니다.

TEXTNET은 ‘언어 전문가가 만드는 AI 텍스트 데이터를 제공한다’는 강점을 내세워 LLM의 추론 능력을 향상하고 더 나아가 창의적인 태스크를 수행하도록 만들 수 있습니다. 한국어 LLM의 수요가 늘어나는 시점에서 TEXTNET의 전문가가 만드는 데이터는 한국어의 고유한 특성을 반영하면서 추론 과정 등의 논리를 치밀하게 풀어내어 고성능 LLM을 구축하는 데 유리하기 때문입니다. 이와 같은 이유로 고품질의 언어 데이터가 필요한 많은 기업들이 TEXTNET을 찾습니다.

사람같이 사고하는 AI에 다가가기 위해 TEXTNET은 추론형 학습 데이터 구축 외에도 다양한 프로젝트를 진행하고 있습니다. 브랜드 아이덴티티 혹은 데이터 목적성에 적합한 페르소나를 설계하고 육아 상담, 시니어 대화 데이터 등 사람의 감정을 헤아릴 줄 아는 데이터 또한 만들어내고 있습니다. LLM의 성능을 개선하고 싶거나, 보다 인간적인 AI 개발에 관심이 있는 분이라면 언제든 TEXTNET의 문을 두드려주세요. 앞으로도 AI 생태계를 다채롭게 발전시키는 TEXTNET의 다양한 소식을 전할게요!

✏️
Editor │ 데이터사업팀 김수진 PM
외국인을 위한 한국어 교육자에서 LLM을 위한 한국어 교육자로 도약하고 있는 PM 김수진입니다.

TEXTNET 소개

지금의 딥러닝을 있게 한 AI Guru 제프리 힌튼의 데이터셋 'ImageNet'에 어원을 둔 TEXTNET은 (주)스피링크가 운영하는 AI/챗봇을 위한 텍스트 데이터 설계 및 구축 서비스입니다.

TEXTNET은 언어학, 심리학, 전산언어학 석·박사를 포함한 전문 인력으로 구성된 언어전문가 그룹으로서, 고객사의 니즈에 부합하는 텍스트 데이터를 설계·가공·구축하고 내부 R&D를 통해 설계 방식을 지속적으로 개선하여 최적의 데이터 설계 방법을 제안합니다. 프로젝트 목적에 따라 적합한 숙련 작업자를 선별하여 투입하고, 체계적이고 효율적으로 고품질의 학습데이터를 생산합니다.

TEXTNET은 삼성, LG, KT, SK 등 유수 대기업의 데이터 구축 파트너로 함께하며 금융, 마케팅, 콘텐츠, 메타버스, 서비스 기획, CS 등 다양한 도메인을 다루고 있습니다.