LLM 시대를 맞이하는 에듀테크 시장의 AI 도입 전략

Edutech에 AI와 LLM 도입이 활발해지고 있음을 나타내는 이미지
Image by freepik

최근 에듀테크 시장의 중심 키워드: 최신 기술 적용 러시, 초개인화 지향, 생성형AI와 대화형 AI의 활용

최신 기술 적용 러시와 초개인화 지향

에듀테크 선도 기업들은 소프트웨어 측면에서 기술을 적용함과 동시에 하드웨어 측면에서 스마트폰, 태블릿 PC 등 교구용 디바이스를 활용하고 있습니다. 기업들은 각자의 학습 시스템과 플랫폼을 담은 디바이스 제품을 보유하고 있으나 하드웨어 자체의 스펙 경쟁보다는 소프트웨어에 적용되는 기술 경쟁에 열을 올리고 있습니다.

학습자의 몰입감과 학습 효과를 높이기 위한 AR, XR, 3D, 메타버스에 대한 지속적인 관심과 더불어 AI의 적극적인 활용이 두드러지고 있습니다. AI와 함께 결합되는 기술로는 빅데이터 및 머신러닝과 딥러닝, 음성 인식 및 STT(Speech to Text), OCR과 손글씨 인식, 챗봇 등 다양합니다. 오랫동안 시장을 주도해왔던 교육 분야 기업들은 자체 기술을 보유한 에듀테크 스타트업과의 제휴로 신규 시장을 개척하고 있습니다.

또한 분석 기술을 바탕으로 한 초개인화 지향이 뚜렷해지는 추세입니다. 이미 적응 학습(Adaptive Learning)이라는 개념으로 학습자의 수준과 학습 유형에 맞게 교육 콘텐츠를 제공하는 맞춤형 교육이 있었지만 발전된 기술이 적용되면서 그 수준이 더욱 높아지고 있는 것인데요.

맞춤형 교육 콘텐츠 또한 학습자의 학습 수준, 선호도, 성과 등에 따라 교육 방식이나 커리큘럼, 학습 속도를 조정하지만 그 근거가 여러 학습자의 데이터를 종합한 범용 데이터이기 때문에 개인화라고 칭하기에는 어폐가 있습니다. 그러나 초개인화 교육 콘텐츠 시대에는 개별 학습자의 데이터를 실시간으로 분석하고 예측함으로써 학습자의 특성과 요구를 더 정교하게 반영하게 때문에 학습자마다 고유한 학습 여정이 생겨납니다. 이는 학습 동기와 효율성을 극대화하는 결과를 가져옵니다.

생성형 AI와 대화형 AI 활용

ChatGPT 이후 에듀테크 분야에서도 LLM이 핵심 키워드로 부상했습니다. LLM은 생성형 AI 중 하나로 학습한 방대한 언어 데이터를 바탕으로 새로운 텍스트 콘텐츠를 생성해내는 모델로 특히 외국어 교육 등에서 활용성이 높다는 평입니다. 그러나 최근에는 언어 뿐만 아니라 수학 등 과목이나 주제를 막론하고 LLM이 적용되고 있습니다.

국내 에듀테크 기업들의 대규모 언어 모델(LLM) 도입 현황
국내 에듀테크 기업별 LLM 도입 현황

또한 LLM은 챗봇, 보이스봇 등 대화형 AI 시스템의 핵심 엔진으로 활용되는 경우가 많습니다. 이미 중고등학생 수준에서는 개별적으로 LLM 기반 대화형 AI인 ChatGPT를 이용해 마치 자신만의 선생님과 1:1로 공부하는 경험을 하고 있기 때문에 앞으로는 궁금한 부분에 대해 자신만의 방식으로 질문하고 파악하는 경험이 더 중요해진다는 것이 중론입니다.

이미 영국, 미국, 핀란드 등의 교육 선진국은 우리나라보다 빠르게 AI 교육 시스템을 운영했습니다. AI 교사가 학생의 학습진도를 실시간으로 모니터링하거나 미흡한 부분을 중심으로 이해도를 높일 수 있도록 지도하는 시스템은 마치 진짜 선생님에게 지도를 받는 것처럼 학습할 수 있다는 것이 장점입니다.

또한 LLM의 높은 생성 능력을 이용하여 학습 콘텐츠를 자동 생성하고 평가하거나, 서술형 답안의 채점을 진행하고 학습자 수준에 맞는 문항을 생성하기도 합니다. 발 빠르게 AI 도입에 나선 에듀테크 기업들은 생성형 AI 활용 방안을 찾기 위한 사내 아이디어 공모를 진행하는 등 다양한 시도가 이루어지고 있습니다.

에듀테크에서 생성형 AI와 대화형 AI의 활용 방안을 설명하는 도식
에듀테크 산업에서의 생성형 AI 및 대화형 AI 활용 방안

에듀테크 AI 도입의 주안점

기술의 한계와 씨드 데이터의 중요성

글로벌 빅테크를 중심으로 한 GPT 등 해외 모델은 한국의 언어적/문화적 특성을 충분히 반영하고 있지 않기 때문에 교육과 같은 섬세하고 난도 높은 도메인에 바로 적용하기는 어렵습니다. 때문에 많은 기업들이 교육만을 위한 자체 모델 개발에 나서고 있으나 대부분이 이미 존재하는 모델들을 결합한 형태이기 때문에 성능은 대동소이한 수준입니다. 때문에 기술만으로는 에듀테크 시장에서 괄목할만한 성과를 내기는 어렵습니다.

AI 4대 석학 중 하나인 앤드류 응에 따르면 일정 수준까지는 기술을 통해 성능을 개선할 수 있지만, 그 이상의 수준을 위해서는 데이터를 중심으로 한 개선만이 성능을 개선시킬 수 있다고 말합니다. 이렇게 데이터를 중심으로 모델의 성능을 개선하는 방법을 ‘Data-centric AI’라고 하며, AI 업계에서는 이미 공공연한 사실로 받아들여지고 있습니다.

앤드류 응의 프레젠테이션에서 언급된 내용으로, 모델의 성능 개선을 위해 높은 퀄리티의 데이터를 준비하는 데이터 전처리가 중요하다는 내용을 나타내는 이미지
모델의 성능 개선을 위해서 높은 퀄리티의 데이터를 준비하는 데이터 전처리가 중요하다고 언급하는 앤드류 응(출처: https://www.youtube.com/watch?v=06-AZXmwHjo&feature=youtu.be)

갈수록 AI 학습에 필요한 데이터량이 감소하고 있는 추세인 반면 퀄리티는 더욱 중요해지고 있습니다. 최근에는 리소스가 많이 드는 크라우드 소싱 방식의 데이터 구축 보다는 데이터 합성, 증강 등의 방법도 많이 활용되고 있습니다. 기존 데이터를 바탕으로 새로운 데이터를 생성하는 데이터 합성과 기존 데이터를 변형해 새로운 데이터를 생성하는 데이터 증강의 경우 핵심이 되는 ‘씨드 데이터’가 무척 중요하며, 이 데이터에 타사와의 차별화 포인트를 담아야 합니다.

특히 교육 도메인에서는 학습 방식과 동기부여 방식, 교수법 등 데이터에 담아야 하는 요소들이 타 도메인에 비하여 매우 섬세하고 복잡하기 때문에 학습자의 심리나 효과적인 대화 전략 등을 고려한 똑똑한 데이터 설계가 필수적이라고 할 수 있습니다. 에듀테크 기업마다 추구하는 교육 철학과 방향이 있고, 이와 같은 모호한 부분을 데이터에 담아내는 역량이 중요해지는 것입니다. 모델에 맞는 데이터는 물론, 기획 의도와 목표에 맞게 실제 서비스로 구현 가능한 데이터가 필요합니다.

‘대화’에 주목해야 하는 이유

앞서 언급한 것처럼 이후 에듀테크 산업에서의 AI 도입 양상은 AI와 1:1로 학습하는 방식으로 발전할 가능성이 높습니다. 최근 OpenAI가 공개한 ‘GPT-4o’는 사용자와의 대화를 통해 단계적으로 수학 문제를 풀어내기도 합니다. 이전에는 AI가 수학 문제를 제시하면 답과 풀이 과정을 한 번에 출력했다면, GPT-4o는 사용자와 실시간으로 대화하며 답을 구하는 방식을 씁니다.

대화형 AI 시스템의 경우 본질적으로 학습자와 교육자 간의 ‘커뮤니케이션’을 전제로 한다는 점을 유념해야 합니다. 대화 데이터는 단순한 데이터 구축과 다르게 더욱 꼼꼼한 설계가 필요하기 때문입니다. 사용자를 몰입하게 하거나, 행동을 유발하는 대화 전략을 단일 턴이 아닌 여러 턴에 걸친 멀티턴 대화에 반영할 수 있으려면 모델 등 기술에 대한 이해는 물론 ‘인간 대화’에 대한 깊은 이해와 치밀한 전략 설계가 중요합니다.

같은 챗봇 시나리오라도 은행 고객들을 안내하기 위한 시나리오와 학생들의 학습 관리를 위한 시나리오는 다를 수 밖에 없습니다. 전략은 교육 과목과 환경, 학습자의 연령이나 특성에 따라서도 달라집니다. 이제 학습 그 자체도 중요하지만 학습자의 학습 경험을 만족시키고 지속적인 학습이 이루어질 수 있도록 만드는 것이 더욱 중요해질 것입니다.

한국교육개발원이 2023년 진행한 교육여론조사(KEDI POLL 2023)에 따르면, 우리나라 국민들은 학생의 학업성취에 영향을 미치는 요인으로 학생의 노력과 열의(30.4%)를 가장 중요한 요인으로 꼽았습니다. 학교나 학급의 학습 분위기(23.0%), 가정의 학습 환경(21.2%)에 이어 교사의 지도(11.7%)와 학생의 타고난 능력(7.2%)는 비교적 낮았습니다. 그러나 교사에게 우선적으로 필요한 역량으로는 초·중·고등학교 교사에 대해 ‘학습 지도·제언(코칭)’ 역량이 가장 높은 순위를 차지했습니다. 초등학교 교사들에게는 생활지도·제언(코칭)역량, 중학교 교사들에게는 학습 지도·제언(코칭)역량, 고등학교 교사들에게는 진로·진학지도(코칭)역량이 가장 필요한 역량으로 인식되고 있다는 결과입니다.

한국교육개발원 교육여론조사(KEDI POLL 2023) 중 ‘교사들에게 우선적으로 필요한 역량’에 대한 설문 결과, 우리나라 국민들은 초·중·고 전반에 걸쳐 교사의 학습 지도·제언(코칭) 역량이 중요하다고 여기고 있다.
한국교육개발원 교육여론조사(KEDI POLL 2023) 중 ‘교사들에게 우선적으로 필요한 역량’에 대한 설문 결과 (출처: https://www.kedi.re.kr/khome/main/research/selectPubForm.do?plNum0=15399&currentPage=1)

이는 에듀테크를 위한 AI가 학생에 대한 정서적인 지지를 포함한 적절한 지도와 코칭, 높은 수준의 커뮤니케이션에 중점을 두고 기획되어야 함을 시사합니다. 학생 개개인의 필요와 교사의 지도를 효과적으로 반영하는 에듀테크 AI 솔루션은 교육의 질을 높이고, 학생들의 학업 성취를 극대화할 수 있습니다.

교육 대상과 환경에 맞는 데이터 기획 필요성

개별 에듀테크 기업에 맞는 데이터, 또는 합성 데이터나 데이터 증강을 위한 씨드 데이터를 효과적으로 구축하기 위해서는 학습자의 학습 환경+기업의 기획 의도+학습 매체별 특징을 데이터에 담기 위한 구체적이고 체계적인 설계도가 필요합니다. 이 중에서도 교육 대상인 학습자의 학습 환경과 학습 매체별 특징은 더더욱 중요한 요소가 됩니다.

LLM의 경우, 실제와 같은 대화 데이터를 구축하여 학습시킴으로써 AI가 학습자의 말을 이해하고 그에 맞는 답변을 할 수 있게 됩니다. 때문에 데이터 구축 시 학습자의 언어사용양상 반영 여부는 LLM의 언어 이해 능력에 큰 영향을 미칩니다. 같은 초등학생이라도 저학년과 고학년은 특성이 다르며 이는 사용하는 언어에도 반영됩니다. 이를 고려하지 않으면 AI 학습자의 말을 알아듣지 못하거나, 학습자의 몰입감이나 흥미를 떨어뜨리는 발화를 할 수 있습니다. 초등학생과 고등학생은 그 차이가 더 클 것이며, 성인과는 더욱 큰 차이가 있을 것입니다.

우리나라의 학제는 초등, 중등(전기 중등/후기 중등), 고등으로 나뉘며 그 안에서도 교육과정 운영과 학교의 자율성에 따라 다양한 형태의 교육기관이 분포되어 있습니다. 단순히 교육기관이 달라지는 것 뿐만 아니라, 동일한 학제 내에서도 교육 대상인 학습자의 특성에 따라 서로 다른 학습 방식과 콘텐츠가 적용될 것입니다. 일반적인 초·중등교육처럼 담임 교사가 함께하며 교육이 진행되는지, 아니면 가정에서의 자기주도학습을 전제한 교육 시스템인지, 조금 더 주도성과 자율성을 지니는 고등교육, 성인교육을 위한 시스템인지에 따라 AI를 위한 학습데이터는 달라질 수 있습니다.

실제 사례 소개

위와 같은 주안점을 고려하여 에듀테크 AI를 위한 데이터를 구축하기 위해서는 교육 도메인은 물론 대화, 인지 등 심리적 영역에 대한 깊은 이해와 전문성은 물론 기획 의도와 전략을 데이터에 담기 위한 기획력과 설계 역량, 설계도를 실제 데이터로 구현하기 위한 뛰어난 언어 구사력이 바탕이 되어야 합니다. TEXTNET은 초·중등 대상 교육은 물론 외국인, 성인 등 다양한 학습자를 대상으로 한 AI 학습 데이터를 구축했습니다.

초중등교육 전문 에듀테크 기업 A사의 LLM 데이터 구축

고객사: 초중등교육 전문 에듀테크 기업 A사
필요 데이터: LLM 기반 대화형 AI 교사 구현을 위한 학습 및 일상 상담 시나리오 데이터
TEXTNET 레퍼런스 중 초중등교육 전문 에듀테크 기업 A사의 LLM 데이터 구축 프로젝트 과정 및 주안점을 도식화한 이미지
초중등교육 전문 에듀테크 기업 A사의 LLM 데이터 구축 프로젝트 과정 및 주안점

A사는 생성형 AI를 활용하여 상담을 통해 학습자를 지원하는 대화형 AI 교사를 구현, 스마트 기기에 탑재하고자 했습니다. 학습 효율을 높일 수 있도록 학습 방법을 코칭해주거나, 객관적인 학습자의 수준을 전달하고 스스로 학습하는 습관을 길러주는 것이 목표였습니다.

이를 위한 학습 데이터 확보 방안은 데이터 증강이었으나, 증강의 기초가 되는 씨드 데이터 확보에 어려움을 겪고 있었습니다. 단순히 학습 내용을 이해하고 이에 대한 코칭을 해주는 것 뿐만 아니라, 학습자의 정서를 케어하는 부분이 포함되어 있어 AI 교사에게 유려한 커뮤니케이션 능력을 학습시켜야 했기 때문입니다. 일방적인 전달이 아니라 학습자의 정서를 고려하면서도 동기를 부여해야 하는 대화가 가능하려면 섬세한 대화 전략을 기획하고 반영하는 것이 필요했습니다.

또한 이미 업계 내에 유사 서비스 개발 움직임이 있었기 때문에 A사의 장점과 기획 방향을 차별화 포인트로 살려 데이터에 담아내고자 하는 니즈도 있었습니다. TEXTNET은 구축 전 사전 조사를 통해 경쟁사 현황을 파악, A사의 기획과 차별화 포인트를 분석하여 구축 목표를 명확히 정의한 후 데이터 설계를 진행했습니다. 또한 추가 조사를 통해 대상 학습자의 연령과 학습 환경을 바탕으로 어떠한 언어사용양상이 나타나는지 확인하여 설계에 반영했습니다. 꼼꼼한 분석과 목표 정의, 데이터 설계에 만족한 A사는 작업 초기에 업무 범위 확장을 요청해왔으며 연장 및 재계약에 대해 긍정적이라는 의견을 알려왔습니다.

소프트웨어 개발 기업 B사의 한국어 교육용 앱 데이터 구축

고객사: 소프트웨어 개발 기업 B사
필요 데이터: 다문화 가족의 한국어 학습을 위한 한국어 교육 앱의 학습 콘텐츠
TEXTNET 레퍼런스 중 소프트웨어 개발 기업 B사의 한국어 교육용 앱 데이터 구축 프로젝트 과정 및 주안점을 도식화한 이미지
소프트웨어 개발 기업 B사의 한국어 교육용 앱 데이터 구축 프로젝트 과정 및 주안점

B사는 외국인의 한국어 학습을 지원하는 교육용 앱 오픈을 준비하고 있었습니다. 교육 시스템은 챗봇 형태였으며, 학습 수준에 따라 단원별로 주제를 달리하여 순차적으로 학습하는 방식이었습니다. TEXTNET은 수주 첫 해 단원별 대화 시나리오 구축을 시작으로 다음 해 시나리오 등록은 물론 시나리오별로 삽입될 퀴즈와 단어카드 등의 학습 콘텐츠를 생성하는 작업을 진행했습니다. 더불어 실제 앱을 사용해보며 오류를 검수했습니다.

학습자가 한국어 문법적으로 틀린 입력을 했을 때에 이를 바로잡아주는 첨삭 발화문의 구축도 진행했습니다. 서비스 오픈 이후 사용자의 실제 학습 이력을 확인하여 개별 학습자가 구사하는 한국어의 정확성과 유창성을 평가하는 피드백을 제공했습니다.

작업 전반에 있어서 일반적인 ‘국어학’, ‘국어교육학’적 지식이 아닌 ‘외국인을 위한 한국어 교육’적 지식을 고려하였습니다. 또한 단원별로 학습이 진행되며 점점 학습 난이도가 높아지는 구조였기 때문에 초급 단계에서 고급 단계의 어휘나 표현이 등장하지 않도록 전체적인 학습 내용과 맥락을 파악한 후 데이터 구축 작업을 함으로써 프로젝트를 성공적으로 마칠 수 있었습니다.

HRD 전문 교육기업 C사의 세일즈 직무 교육 서비스 데이터 구축

고객사: HRD 전문 교육기업 C사
필요 데이터: CEO 대상 직무교육 서비스 구현을 위한 QA 데이터셋 및 멀티 라벨링 데이터
TEXTNET 레퍼런스 중 소프트웨어 개발 기업 C사의 한국어 교육용 앱 데이터 구축 프로젝트 과정 및 주안점을 도식화한 이미지
HRD 전문 교육기업 C사의 세일즈 직무 교육 서비스 데이터 구축 프로젝트 과정 및 주안점

C사는 CEO 대상 직무 교육을 위한 AI 코칭 서비스 개발을 준비하고 있었습니다. 여러 직무 중에서도 세일즈 직무에 특화된 서비스를 구현하고자 했으며, 이에 대한 전문적인 정보를 전달할 수 있는 데이터가 필요했습니다. C사는 이전에 타사와 함께 유사한 프로젝트를 진행한 적이 있었으나, 초석이 되는 기본 데이터 및 체계 마련 없이 단순히 데이터를 쌓기만 하는 바람에 시스템이 제대로 작동하지 않아 실패한 경험이 있었습니다. 때문에 다양한 사용자 발화에 응대가 가능한 것도 중요했지만, 틀린 답변이나 시스템 오류가 발생하지 않도록 안전성을 갖춘 데이터 구축을 원했습니다.

TEXTNET은 세일즈 지식이 담긴 원문을 바탕으로 질문-응답 형태의 QA 데이터셋 구축을 진행했습니다. 우선 원문 분석을 통해 데이터 체계를 정립한 후 이를 바탕으로 라벨링을 진행했습니다. 제시된 데이터 세부 명세를 그대로 따르기 보다는 먼저 C사의 과거 프로젝트 진행 사항과 니즈를 반영하여 구축 방향을 기획·제안했습니다.

또한 질문을 패러프레이즈함으로써 동일한 의미지만 다양한 형태의 질문이 입력되었을 때에도 정확한 답변이 나갈 수 있도록 데이터를 구축했습니다. 원문에 등장하는 키워드 분류 체계를 만들어 중복 데이터 검사에 활용하여 작업 효율을 높임으로써 안전성을 높이기 위한 검수에 리소스를 집중했습니다. 프로젝트 종료 후 C사로부터 실제 사례를 제시하며 진행 방향에 대해 적극적으로 제안한 부분과, 도메인에 대한 사전 조사에 따른 높은 이해도에 대해 긍정적인 피드백을 받았습니다.

TEXTNET은 언어, 교육학, 심리 등 다양한 전문성을 지닌 인력들이 프로젝트 성격에 따라 융합적 팀을 이뤄 데이터 구축을 진행합니다. 이외에도 최근 산업 전반에서 두드러지는 경향인 LLM 도입과 관련한 다양한 레퍼런스를 보유하고 있습니다. 더 많은 사례 또는 인사이트가 필요하시거나 에듀테크를 위한 데이터 구축에 대해 궁금한 사항이 있으시다면 편하게 문의해주시기 바랍니다!


TEXTNET 소개

지금의 딥러닝을 있게 한 AI Guru 제프리 힌튼의 데이터셋 'ImageNet'에 어원을 둔 TEXTNET은 (주)스피링크가 운영하는 AI/챗봇을 위한 텍스트 데이터 설계 및 구축 서비스입니다.

TEXTNET은 언어학, 심리학, 전산언어학 석·박사를 포함한 전문 인력으로 구성된 언어전문가 그룹으로서, 고객사의 니즈에 부합하는 텍스트 데이터를 설계·가공·구축하고 내부 R&D를 통해 설계 방식을 지속적으로 개선하여 최적의 데이터 설계 방법을 제안합니다. 프로젝트 목적에 따라 적합한 숙련 작업자를 선별하여 투입하고, 체계적이고 효율적으로 고품질의 학습데이터를 생산합니다.

TEXTNET은 삼성, LG, KT, SK 등 유수 대기업의 데이터 구축 파트너로 함께하며 금융, 마케팅, 콘텐츠, 메타버스, 서비스 기획, CS 등 다양한 도메인을 다루고 있습니다.