HCLT 2023(한글 및 한국어 정보처리 학술대회 2023) Review by TEXTNET
NLP 스타트업에 연구조직이?
국내 유일 텍스트 전문 데이터 설계/구축 서비스 TEXTNET에 연구조직이 있다는 사실, 알고 계시나요?
NLP 분야의 연구조직이라 하면 왠지 유수 대기업에나 있을 것 같지만, TEXTNET은 고품질 텍스트 데이터로 AI와 챗봇의 발전을 도모하고자 하는 기업인 만큼 데이터 설계 관련 R&D에 주력하는 팀이 별도로 구성되어 있답니다! 심지어 꽤 오래전부터, TEXTNET의 시작과 함께 존재해 왔다고 해도 과언이 아닌데요. 이렇게 축적된 TEXTNET의 지적 자산들은 실무 영역에서 프로젝트 설계의 탄탄한 기반으로 활용되기도 하고, 학계와 산업계가 만나는 여러 국내외 학술대회에서 유의미한 연구성과로 인정받기도 한답니다. 지난 10월 12일(목)과 13일(금), 양일간 열린 HCLT 2023에서도 두 편의 논문이 채택되고, 그중 한 편은 우수논문으로 선정되는 성과를 거뒀어요.
HCLT(한글 및 한국어 정보처리 학술대회)란?
올해로 35회를 맞이한 HCLT는 AI 기술을 접목한 한국어 처리 기술 개발과 관련된 연구 성과를 공유하는 국내에서 가장 권위 있는 학술 대회입니다. 한국정보과학회, 언어공학연구회, 한국인지과학회의 주최로 매년 한글날 전후에 개최되지요. 초거대 언어모델과 기계학습, 딥러닝 알고리즘의 비약적 발전으로 인해 언어 처리 응용이 다양한 영역으로 확대되면서 기계학습 모델과 기계번역, 정보검색, 말뭉치 구축, 온톨로지, 추론, 대화형 질의응답 등 다양한 주제 하에 산·학·관·연이 활발하게 교류하는 학문적 논의의 장입니다.
올해 학술대회는 제주 새마을금고 연수원에서 진행되었는데요. 지난해 11월 OpenAI에서 ChatGPT를 공개한 이후로 대규모 언어모델과 생성형 AI가 엄청난 속도로 발전하고 있고, 다양한 비즈니스 분야에서 관련 주제들이 온갖 관심을 받고 있기 때문에 과연 어떤 흥미로운 연구 성과들이 공유될지 매우 기대되었습니다.
HCLT2023에서의 첫째 날
오후 2시 위원장님의 개회사로 학술대회가 시작되고, 곧이어 NC 이연수 센터장님의 초청 강연이 있었습니다. <생성형 AI 기술과 바르코 LLM>이라는 제목으로 요즘과 같이 생성형 AI가 산업계 전반을 덮쳐올 때 기업 입장에서 생성형 AI가 어떤 의미를 갖는지, NC에서는 어떤 언어모델을 만들고 있는지 이야기해 주셨습니다.
[초청 강연] 생성형 AI 기술과 바르코 LLM - NC 이연수 센터장
기업 입장에서 봤을 때 생성형 AI는 워크플로 간소화, 창작 프로세스 자동화, 새로운 고객 경험 창출 등 기업의 매출과 관련된 부분들, 특히 상호작용 방식과 정보처리 방식을 근본적으로 바꿀 수 있습니다. 그렇기 때문에 기업의 경제적 가치를 높이고 경쟁에서 우위를 차지하고자 하는 생존 전략으로서 생성형 AI의 중요성이 나날이 커지고 있는 것이죠. 그렇지만 최근 여러 글로벌 빅테크 기업에서 선보인 매우 큰 언어모델들은 범용적인 목적으로 사용되기 때문에 특정 도메인 태스크에서는 잘 작동하지 않을 수 있고, 학습과 운용에 매우 큰 비용이 필요합니다. 이런 모델들을 Horizontal AI라고 합니다.
이에 요즘 기업들의 개발 추세는 곧 서비스별로 달라지는 Use case를 해결하도록 설계된 AI, 특정 도메인의 전문지식을 학습하여 도메인 Expert로 활용되는 AI를 구현하는 것이라고 합니다. 이를 Vertical AI라고 부르는데요. NC 역시 차별화된 기업형 언어모델을 만드는 것에 집중하고 있으며 그 결과로 바르코(VARCO) LLM을 선보였습니다.
이어서 바르코 LLM의 프레임워크와 특장점, NC에서 주력하고 있는 게임업계에서의 AI 창작 도구, 디지털 휴먼 등 흥미로운 개발 과정과 산출물은 물론 앞으로의 방향성에 대해서도 들을 수 있어 매우 유익했습니다. 특히 바르코 학습 현황에 대해 언급하시면서 무조건 데이터가 많다고 좋은 게 아니라 데이터의 품질이 굉장히 중요하기 때문에 학습 데이터를 어떻게 잘 구축하느냐가 가장 큰 고민이었다고 말씀하시는 부분에 크게 동의했습니다. TEXTNET에서 항상 고민하는 부분이기도 했거든요. NC는 TEXTNET의 오랜 고객사로, 동일한 고민들을 바탕으로 여러 협업을 진행하기도 했었답니다.
음성인식/감정분석 구두 발표 세션 - TEXTNET 우수논문 발표
이후 구두발표의 첫 번째 세션이 있었는데요. <음성인식/감성분석> 분야 발표를 듣기 위해 ‘영실홀’로 이동했습니다. 두 번째 순서로 TEXTNET의 R&D 총괄 성지민 님의 발표가 있었기 때문이죠. 무려 ✨우수논문✨으로 선정된 연구입니다!(선정된 논문의 내용이 궁금하신 분들은 여기로!)
작년 HCLT2022에서도 TEXTNET R&D 총괄 성지민 님이 제1저자였던 “성격유형별 문체 특성 기반 맞춤형 광고 메시지 자동 생성 연구”라는 제목의 논문이 채택, 우수논문으로 선정된 바 있었는데요. 올해는 “챗봇을 위한 성향별 맞춤화된 청자의 공감적 반응 패턴 연구 - MBTI 심리 기능 분류 ST, NF를 중심으로”라는 연구가 우수논문으로 채택되면서 2년 연속 우수논문 수상이라는 멋진 성과를 거뒀답니다! 👏👏👏 해당 연구의 내용이 궁금하신 분은 여기를 참고해 주세요!
이외에도 해당 세션에서는 ‘노인 음성’ 데이터의 인식과 증강, ‘한국어 맞춤법 교정 태스크’와 관련된 LLM의 능력 탐색, 프롬프트 튜닝 기법을 활용한 ‘한국어 속성 기반 감정 분석’, LLM을 이용한 비훈련 방식의 ‘감정 분류’ 성능 측정에 대한 연구 발표들이 있었습니다.
구두발표 세션이 끝난 후에는 한라산 홀에서 학회 공로패/감사패 수여와 우수논문 시상이 있었습니다. 다시 한번 축하드립니다💐
이로써 첫날 일정이 모두 끝났고, 저희는 숙소로 돌아와 늦은 저녁을 먹고 다음날 있을 두 번째 발표를 준비하다가 잠들었습니다🌜
HCLT2023에서의 둘째 날
둘째 날의 아침이 밝았습니다. 구두발표 세션이 아침 9시부터 시작이어서 일찍부터 준비하여 학회장에 도착했어요. <언어자원> 세션 참가를 위해 부지런히 이동했는데요. 아무래도 TEXTNET의 주력 분야이자 강점이 AI/챗봇을 위한 텍스트 데이터 설계 및 구축인 만큼, 학계나 다른 기업에서 어떤 니즈가 있는지, 어떤 언어자원에 주목하고 있는지 유심히 살펴봤던 시간이었습니다.
언어자원1 구두 발표 세션
6개의 발표를 연달아 들으면서 느낀 부분은 ChatGPT를 비롯한 생성 AI와 범용적인 LLM의 급격한 발전에 발맞춰, 특정 태스크에 강한 성능을 보이는 모델을 구축하거나, 프롬프트를 통해 데이터를 증강하는 케이스가 많다는 것이었습니다. 이 과정에서 프롬프트를 어떻게 작성해야 효과적인 결과를 얻느냐는 업계 모두가 고민하는 지점이며, 특정 도메인이나 특정 태스크에 적합한 모델을 만들기 위한 고품질의 한국어 데이터는 여전히 모자라고, 모두가 그러한 정교한 데이터들을 필요로 한다는 것도 느꼈습니다.
일각에서는 ChatGPT 출현 이후 NLP 위기론이 언급되기도 한다는데 아직은 더 발전할 부분이 많이 남아있다는 생각도 들었는데요. 한국어 데이터의 부재로 영어 데이터를 기계번역하여 사용한다든가 모자란 데이터의 수량을 프롬프트 증강을 통해 보완한다든가 하는 부분을 보면서 LLM의 발전 속에서 어떤 데이터를 어떻게 설계하고 어느 정도의 합리적인 비용을 들여 구축할 것인가에 대해 많은 고민이 들었습니다.
언어자원2 구두 발표 세션 - TEXTNET 선정 논문 발표
10여 분 정도의 휴식 후 <언어자원> 분야의 발표 청취를 위해 자리를 지켰는데요. 이번 세션에는 세 번째 순서로 TEXTNET의 논문 발표가 있었어요.
작년 HCLT2022에서 발표한 논문에서 ‘광고 카피’를 다뤘었는데요. 그 후속 연구의 일환으로, 광고 카피 중에서 LLM이 아직 완전히 대체하지 못하는 ‘감성형 광고 카피’에 주목한 연구입니다. “감성적 광고 카피 자동 생성을 위한 데이터 구축 방법론”이라는 제목이고, 해당 연구의 내용이 궁금하신 분은 여기를 참고해 주세요. 감성형 광고 카피에 대한 R&D는 내부적으로 계속 현재진행 중인데, 점차 고도화하고 있어서 앞으로 멋진 결과물이 나올 것 같다고 기대하고 있답니다.😎
이 밖에도 해당 세션에서는 ‘에세이’ 자동 평가를 위한 효과적인 데이터 전처리와 데이터 증강 방식을 제안하는 연구, ‘토익 문제 풀이’ 성능을 높이기 위한 유의어/반의어 기반의 데이터 증강 연구, Hallucination을 막기 위해 외부 지식을 활용하는 지식 기반 대화 데이터셋 구축 연구 등 흥미로운 도메인/태스크별 데이터 구축 또는 증강 기법이 소개되었습니다.
포스터 발표는 구두발표를 듣느라 제대로 참관하지 못했지만 잠깐 휴식시간에 가보니, 많은 분들이 찬찬히 둘러보고 있었습니다.
언어모델4 구두 발표 세션
점심 식사 후에는 <언어모델4> 세션에 참여했습니다.
위 발표들 중에서는 ‘생성형 AI가 생성한 문서를 탐지하는 판별기에 대한 연구’와 ‘반복적 피드백을 통해 LLM이 BIG5에 근거한 성격 페르소나를 생성할 수 있도록 하는 연구’가 특히 흥미로웠는데요. ‘생성형 AI가 생성한 문서를 탐지하는 판별기에 대한 연구’는 생성 AI로 문서 작성을 할 때 발생할 수 있는 기업 보안 이슈를 완화시킬 수 있다는 점에서 업계의 많은 니즈가 기대되는 연구였습니다. 신속함과 정확성이 담보된다면 사후적 탐지는 물론 사전적 예방도 가능할 것이고, 한국어에 최적화된 탐지 모델은 아직까지 많이 부족하기 때문입니다.
‘반복적 피드백을 통해 LLM이 성격 페르소나를 생성할 수 있도록 하는 연구’는 LLM에 BIG5 기반 성격 페르소나를 입혀보았다는 주제 자체가 저희 TEXTNET R&D팀의 관심 분야와 맞닿아 있어 재미있게 들었습니다. 다만 한국어 데이터가 아니라 영어 데이터로 진행된 연구이고, 아직은 형용사나 부사 수준에서만 페르소나를 드러낸다는 점에서 조금 아쉬움이 남아 추후 연구가 기대되었습니다.
HCLT2023을 마치며
둘째 날 마지막 구두 발표 세션을 끝으로 HCLT2023의 모든 일정이 끝났습니다. 푸른 제주도 바다를 보며 업무를 마무리하고 다시 서울로 돌아왔는데요. 이틀이라는 짧은 시간 동안 최근 연구 동향과 수많은 지식들을 압축적으로 소화하느라 머리가 아팠지만 작년 HCLT2022에 이어 올해도 아주 유익하고 좋은 경험이었습니다. ChatGPT 출시 이후로 생성 AI와 LLM에 대한 다양한 접근과 그로부터 파생된 연구 주제들이 많았고, 데이터 증강과 평가 데이터셋에 대한 관심도 여전하다고 느꼈습니다. 또 특정 태스크를 수행하기 위한 언어모델 개발이 활발하게 이루어지고 있다는 부분도 인상적이었습니다.
TEXTNET은 계속해서 페르소나, 감성, 공감 대화의 세 분야를 아울러 사용자의 니즈에 맞는 다양한 텍스트 생성/변환은 물론 맞춤형 대화 구현을 주제로 R&D를 진행할 예정입니다. 앞으로도 TEXTNET의 R&D 조직과 연구성과에 많은 관심 부탁드려요!🥰
'이런 한국어 데이터 있으면 좋겠다...' 싶은 것들을 설계/구축합니다.
🔔TEXTNET의 HCLT 2023 우수논문 데이터 샘플을 보내드려요!
아래 구글 폼을 통해 신청하시면 영업일 1일 내에 이메일로 샘플을 보내드립니다.
성향별 청자의 공감 반응 패턴 데이터
- HCLT 2023 우수논문 ‘챗봇을 위한 성향별 맞춤화된 청자의 공감적 반응 패턴 연구 - MBTI 심리기능 분류 ST, NF를 중심으로’ 검증에 사용된 일상 주제의 멀티턴 대화 데이터
- 현실의 대화를 전사한 후 후처리하였으므로 표현 반복, 웃음, 서로의 대화가 겹치거나 상대방의 말을 끊고 이야기, 호응 등 자연스러운 발화 표현이 드러날 수 있도록 함
- 입력 테스트의 발화 상황과 의도를 구분하기 위한 메타 정보 포함: 화자와 화자 간의 관계, 화자 정보, 성격유형별 대화 전략
또한 빠른 데이터 수급이 필요할 때 활용하실 수 있도록 사전 구축 데이터를 구매할 수 있는 ‘Data Market’을 런칭하였으니 많은 관심 부탁드립니다!(다른 데이터 샘플도 신청하실 수 있어요!)
TEXTNET 소개
지금의 딥러닝을 있게 한 AI Guru 제프리 힌튼의 데이터셋 'ImageNet'에 어원을 둔 TEXTNET은 (주)스피링크가 운영하는 AI/챗봇을 위한 텍스트 데이터 설계 및 구축 서비스입니다.
TEXTNET은 언어학, 심리학, 전산언어학 석·박사를 포함한 전문 인력으로 구성된 언어전문가 그룹으로서, 고객사의 니즈에 부합하는 텍스트 데이터를 설계·가공·구축하고 내부 R&D를 통해 설계 방식을 지속적으로 개선하여 최적의 데이터 설계 방법을 제안합니다. 프로젝트 목적에 따라 적합한 숙련 작업자를 선별하여 투입하고, 체계적이고 효율적으로 고품질의 학습데이터를 생산합니다.
TEXTNET은 삼성, LG, KT, SK 등 유수 대기업의 데이터 구축 파트너로 함께하며 금융, 마케팅, 콘텐츠, 메타버스, 서비스 기획, CS 등 다양한 도메인을 다루고 있습니다.