TEXTNET 블로그: Data-Centric AI를 위한 데이터 기획 인사이트

Sign in Subscribe

한국어 생성형 AI 챗봇을 도입하고 싶다면 여기가 딱! 텍스트넷 웨비나 개최를 합니다!

한국어 생성형 AI 챗봇을 도입하고 싶다면 여기가 딱! 텍스트넷 웨비나 개최를 합니다!

생성형 AI 열풍으로 국내에서도 AI를 통한 업무 효율 향상을 위해 다양한 시도가 이루어지고 있는데요. TEXTNET과 함께하고 계신 고객사 분들의 고민을 들어보면 비용부터 성능, 평가에 이르기까지 많은 어려움이 있는 것 같습니다. TEXTNET도 고객사 분들이 어떻게 하면 더 쉽고, 더 효율적으로 AI를 도입할 수 있을까 많이 고민했는데요. 그 결과, 실무에 빠르게 적용하고

LLM으로 서비스로 혁신? 고객은 UX로 판단한다

LLM으로 서비스로 혁신? 고객은 UX로 판단한다

같은 기술, 다른 결과 LLM(대규모 언어 모델)이 등장한 이후, 인공지능과 자연스럽게 대화하는 시대가 현실로 다가왔습니다. 많은 기업이 이 변화에 주목하며 LLM으로 서비스를 혁신하기 위한 다양한 실험을 진행하고 있습니다. (AI 기업에는 아마도 올해가 PoC 프로젝트가 가장 많이 진행된 한 해가 되지 않을까 싶네요.) 물론 기술적 과제는 여전히 존재합니다. 하지만

아이들의 발화를 이끌어내는 ‘아이스크림에듀 AI드림쌤 쇼케이스’ 방문기

아이들의 발화를 이끌어내는 ‘아이스크림에듀 AI드림쌤 쇼케이스’ 방문기

지난 24일, 아이스크림에듀의 AI드림쌤 쇼케이스가 있었습니다. TEXTNET도 초청을 받아 참여할 수 있었는데요. 이번 쇼케이스에서는 아이스크림에듀는 업계 최초로 교육 특화 능동형 AI 에이전트, AI드림쌤을 공개했습니다. 능동형 AI 에이전트, AI드림쌤 AI드림쌤은 아이스크림에듀에서 학습자의 자기주도학습 능력을 키워주기 위해 개발한 AI 튜터 서비스인데요. 학습자는 각각의 페르소나를 가진 4명의 튜터를 선택해 음성으로 대화하며 학습을 진행할

시나리오형 챗봇 vs LLM 챗봇, 어떤 챗봇을 도입해야 할까?

시나리오형 챗봇 vs LLM 챗봇, 어떤 챗봇을 도입해야 할까?

2010년대부터 현재까지 챗봇 기술은 규칙 기반 시스템에서 대규모 언어 모델을 사용하는 시스템으로 발전하고 있습니다. 2018년에 마이크로소프트의 Azure Bot Service, 아마존의 Lex, 구글의 Dialogflow 등과 같은 다양한 대화형 AI 플랫폼 즉 시나리오형 챗봇을 만들 수 있는 ‘챗봇 빌더’가 등장했습니다. 이 빌더들은 어려운 코딩 없이 비교적 쉽게 챗봇을 구축하고 배포할 수

LLM 효율 높이는 RAG 문서 데이터 정형화 방법

LLM 효율 높이는 RAG 문서 데이터 정형화 방법

RAG란 요청된 내용에 대하여 정확한 출처를 가진 지식 베이스를 활용해 응답을 생성하는 기술입니다. 내부 문서나 이메일 등 LLM이 기존에 학습한 데이터 셋에 포함되지 않은 특정 외부 데이터를 활용하여 응답을 생성하기 때문에 LLM의 고질병인 환각(Hallucination) 현상을 감소시키고 최신 정보를 반영하여 LLM의 효율을 높일 수 있도록 돕습니다. RAG 작동 과정을 살펴보면

에듀테크 서비스 LLM 개발을 위한 대화 데이터 구축

에듀테크 서비스 LLM 개발을 위한 대화 데이터 구축

✔️이런 분들에게 도움이 되는 글이에요! - 에듀테크 산업에 LLM 도입하고 싶으신 분 - 사용자에 최적화된 대화 시나리오 구축 방법이 궁금하신 분 - 불용어 데이터 관리에 대해 궁금하신 분 개요 * 산업 분류: 에듀테크 * 세부 Task: 대화 시나리오 설계, 페르소나 설계, 불용어 사전 구축 * 데이터 출처: TEXTNET 보유 데이터 및 신규 생성,

이커머스에 AI를 도입하는 방법, LLM을 활용한 디지털 점원 만들기

이커머스에 AI를 도입하는 방법, LLM을 활용한 디지털 점원 만들기

이커머스 산업과 LLM LLM의 등장은 거의 모든 산업에서 기존과는 전혀 다른 관점과 접근법을 요구합니다. 이커머스 산업도 예외는 아닙니다. 다른 점이 있다면 많은 기업들이 대체로 비용 절감 차원에서 LLM을 활용하려는 데 반해, 이커머스 산업은 매출 증대 관점에서 바라보려 한다는 점입니다. 1)카피라이팅 문구를 자동으로 생성해서 고객의 관심과 행동을 유도하거나, 2)고객

AI 모델 학습을 위한 TA 학습데이터 구축

AI 모델 학습을 위한 TA 학습데이터 구축

✔️이런 분들에게 도움이 되는 글이에요! - STT 데이터 구축 방법이 궁금하신 분 - 데이터 생산성 효율화 과정이 궁금하신 분 - 상황별, 페르소나별 데이터를 구축하고 싶으신 분 개요 * 산업 분류: IT/통신 * 세부 Task: 데이터 요약, 데이터 레이블링, 멀티턴 대화 데이터 구축 * 데이터 출처: TEXTNET 보유 데이터 및 신규 생성 * 작업량:

Edutech에 AI와 LLM 도입이 활발해지고 있음을 나타내는 이미지

LLM 시대를 맞이하는 에듀테크 시장의 AI 도입 전략

최근 에듀테크 시장의 중심 키워드: 최신 기술 적용 러시, 초개인화 지향, 생성형AI와 대화형 AI의 활용 최신 기술 적용 러시와 초개인화 지향 에듀테크 선도 기업들은 소프트웨어 측면에서 기술을 적용함과 동시에 하드웨어 측면에서 스마트폰, 태블릿 PC 등 교구용 디바이스를 활용하고 있습니다. 기업들은 각자의 학습 시스템과 플랫폼을 담은 디바이스 제품을 보유하고 있으나 하드웨어

TEXTNET 고경민 대표가 대규모 언어모델(LLM)에 대해 강연하는 모습

TEXTNET, 지식공유모임 CLE-T 초청 대규모 언어모델(LLM) 강연 진행

지난 17일 저녁, 금요일 밤이었음에도 불구하고 국내 1위 뷰티 크리에이터 비즈니스 기업 레페리에 많은 사람들이 모였습니다. 바로 지식공유 모임인 CLE-T에 참여하기 위해서였는데요. TEXTNET도 연사로 초청받아 그간 진행해온 사업 경험을 바탕으로 AI, 특히 언어모델에 대한 인사이트를 전할 수 있었습니다. CLE-T 모임 소개 TEXTNET을 초청해주신 모임 CLE-T는 Culture, Lifestyle, Eco, Technology의 약자로

LLM 성능 평가를 위한 벤치마크 데이터셋, 잘 만드는 방법

LLM 성능 평가를 위한 벤치마크 데이터셋, 잘 만드는 방법

바야흐로 LLM 전성시대입니다. 국내외에서 수많은 언어모델이 하루가 멀다하고 쏟아져 나오는 요즘인데요. 새로운 모델이 공개되면 이전 SOTA(State-of-the-art) 모델과의 성능 비교표가 함께 나오곤 합니다. 위 성능 비교표에서 왼쪽 첫 열에 나열된 것이 LLM의 성능을 평가하는 벤치마크 데이터셋들입니다. 이렇게 LLM의 성능을 객관적으로 평가하고 다양한 모델을 비교하기 위해서는 벤치마크 데이터셋을 활용하는 방법이 보편적입니다.

효과적인 LLM 사용성 평가(LLM System Evaluation) 방법

효과적인 LLM 사용성 평가(LLM System Evaluation) 방법

LLM 경쟁이 심화되면서 LLM 평가에 대한 관심도 커지고 있습니다. TEXTNET 블로그의 여러 콘텐츠 중에서도 LLM 평가 관련 콘텐츠는 늘 상위에 랭크되어 있는데요. 이전 콘텐츠에서는 LLM 평가 방법에는 어떤 것이 있는지, 효과적인 LLM 성능 평가는 어떻게 해야 하는지, 성능 평가와 더불어 사용성 평가의 중요성에 대해서도 다루었습니다. LLM 평가 지표: 최선의 LLM

LLM 평가, 사용성이 중심이 되어야 하는 이유

LLM 평가, 사용성이 중심이 되어야 하는 이유

지난 콘텐츠(LLM 평가 지표: 최선의 LLM 성능 평가 방법은 무엇일까?)에서는 목적에 맞는 LLM 평가 지표를 개발해야 하는 이유에 대해서 살펴보았습니다. 이와 함께 LLM 평가에 일관성이 필요한 이유와 평가 일관성을 유지하는 방법, 그리고 LLM 성능 평가의 후속으로 이어져야 할 Task까지 알아보며 LLM 성능 평가를 위해 고려해야 할 점을 전반적으로

쿠키리스(Cookieless) 시대, 대화형 AI에서 CUX(Conversational UX)가 중요해지는 이유

쿠키리스(Cookieless) 시대, 대화형 AI에서 CUX(Conversational UX)가 중요해지는 이유

구글은 올해 1월 4일부터 1%의 크롬 사용자를 대상으로 웹사이트 운영자가 아닌 제 3자가 수집하는 데이터인 서드파티 쿠키를 비활성화했습니다. 향후에는 서드파티 쿠키 지원을 완전히 중단하려는 단초라고 볼 수 있는데요. 이는 사용자 프라이버시 보호 강화와 온라인 광고의 패러다임 전환은 물론 나아가 디지털 마케팅의 미래에 큰 영향을 끼칠 것으로 보입니다. 쿠키(Cookie)

챗봇 데이터 버전 관리를 위한 시스템 만들기(체크리스트 포함)

챗봇 데이터 관리를 위한 시스템 만들기(체크리스트 포함)

챗봇 서비스 도입? 도입이 끝이 아닌 이유 많은 기업이 도입을 고려하는 챗봇, 하지만 도입 후에도 많은 작업이 필요합니다. 챗봇 데이터를 꾸준히 업데이트해야 하기 때문인데요. 챗봇이 현재 상황에 맞는 답변을 제공할 때 사용자들은 높은 만족감을 느낍니다. 오래된 정보를 제공하거나 상황에 맞지 않는 답변이 출력되면 챗봇 서비스의 신뢰도는 추락하고 맙니다. 하지만 새로운

RAG 기반 LLM 데이터 생성 시 발생하는 오류와 해결 방법

RAG 기반 LLM 데이터 생성 시 발생하는 오류와 해결 방법

RAG란? ChatGPT와 같이 LLM을 활용한 다양한 서비스가 등장했지만, 환각(Halluciation) 현상은 아직도 풀어나가야 할 과제 중 하나로 남아 있습니다. LLM 환각 현상의 해결법 중 하나로 RAG(Retrieval Agumentated Generation, 검색 증강 생성) 방식이 각광받고 있고, 실제로 RAG를 적용해 챗봇을 구현하거나 데이터를 구축하는 사례가 증가하고 있습니다. RAG는 외부 지식을 기반으로 관련

데이터 라벨링 알바가 3년차 경력직이 되기까지

데이터 라벨링 알바가 3년차 경력직이 되기까지

*이 글은 TEXTNET 소속 데이터 구축 작업자 ‘크루’의 시점에서 작성한 가상의 콘텐츠입니다. 저는 현재 3년차 직장인입니다. 지금 다니고 있는 회사는 TEXTNET이라는 곳이에요. 이곳에 입사하기 전의 저는 ‘섞어찌개’ 같은 이력서를 가지고 있었어요. ‘국어’와 ‘교육’이라는 저의 전공을 살릴 수 있는 직장이 너무 적어 공부한 것과는 전혀 다른 일들을 전전해야

LLM 평가 지표: 최선의 LLM 성능 평가 방법은 무엇일까?

LLM 평가 지표: 최선의 LLM 성능 평가 방법은 무엇일까?

기존 시나리오 기반의 챗봇이 LLM 챗봇으로 대체되면서, 이제 챗봇은 사용자의 질문을 이해하고 더 자연스러운 답변을 생성해 내기 시작했습니다. 답변의 자율성이 확대됨에 따라 할루시네이션, AI 윤리 등의 문제가 대두되고 있으며 이를 보완하면서도 더욱 사람처럼 답변하는 LLM을 만들기 위한 연구들이 계속 진행되고 있습니다. 더불어 LLM을 평가하는 평가 지표에 대한 연구도 활발하게 이루어지고

LLM 도입을 위한 데이터 정제 및 학습 데이터 구축

LLM 도입을 위한 데이터 정제 및 학습 데이터 구축

✔️이런 분들에게 도움이 되는 글이에요! - LLM에 맞는 데이터 구조화 방법이 궁금하신 분 - 다양한 형태의 자료를 텍스트 데이터로 변환하여 활용하고 싶으신 분 - 난도 높은 도메인 데이터를 다룰 때 주의해야 할 점이 궁금하신 분 개요 * 산업 분류: 금융 * 세부 Task: 비정형 데이터의 정형화, 데이터 정제, MRC QA 데이터셋 구축,

RAG 대응 사실 기반 QA 데이터 구축

RAG 대응 사실 기반 QA 데이터 구축

✔️이런 분들에게 도움이 되는 글이에요! - LLM을 위한 QA 데이터 구축 시 주의해야 할 점에 대해 궁금하신 분 - 데이터 소스가 부족할 때 해결할 수 있는 방법이 궁금하신 분 - 데이터 퀄리티를 높이는 프로젝트 운영 방법이 궁금하신 분 개요 * 산업 분류: IT/통신 * 세부 Task: MRC QA 데이터셋 구축 * 데이터

LLM 성능 평가 및 테스트 데이터 구축

LLM 성능 평가 및 테스트 데이터 구축

✔️이런 분들에게 도움이 되는 글이에요! - 한국어 기반 LLM의 성능 평가 방법이 궁금하신 분 - 학습 데이터셋이 아닌 벤치마크 데이터셋을 구축할 때의 유의점이 궁금하신 분 - 기존 벤치마크 데이터셋의 한계점을 보완하고 싶으신 분 개요 * 산업 분류: IT/통신 * 세부 Task: 벤치마크 데이터셋 구축, 데이터 레이블링 * 데이터 출처: 공개 데이터를 바탕으로

LLM 기반 대화형 AI 사용성 평가

LLM 기반 대화형 AI 사용성 평가

✔️이런 분들에게 도움이 되는 글이에요! - 벤치마크 중심의 LLM 성능 평가가 아닌 실제 사용자 관점의 LLM 사용성 평가에 대해 궁금하신 분 - LLM 사용성 평가 진행 시 일관성 유지 방법이 궁금하신 분 - LLM 평가를 진행할 때 어떤 부분을 고려해야 하는 지 궁금하신 분 개요 * 산업 분류: IT/통신 * 세부

LLM-RAG 기반 디지털 휴먼을 위한 데이터셋 구축

LLM-RAG 기반 디지털 휴먼을 위한 데이터셋 구축

✔️이런 분들에게 도움이 되는 글이에요! - 원시 데이터의 효율적인 전처리 및 정제 방법이 궁금하신 분 - LLM-RAG 기반 생성 데이터의 할루시네이션을 해결하고 싶으신 분 - 실존 인물을 디지털 휴먼으로 구현할 때 주의할 점이 궁금하신 분 개요 * 산업 분류: 공공·교육 * 세부 Task: 데이터 전처리, MRC QA 데이터셋 구축, 데이터 레이블링(

LLM 추론 능력 향상을 위한 학습 데이터 구축

고객 성공사례

LLM 추론 능력 향상을 위한 학습 데이터 구축

✔️이런 분들에게 도움이 되는 글이에요! - LLM의 추론 능력을 향상시키는 방법이 궁금하신 분 - LLM의 작동 원리에 맞는 데이터 설계 방법이 궁금하신 분 - 고난도 데이터 구축 시 작업 효율화 방법이 궁금하신 분 개요 * 산업 분류: IT * 세부 Task: 지식/정보 설계, 대화 데이터 구축, 데이터 레이블링 * 데이터 출처: 고객사

증권사 AI 가상 상담 서비스 개발을 위한 데이터 분석/설계

고객 성공사례

증권사 AI 가상 상담 서비스 개발을 위한 데이터 분석/설계

✔️이런 분들에게 도움이 되는 글이에요! - 실제 사용자의 언어를 반영한 현실감 있는 대화형 AI 서비스를 개발하고 싶으신 분 - 가상 상담사 도입을 위해 어떤 기초 작업이 필요한 지 궁금하신 분 - 고객 상담 데이터의 활용 방안이 궁금하신 분 개요 * 산업 분류: 금융 * 세부 Task: 데이터 분류 및 라벨링, 답변 정의,