블로그

TEXTNET 팀 문화, 관련 프로젝트 소식 및 데이터 기획 인사이트를 전합니다.
TEXTNET 고경민 대표가 대규모 언어모델(LLM)에 대해 강연하는 모습
뉴스

TEXTNET, 지식공유모임 CLE-T 초청 대규모 언어모델(LLM) 강연 진행

지난 17일 저녁, 금요일 밤이었음에도 불구하고 국내 1위 뷰티 크리에이터 비즈니스 기업 레페리에 많은 사람들이 모였습니다. 바로 지식공유 모임인 CLE-T에 참여하기 위해서였는데요. TEXTNET도 연사로 초청받아 그간 진행해온 사업 경험을 바탕으로 AI, 특히 언어모델에 대한 인사이트를 전할 수 있었습니다. CLE-T 모임 소개 TEXTNET을 초청해주신 모임 CLE-T는 Culture, Lifestyle, Eco, Technology의 약자로
8 min read
LLM 성능 평가를 위한 벤치마크 데이터셋, 잘 만드는 방법
인사이트 Featured

LLM 성능 평가를 위한 벤치마크 데이터셋, 잘 만드는 방법

바야흐로 LLM 전성시대입니다. 국내외에서 수많은 언어모델이 하루가 멀다하고 쏟아져 나오는 요즘인데요. 새로운 모델이 공개되면 이전 SOTA(State-of-the-art) 모델과의 성능 비교표가 함께 나오곤 합니다. 위 성능 비교표에서 왼쪽 첫 열에 나열된 것이 LLM의 성능을 평가하는 벤치마크 데이터셋들입니다. 이렇게 LLM의 성능을 객관적으로 평가하고 다양한 모델을 비교하기 위해서는 벤치마크 데이터셋을 활용하는 방법이 보편적입니다.
21 min read
효과적인 LLM 사용성 평가(LLM System Evaluation) 방법
인사이트 Featured

효과적인 LLM 사용성 평가(LLM System Evaluation) 방법

LLM 경쟁이 심화되면서 LLM 평가에 대한 관심도 커지고 있습니다. TEXTNET 블로그의 여러 콘텐츠 중에서도 LLM 평가 관련 콘텐츠는 늘 상위에 랭크되어 있는데요. 이전 콘텐츠에서는 LLM 평가 방법에는 어떤 것이 있는지, 효과적인 LLM 성능 평가는 어떻게 해야 하는지, 성능 평가와 더불어 사용성 평가의 중요성에 대해서도 다루었습니다. LLM 평가 지표: 최선의 LLM
16 min read
LLM 평가, 사용성이 중심이 되어야 하는 이유
인사이트 Featured

LLM 평가, 사용성이 중심이 되어야 하는 이유

지난 콘텐츠(LLM 평가 지표: 최선의 LLM 성능 평가 방법은 무엇일까?)에서는 목적에 맞는 LLM 평가 지표를 개발해야 하는 이유에 대해서 살펴보았습니다. 이와 함께 LLM 평가에 일관성이 필요한 이유와 평가 일관성을 유지하는 방법, 그리고 LLM 성능 평가의 후속으로 이어져야 할 Task까지 알아보며 LLM 성능 평가를 위해 고려해야 할 점을 전반적으로
17 min read
쿠키리스(Cookieless) 시대, 대화형 AI에서 CUX(Conversational UX)가 중요해지는 이유
인사이트 Featured

쿠키리스(Cookieless) 시대, 대화형 AI에서 CUX(Conversational UX)가 중요해지는 이유

구글은 올해 1월 4일부터 1%의 크롬 사용자를 대상으로 웹사이트 운영자가 아닌 제 3자가 수집하는 데이터인 서드파티 쿠키를 비활성화했습니다. 향후에는 서드파티 쿠키 지원을 완전히 중단하려는 단초라고 볼 수 있는데요. 이는 사용자 프라이버시 보호 강화와 온라인 광고의 패러다임 전환은 물론 나아가 디지털 마케팅의 미래에 큰 영향을 끼칠 것으로 보입니다. 쿠키(Cookie)
16 min read
챗봇 데이터 버전 관리를 위한 시스템 만들기(체크리스트 포함)
인사이트 Featured

챗봇 데이터 관리를 위한 시스템 만들기(체크리스트 포함)

챗봇 서비스 도입? 도입이 끝이 아닌 이유 많은 기업이 도입을 고려하는 챗봇, 하지만 도입 후에도 많은 작업이 필요합니다. 챗봇 데이터를 꾸준히 업데이트해야 하기 때문인데요. 챗봇이 현재 상황에 맞는 답변을 제공할 때 사용자들은 높은 만족감을 느낍니다. 오래된 정보를 제공하거나 상황에 맞지 않는 답변이 출력되면 챗봇 서비스의 신뢰도는 추락하고 맙니다. 하지만 새로운
12 min read
RAG 기반 LLM 데이터 생성 시 발생하는 오류와 해결 방법
인사이트 Featured

RAG 기반 LLM 데이터 생성 시 발생하는 오류와 해결 방법

RAG란? ChatGPT와 같이 LLM을 활용한 다양한 서비스가 등장했지만, 환각(Halluciation) 현상은 아직도 풀어나가야 할 과제 중 하나로 남아 있습니다. LLM 환각 현상의 해결법 중 하나로 RAG(Retrieval Agumentated Generation, 검색 증강 생성) 방식이 각광받고 있고, 실제로 RAG를 적용해 챗봇을 구현하거나 데이터를 구축하는 사례가 증가하고 있습니다. RAG는 외부 지식을 기반으로 관련
18 min read
데이터 라벨링 알바가 3년차 경력직이 되기까지
팀 문화

데이터 라벨링 알바가 3년차 경력직이 되기까지

*이 글은 TEXTNET 소속 데이터 구축 작업자 ‘크루’의 시점에서 작성한 가상의 콘텐츠입니다. 저는 현재 3년차 직장인입니다. 지금 다니고 있는 회사는 TEXTNET이라는 곳이에요. 이곳에 입사하기 전의 저는 ‘섞어찌개’ 같은 이력서를 가지고 있었어요. ‘국어’와 ‘교육’이라는 저의 전공을 살릴 수 있는 직장이 너무 적어 공부한 것과는 전혀 다른 일들을 전전해야
16 min read
LLM 평가 지표: 최선의 LLM 성능 평가 방법은 무엇일까?
인사이트 Featured

LLM 평가 지표: 최선의 LLM 성능 평가 방법은 무엇일까?

기존 시나리오 기반의 챗봇이 LLM 챗봇으로 대체되면서, 이제 챗봇은 사용자의 질문을 이해하고 더 자연스러운 답변을 생성해 내기 시작했습니다. 답변의 자율성이 확대됨에 따라 할루시네이션, AI 윤리 등의 문제가 대두되고 있으며 이를 보완하면서도 더욱 사람처럼 답변하는 LLM을 만들기 위한 연구들이 계속 진행되고 있습니다. 더불어 LLM을 평가하는 평가 지표에 대한 연구도 활발하게 이루어지고
19 min read
자연어 데이터 구축, 초반 작업이 가장 중요한 이유(사전 체크리스트 포함)
인사이트

자연어 데이터 구축, 초반 작업이 가장 중요한 이유(사전 체크리스트 포함)

학습데이터는 도메인, 사용자, 서비스 형태, 목적에 따라 설계가 다르고 최종 결과물이 달라집니다. 자연어 데이터의 경우 모호하고 복잡하기 때문에 더더욱 그러한데요. 데이터 구축을 의뢰해 결과물을 받았는데, 처음에 생각했던 것과 너무 달라서 당황했던 경험이 있다는 이야기를 많이 듣습니다. 이전에 데이터 수요처 담당자로서 발주를 해 봤던 저도 크게 공감하는 부분입니다. 데이터 수요처, 데이터
14 min read
챗봇 기획, 답변 중심 설계로 정확도 높이는 법
인사이트

챗봇 기획, 답변 중심 설계로 정확도 높이는 법

챗봇 기획, 무엇부터 시작해야 할까요? 서비스 및 업무 효율 향상, 운영 비용 절감 등을 위해 개인 사업자부터 대기업까지 많은 기업에서 AI 챗봇을 도입하고 있는데요. 챗봇은 다양한 영역에서 활용될 수 있는 유연성을 가진 도구이지만, 영역에 맞는 세밀한 기획이 필요한 도구이기도 합니다. 기획이 세밀하지 않은 챗봇은 브랜드 이미지에 부정적인 영향을 미치며, 업무
12 min read
LLM 챗봇: 초거대 언어모델 기반 챗봇과 기존 챗봇 비교
인사이트

LLM 챗봇: 초거대 언어모델 기반 챗봇과 기존 챗봇 비교

작년 OpenAI사의 ChatGPT가 첨단의 AI 기술로 전 세계에서 관심을 받았습니다. ChatGPT는 채팅이라는 직관적인 UI를 바탕으로 그 어느 AI보다 자연스럽고 똑똑한 언변을 보여줬습니다. 그렇다면 LLM(Large Language Model) 챗봇과 기존 챗봇의 주요 차이점은 무엇일까요? LLM만으로 챗봇을 만들 수는 없을까요? 만든다면 어떤 장단점이 있을까요? 이를 알기 위해서는 챗봇이 작동하는 방식부터 살펴봐야 합니다.
12 min read
프롬프트 엔지니어링으로 ChatGPT 능력 200% 끌어내기
인사이트

프롬프트 엔지니어링으로 ChatGPT 능력 200% 끌어내기

글쓰기에 대한 고민이 있으신가요? 창작의 고통으로 인해 어려움을 겪고 계시진 않나요? 독후감, 리포트, 보고서, 기획안, 이메일, 메시지, 편지 쓰기… 우리는 살면서 글을 써야 하는 수많은 상황에 놓이게 됩니다. 그럴 때마다 대부분의 사람들은 고뇌의 순간을 경험하곤 하죠. 그런데, ChatGPT를 통해 글쓰기 고민을 해소할 수 있다는 사실, 알고 계시나요? TEXTNET이 자체 연구를
17 min read
HCLT 2023(한글 및 한국어 정보처리 학술대회 2023) Review
인사이트

HCLT 2023(한글 및 한국어 정보처리 학술대회 2023) Review by TEXTNET

NLP 스타트업에 연구조직이? 국내 유일 텍스트 전문 데이터 설계/구축 서비스 TEXTNET에 연구조직이 있다는 사실, 알고 계시나요? NLP 분야의 연구조직이라 하면 왠지 유수 대기업에나 있을 것 같지만, TEXTNET은 고품질 텍스트 데이터로 AI와 챗봇의 발전을 도모하고자 하는 기업인 만큼 데이터 설계 관련 R&D에 주력하는 팀이 별도로 구성되어 있답니다! 심지어
19 min read
챗봇 구축 시 ChatGPT 활용의 한계와 장점
인사이트

챗봇 구축 시 ChatGPT 활용의 한계와 장점

AI 학습용 데이터와 챗봇 구축 사업을 전문으로 하다 보니 종종 위와 같은 질문을 받게 됩니다. 결론부터 말하자면 ‘아직은 한계점이 분명하나 결국 시간문제다’라고 할 수 있을 것 같습니다. 좀 더 자세히 살펴볼까요? 챗봇은 기본적으로 사용자 의도 분석이 핵심이라 사용자 발화를 사전에 정의된 인텐트에 얼마나 정확하게 매칭하느냐가 관건입니다. 이를 위해 크게
11 min read
채용 공고부터 입사까지, 긍정적인 직원 경험 디자인하기
팀 문화

채용 공고부터 입사까지, 긍정적인 직원 경험 디자인하기

인재 전쟁의 시대 안녕하세요! TEXTNET에서 인사 업무를 총괄하고 있는 인사팀장 김영길입니다. 오랜 기간 여러 회사에서 인사 업무를 수행했지만 최근 ‘우수 인재의 영입과 유출 방지가 이렇게까지 어렵고 힘든 시기가 있었나?’하는 생각이 자주 듭니다. 😭 기업 시장은 바야흐로 인재 전쟁의 시대입니다. 과거에도 인재는 중요했고, ‘언제 인재 전쟁이 없었던 적이 있었나?’라고 생각할
14 min read
피그마 기본 사용법: 데이터 구축 기업은 피그마를 어떻게 쓸까
인사이트

피그마 기본 사용법: 데이터 구축 기업은 피그마를 어떻게 쓸까

안녕하세요. TEXTNET 개발팀 프론트엔드 개발자 이승헌입니다. 데이터 구축 기업의 개발팀은 무슨 일을 하는지, 궁금하지 않으신가요? TEXTNET의 개발팀의 주된 업무는 사내 작업 툴 개발 그리고 개발과 관련된 업무 지원입니다. 데이터 구축 작업자인 크루 관리 툴, 챗봇을 위한 데이터 자동 생성 툴 등을 개발하여 운영하고 있어요. 최근에는 데이터 구축 프로젝트와 관련된 데이터를
9 min read
챗봇 도입하는 방법, 가장 쉽게 알려드려요
인사이트

챗봇 도입하는 방법, 가장 쉽게 알려드려요

챗봇을 도입해야 하는 이유 디지털 기술과 인공지능의 발전으로 인해 비즈니스 환경은 빠르게 변화하고 있습니다. 특히 GPT(Generative Pre-trained Transformer)와 같은 대규모 언어 모델의 등장을 기점으로 챗봇 기술에 상당한 변화가 있었습니다. 이전에 비해 챗봇은 더욱 자연스러운 대화와 개인화된 경험을 제공할 수 있게 되었습니다. 규칙 기반 시스템이나 간단한 통계 모델을 기반으로
15 min read
AI에게 창의성을 부여하는 방법 - 추론 능력 향상을 중심으로
인사이트

AI에게 창의성을 부여하는 방법 - 추론 능력 향상을 중심으로

누구나 GPT를 찾는 세상, 추론하는 LLM을 향해 “누나, 먼저 GPT한테 물어봐. 그게 제일 빨라.” 대학생인 동생이 과제를 하는 모습은 몇 년 전과 비추어봤을 때 사뭇 생경합니다. 학교 도서관 홈페이지나 논문 사이트를 뒤적여보던 과거 저의 모습과는 달리 동생은 ChatGPT에게 먼저 물어보고는 합니다. 동생의 모습을 통해 저는 새삼 LLM(Large language model)
13 min read
TEXTNET, 국내 최대 자연어처리 학회 HCLT 2년 연속 논문 채택
뉴스 Featured

TEXTNET, 국내 최대 자연어처리 학회 HCLT 2년 연속 논문 채택

국내 유일 텍스트 데이터 전문 설계/구축 서비스 TEXTNET이 작년에 이어 ‘2023 한글 및 한국어 정보처리 학술대회(HCLT 2023)’ 논문 채택 성과를 달성했습니다! 올해로 35회를 맞이한 ‘한글 및 한국어 정보처리 학술대회’는 한국정보과학회, 언어공학연구회, 한국인지과학회가 주최하는 권위 있는 학술대회입니다. 인공지능 기반 한국어 처리 기술 개발과 연구 성과를 공유하는 주요 학회
7 min read
프리랜서가 다시 정규직을 결심한 이유: 데이터 구축 작업자의 TEXTNET 입사기
팀 문화

프리랜서가 다시 정규직을 결심한 이유: 데이터 구축 작업자의 TEXTNET 입사기

TEXTNET은 ‘인간과 AI가 서로 이롭게 공존하는 세상’이라는 미션을 바탕으로 사용자의 몰입을 만드는 데이터, 모델 구현을 위한 최적의 데이터를 만드는 일을 합니다. 프로젝트에 따라 데이터 구축 작업에 외부 작업자의 손길이 필요한 경우가 있는데요. 데이터 구축 작업자, 크라우드워커, 프리랜서 작업자 등 다양한 명칭으로 불리는 작업자를 TEXTNET에서는 ‘크루’라고 부르고 있어요. 👉🏻[관련
12 min read
TEXTNET, 국제한국언어학회 ICKL 2023 논문 채택
뉴스 Featured

TEXTNET, 국제한국언어학회 ICKL 2023 논문 채택

국제한국언어학회 ICKL 2023에 TEXTNET의 논문이 채택되었습니다! ICKL(International Circle of Korean Linguistics)은 1975년에 설립된 한국어 언어학 전문 학회로, 2년마다 국제 학술대회를 개최하고 있습니다. ICKL은 한국어와 언어학을 주제로 전 세계의 지식과 정보를 교류하는 권위 있는 학회로서, 역사적으로도 유서 깊은 학회입니다. ICKL의 저널 'Korean Linguistics'는 Linguistics 분야에서 Q2급의
6 min read
진짜 사람처럼 말하는 챗봇을 만드는 사람들 - [직무 인터뷰 #3] 챗봇사업팀 팀장
팀 문화

진짜 사람처럼 말하는 챗봇을 만드는 사람들 - [직무 인터뷰 #3] 챗봇사업팀 팀장

들어가며 TEXTNET은 '인간과 AI가 서로 이롭게 공존하는 세상'이라는 미션을 바탕으로 사용자의 몰입을 만드는 데이터, 모델 구현을 위한 최적의 데이터를 만드는 일에 주력하고 있습니다. 특히 챗봇, 콜봇 등 대화형 AI의 사용자 만족도를 높이는 데 강점을 가지고 있는데요. 이는 언어학은 물론 심리학, 문예창작학, 전산언어학 등 관련 전문성을 갖춘 TEXTNET
9 min read
데이터 기획자에게 필요한 역량은? - [직무 인터뷰#2] 데이터사업팀 선임
팀 문화

데이터 기획자에게 필요한 역량은? - [직무 인터뷰#2] 데이터사업팀 선임

들어가며 TEXTNET은 '인간과 AI가 서로 이롭게 공존하는 세상'이라는 미션을 바탕으로 사용자의 몰입을 만드는 데이터, 모델 구현을 위한 최적의 데이터를 만드는 일에 주력하고 있습니다. 고객사의 모델에 맞는 데이터를 어떻게 하면 더 정확하게, 효율적으로 만들 수 있을지 고민하는 '데이터 기획'이 TEXTNET PM의 역할인데요. 오늘 소개할 분은
5 min read
서로 다른 팀원들을 아우르는 힘 - [직무 인터뷰 #1] 데이터사업팀 팀장
팀 문화

서로 다른 팀원들을 아우르는 힘 - [직무 인터뷰 #1] 데이터사업팀 팀장

들어가며 TEXTNET은 '인간과 AI가 서로 이롭게 공존하는 세상'이라는 미션을 바탕으로 사용자의 몰입을 만드는 데이터, 모델 구현을 위한 최적의 데이터를 만드는 일에 주력하고 있습니다. 다양한 도메인과 목적을 가진 AI 서비스를 위한 맞춤형 데이터, 더 정확하고 품질이 높은 데이터 구축을 위한 기획에 몰두하는 TEXTNET의 핵심 인력은 PM이라고 할 수
7 min read