인사이트 LLM 효율 높이는 RAG 문서 데이터 정형화 방법 RAG란 요청된 내용에 대하여 정확한 출처를 가진 지식 베이스를 활용해 응답을 생성하는 기술입니다. 내부 문서나 이메일 등 LLM이 기존에 학습한 데이터 셋에 포함되지 않은 특정 외부 데이터를 활용하여 응답을 생성하기 때문에 LLM의 고질병인 환각(Hallucination) 현상을 감소시키고 최신 정보를 반영하여 LLM의 효율을 높일 수 있도록 돕습니다. RAG 작동 과정을 살펴보면
공공·교육 에듀테크 서비스 LLM 개발을 위한 대화 데이터 구축 ✔️이런 분들에게 도움이 되는 글이에요! - 에듀테크 산업에 LLM 도입하고 싶으신 분 - 사용자에 최적화된 대화 시나리오 구축 방법이 궁금하신 분 - 불용어 데이터 관리에 대해 궁금하신 분 개요 * 산업 분류: 에듀테크 * 세부 Task: 대화 시나리오 설계, 페르소나 설계, 불용어 사전 구축 * 데이터 출처: TEXTNET 보유 데이터 및 신규 생성,
IT·통신 AI 모델 학습을 위한 TA 학습데이터 구축 ✔️이런 분들에게 도움이 되는 글이에요! - STT 데이터 구축 방법이 궁금하신 분 - 데이터 생산성 효율화 과정이 궁금하신 분 - 상황별, 페르소나별 데이터를 구축하고 싶으신 분 개요 * 산업 분류: IT/통신 * 세부 Task: 데이터 요약, 데이터 레이블링, 멀티턴 대화 데이터 구축 * 데이터 출처: TEXTNET 보유 데이터 및 신규 생성 * 작업량:
금융 LLM 도입을 위한 데이터 정제 및 학습 데이터 구축 ✔️이런 분들에게 도움이 되는 글이에요! - LLM에 맞는 데이터 구조화 방법이 궁금하신 분 - 다양한 형태의 자료를 텍스트 데이터로 변환하여 활용하고 싶으신 분 - 난도 높은 도메인 데이터를 다룰 때 주의해야 할 점이 궁금하신 분 개요 * 산업 분류: 금융 * 세부 Task: 비정형 데이터의 정형화, 데이터 정제, MRC QA 데이터셋 구축,
IT·통신 RAG 대응 사실 기반 QA 데이터 구축 ✔️이런 분들에게 도움이 되는 글이에요! - LLM을 위한 QA 데이터 구축 시 주의해야 할 점에 대해 궁금하신 분 - 데이터 소스가 부족할 때 해결할 수 있는 방법이 궁금하신 분 - 데이터 퀄리티를 높이는 프로젝트 운영 방법이 궁금하신 분 개요 * 산업 분류: IT/통신 * 세부 Task: MRC QA 데이터셋 구축 * 데이터
IT·통신 LLM 성능 평가 및 테스트 데이터 구축 ✔️이런 분들에게 도움이 되는 글이에요! - 한국어 기반 LLM의 성능 평가 방법이 궁금하신 분 - 학습 데이터셋이 아닌 벤치마크 데이터셋을 구축할 때의 유의점이 궁금하신 분 - 기존 벤치마크 데이터셋의 한계점을 보완하고 싶으신 분 개요 * 산업 분류: IT/통신 * 세부 Task: 벤치마크 데이터셋 구축, 데이터 레이블링 * 데이터 출처: 공개 데이터를 바탕으로
공공·교육 LLM-RAG 기반 디지털 휴먼을 위한 데이터셋 구축 ✔️이런 분들에게 도움이 되는 글이에요! - 원시 데이터의 효율적인 전처리 및 정제 방법이 궁금하신 분 - LLM-RAG 기반 생성 데이터의 할루시네이션을 해결하고 싶으신 분 - 실존 인물을 디지털 휴먼으로 구현할 때 주의할 점이 궁금하신 분 개요 * 산업 분류: 공공·교육 * 세부 Task: 데이터 전처리, MRC QA 데이터셋 구축, 데이터 레이블링(
고객 성공사례 LLM 추론 능력 향상을 위한 학습 데이터 구축 ✔️이런 분들에게 도움이 되는 글이에요! - LLM의 추론 능력을 향상시키는 방법이 궁금하신 분 - LLM의 작동 원리에 맞는 데이터 설계 방법이 궁금하신 분 - 고난도 데이터 구축 시 작업 효율화 방법이 궁금하신 분 개요 * 산업 분류: IT * 세부 Task: 지식/정보 설계, 대화 데이터 구축, 데이터 레이블링 * 데이터 출처: 고객사
고객 성공사례 증권사 AI 가상 상담 서비스 개발을 위한 데이터 분석/설계 ✔️이런 분들에게 도움이 되는 글이에요! - 실제 사용자의 언어를 반영한 현실감 있는 대화형 AI 서비스를 개발하고 싶으신 분 - 가상 상담사 도입을 위해 어떤 기초 작업이 필요한 지 궁금하신 분 - 고객 상담 데이터의 활용 방안이 궁금하신 분 개요 * 산업 분류: 금융 * 세부 Task: 데이터 분류 및 라벨링, 답변 정의,
고객 성공사례 타로 상담 챗봇 서비스를 위한 데이터 구축 ✔️이런 분들에게 도움이 되는 글이에요! - 챗봇 개발 시 어떤 데이터를 먼저 구축해야 하는 지 궁금하신 분 - 챗봇 사용자의 몰입도를 높이는 방법이 궁금하신 분 - 운영/관리에 용이한 챗봇 데이터 설계 방법이 궁금하신 분 개요 * 산업 분류: 엔터테인먼트 * 세부 Task: 인텐트 설계, 발화/답변 데이터 구축, 유사 발화 구축
고객 성공사례 검색엔진을 위한 사전(Dictionary) 구축 ✔️이런 분들에게 도움이 되는 글이에요! - 인공지능 검색 솔루션 도입을 위한 사전(Dictionary) 구축 과정이 궁금하신 분 - 검색엔진 성능을 개선하고 싶은 검색 엔지니어, 검색 기획자, 검색 개발자 - 사용자 경험을 향상시키는 검색엔진 운영 방법이 궁금하신 분 - 사내에 산재한 데이터에서 정보를 추출하고 체계화하는 방법이 궁금하신 분 개요 * 산업 분류:
고객 성공사례 챗봇 성능 개선을 위한 데이터 구축 및 정제 ✔️이런 분들에게 도움이 되는 글이에요! - 운영하고 있는 챗봇 성능을 개선하는 방법이 궁금하신 분 - 챗봇에 신규 콘텐츠를 추가할 때 고려할 점에 대해 궁금하신 분 개요 * 산업 분류: 금융 * 세부 Task: 챗봇 데이터 정제 * 데이터 출처: 고객사 보유 데이터 * 작업량: Confidential * 납품 형태: xlsx(Excel) * 활용 서비스: 사내 챗봇 문제
고객 성공사례 AI 육아 상담 서비스를 위한 대화 데이터 구축 ✔️이런 분들에게 도움이 되는 글이에요! - 민감한 주제를 다루는 AI 서비스를 기획하시는 분 - 전문 지식이 필요한 도메인 데이터를 구축하시려는 분 개요 * 산업 분류: IT * 세부 Task: 대화 설계, 지식/정보 설계, 데이터 레이블링 * 데이터 출처: Confidential * 작업량: Confidential * 납품 형태: json * 활용 서비스: 보이스봇 문제 AI가 직접 육아 상담을
고객 성공사례 성격 유형별 마케팅 문구 생성을 위한 학습 데이터 구축 ✔️이런 분들에게 도움이 되는 글이에요!- AI 카피라이터 등 생성 AI를 위한 데이터를 구축하시려는 분- 톤&매너, 성향, 말투 등 감성의 영역을 데이터화하고 싶으신 분- 고객 Segmentation에 대한 새로운 아이디어가 필요하신 분 개요 * 산업 분류: 생활/문화 * 세부 Task: 대화 설계 및 고도화, 대화 생성 * 데이터 출처: 고객사 보유
고객 성공사례 혐오표현 유도 및 대응 발화 패턴 데이터 구축 ✔️이런 분들에게 도움이 되는 글이에요!- AI의 차별 및 혐오표현에 대해 관심이 있으신 분- AI에게 악의적인 발언을 유도하는 적대적 공격(Adversarial Attack)에 대한 연구가 궁금하신 분 개요 * 산업 분류: IT/공학 * 세부 Task: 연구, 데이터 분류 * 데이터 출처: 자체 수집 * 작업량: Confidential * 납품 형태: 연구보고서 문제 고객사는 자사 서비스
고객 성공사례 맥락을 이해하는 페르소나 대화 데이터 구축 ✔️이런 분들에게 도움이 되는 글이에요!- 다양한 페르소나를 구사하는 대화 데이터 구축이 필요하신 분- 사용자의 몰입을 만드는 대화 데이터에 관심이 있으신 분- 대화 데이터 구축에 있어 자연스러움을 만드는 요소가 궁금하신 분 개요 * 산업 분류: IT/공학 * 세부 Task: 페르소나 설계, 멀티턴 대화 데이터 구축 * 데이터 출처: 신규 생성 * 작업량: Confidential
고객 성공사례 SINGLEX 기반 사내 업무지원 챗봇 데이터 구축 및 모니터링 개요 * 산업 분류: 제조 * 세부 Task: 싱글턴 대화 데이터 구축 * 데이터 출처: 고객사 보유 챗봇 데이터 * 작업량: Confidential * 활용 서비스: 챗봇 문제 사내 업무지원 챗봇 데이터 구축 및 모니터링 작업이 주 목적이었습니다. 고객사에서 직접 인텐트 및 엔티티 설계를 하여 챗봇 플랫폼에 등록해 운영하고자 하였으나, 학습 데이터량이 부족하고 엔티티가 혼재되어 있어
고객 성공사례 MRC 학습을 위한 지문기반 QA 문장 구축 개요 * 산업 분류: IT/공학 * 세부 Task: 멀티턴 대화 데이터 구축 * 데이터 출처: 위키피디아 * 작업량: Confidential * 납품 형태: xlsx(Excel) * 활용 서비스: Confidential 문제 페르소나를 가진 AI 어시스턴트와의 지식 정보 중심의 Q&A 데이터를 필요로 했습니다. 이 데이터는 다수의 도메인으로 양질의 데이터를 구축해 MRC 엔진의 학습 효과를 높인다는 목표가
고객 성공사례 개인정보 탐지 및 마스킹 모델 개발을 위한 학습데이터 구축 개요 * 산업 분류: IT/공학 * 세부 Task: 데이터 레이블링(Labeled Corpus) * 데이터 출처: 고객사 제공 원문 * 작업량: Confidential * 납품 형태: xlsx(Excel) * 활용 서비스: Confidential 문제 다양한 종류의 개인정보를 탐지하고 이를 마스킹하기 위한 모델 개발이 목표인 프로젝트였습니다. 개인정보에도 종류가 많은데 무엇을, 어떤 조건일 때 개인정보로 탐지할 것인지 확인하는 과정이 필수적이었습니다.
고객 성공사례 생산성 향상을 위한 업무 지원 챗봇 데이터 구축 및 사용성 개선 개요 * 산업 분류: 물류 * 세부 Task: 지식/정보 설계, 싱글턴 대화 데이터 구축 * 데이터 출처: 고객사 제공 사내 문서 * 작업량: Confidential * 납품 형태: xlsx(Excel) * 활용 서비스: 챗봇 문제 * 직원들의 비즈니스 및 IT 관련 문의를 해결해주는 챗봇을 위한 데이터 구축 프로젝트였습니다. 사내 매뉴얼 및 업무 관련 정보를 쉽게 확인할 수
고객 성공사례 공황장애 진단 챗봇 개발을 위한 데이터 구축 개요 * 산업 분류: IT/공학 * 세부 Task: 지식/정보 설계 * 데이터 출처: 관련 논문 및 전문 자료 * 작업량: Confidential * 납품 형태: xlsx(Excel) * 활용 서비스: 챗봇 문제 공황장애의 주요 증상 중 하나인 공황발작에 대한 데이터 구축 프로젝트로, 사용자가 증상이나 상황을 입력했을 때 공황장애에 해당하는 증상인지를 판별하고 진단을 내리는 챗봇을 만들기
고객 성공사례 Virtual Human을 위한 챗봇 대화 데이터 가공 개요 * 산업 분류: 서비스 * 세부 Task: 싱글턴 대화 데이터 구축 * 데이터 출처: 신규 생성 * 작업량: Confidential * 납품 형태: xlsx(Excel) * 활용 서비스: 버츄얼 휴먼 문제 Virtual Human인 '노아'. '노아'를 데뷔 시키기 전, 사용자와의 친밀도를 쌓아나갈 수 있도록 고객사에서는 챗봇 서비스를 제공하고자 했습니다. 특히 이 챗봇
고객 성공사례 RASA 기반 사내 업무지원 챗봇 학습 데이터셋 구축 개요 * 산업 분류: 공공기관 * 세부 Task: 싱글턴 대화 데이터 구축 * 데이터 출처: 고객사 제공 사내 매뉴얼 * 작업량: Confidential * 납품 형태: xlsx(Excel) * 활용 서비스: 챗봇 문제 RASA 엔진을 활용하여 사내 업무지원 챗봇 개발을 연구하는 프로젝트였습니다. 해당 챗봇에 들어갈 인텐트/엔티티 설계 및 학습 데이터셋을 구축하는 것이 목표였습니다. 업무지원을 위한 매뉴얼
고객 성공사례 인공지능 의료 서비스 제공을 위한 페르소나 대화 설계 개요 * 산업 분류: 의료/헬스케어 * 세부 Task: 페르소나 대화 설계, 멀티턴 대화 데이터 구축, 데이터 레이블링 * 데이터 출처: 고객사 제공 문서 * 작업량: Confidential * 납품 형태: xlsx(Excel) * 활용 서비스: 디지털 휴먼 문제 문서 내 정보를 기반으로 소통하는 Digital Human을 만드는 것이 목표인 프로젝트였습니다. 인공지능 의료 서비스 제공을 목적으로 의료인을 포함한
고객 성공사례 사내 HR 관련 문의 대응을 위한 챗봇 대화 데이터 가공 개요 * 산업 분류: 서비스 * 세부 Task: 지식/정보 설계, 멀티턴 대화 데이터 구축 * 데이터 출처: 고객사 제공 사내 문서 * 작업량: Confidential * 납품 형태: xlsx(Excel) * 활용 서비스: 챗봇 문제 직원들의 HR 관련 문의를 담당하는 챗봇을 구축하는 프로젝트였습니다. 고객사가 제시한 400여 가지의 대화 의도(인텐트)를 기반으로 인텐트 추출과 분류, 대화