데이터

A collection of 35 posts
LLM 효율 높이는 RAG 문서 데이터 정형화 방법
인사이트

LLM 효율 높이는 RAG 문서 데이터 정형화 방법

RAG란 요청된 내용에 대하여 정확한 출처를 가진 지식 베이스를 활용해 응답을 생성하는 기술입니다. 내부 문서나 이메일 등 LLM이 기존에 학습한 데이터 셋에 포함되지 않은 특정 외부 데이터를 활용하여 응답을 생성하기 때문에 LLM의 고질병인 환각(Hallucination) 현상을 감소시키고 최신 정보를 반영하여 LLM의 효율을 높일 수 있도록 돕습니다. RAG 작동 과정을 살펴보면
13 min read
에듀테크 서비스 LLM 개발을 위한 대화 데이터 구축
공공·교육

에듀테크 서비스 LLM 개발을 위한 대화 데이터 구축

✔️이런 분들에게 도움이 되는 글이에요! - 에듀테크 산업에 LLM 도입하고 싶으신 분 - 사용자에 최적화된 대화 시나리오 구축 방법이 궁금하신 분 - 불용어 데이터 관리에 대해 궁금하신 분 개요 * 산업 분류: 에듀테크 * 세부 Task: 대화 시나리오 설계, 페르소나 설계, 불용어 사전 구축 * 데이터 출처: TEXTNET 보유 데이터 및 신규 생성,
4 min read
AI 모델 학습을 위한 TA 학습데이터 구축
IT·통신

AI 모델 학습을 위한 TA 학습데이터 구축

✔️이런 분들에게 도움이 되는 글이에요! - STT 데이터 구축 방법이 궁금하신 분 - 데이터 생산성 효율화 과정이 궁금하신 분 - 상황별, 페르소나별 데이터를 구축하고 싶으신 분 개요 * 산업 분류: IT/통신 * 세부 Task: 데이터 요약, 데이터 레이블링, 멀티턴 대화 데이터 구축 * 데이터 출처: TEXTNET 보유 데이터 및 신규 생성 * 작업량:
4 min read
LLM 도입을 위한 데이터 정제 및 학습 데이터 구축
금융

LLM 도입을 위한 데이터 정제 및 학습 데이터 구축

✔️이런 분들에게 도움이 되는 글이에요! - LLM에 맞는 데이터 구조화 방법이 궁금하신 분 - 다양한 형태의 자료를 텍스트 데이터로 변환하여 활용하고 싶으신 분 - 난도 높은 도메인 데이터를 다룰 때 주의해야 할 점이 궁금하신 분 개요 * 산업 분류: 금융 * 세부 Task: 비정형 데이터의 정형화, 데이터 정제, MRC QA 데이터셋 구축,
4 min read
LLM 성능 평가 및 테스트 데이터 구축
IT·통신

LLM 성능 평가 및 테스트 데이터 구축

✔️이런 분들에게 도움이 되는 글이에요! - 한국어 기반 LLM의 성능 평가 방법이 궁금하신 분 - 학습 데이터셋이 아닌 벤치마크 데이터셋을 구축할 때의 유의점이 궁금하신 분 - 기존 벤치마크 데이터셋의 한계점을 보완하고 싶으신 분 개요 * 산업 분류: IT/통신 * 세부 Task: 벤치마크 데이터셋 구축, 데이터 레이블링 * 데이터 출처: 공개 데이터를 바탕으로
4 min read
LLM-RAG 기반 디지털 휴먼을 위한 데이터셋 구축
공공·교육

LLM-RAG 기반 디지털 휴먼을 위한 데이터셋 구축

✔️이런 분들에게 도움이 되는 글이에요! - 원시 데이터의 효율적인 전처리 및 정제 방법이 궁금하신 분 - LLM-RAG 기반 생성 데이터의 할루시네이션을 해결하고 싶으신 분 - 실존 인물을 디지털 휴먼으로 구현할 때 주의할 점이 궁금하신 분 개요 * 산업 분류: 공공·교육 * 세부 Task: 데이터 전처리, MRC QA 데이터셋 구축, 데이터 레이블링(
5 min read
LLM 추론 능력 향상을 위한 학습 데이터 구축
고객 성공사례

LLM 추론 능력 향상을 위한 학습 데이터 구축

✔️이런 분들에게 도움이 되는 글이에요! - LLM의 추론 능력을 향상시키는 방법이 궁금하신 분 - LLM의 작동 원리에 맞는 데이터 설계 방법이 궁금하신 분 - 고난도 데이터 구축 시 작업 효율화 방법이 궁금하신 분 개요 * 산업 분류: IT * 세부 Task: 지식/정보 설계, 대화 데이터 구축, 데이터 레이블링 * 데이터 출처: 고객사
4 min read
증권사 AI 가상 상담 서비스 개발을 위한 데이터 분석/설계
고객 성공사례

증권사 AI 가상 상담 서비스 개발을 위한 데이터 분석/설계

✔️이런 분들에게 도움이 되는 글이에요! - 실제 사용자의 언어를 반영한 현실감 있는 대화형 AI 서비스를 개발하고 싶으신 분 - 가상 상담사 도입을 위해 어떤 기초 작업이 필요한 지 궁금하신 분 - 고객 상담 데이터의 활용 방안이 궁금하신 분 개요 * 산업 분류: 금융 * 세부 Task: 데이터 분류 및 라벨링, 답변 정의,
4 min read
타로 상담 챗봇 서비스를 위한 데이터 구축
고객 성공사례

타로 상담 챗봇 서비스를 위한 데이터 구축

✔️이런 분들에게 도움이 되는 글이에요! - 챗봇 개발 시 어떤 데이터를 먼저 구축해야 하는 지 궁금하신 분 - 챗봇 사용자의 몰입도를 높이는 방법이 궁금하신 분 - 운영/관리에 용이한 챗봇 데이터 설계 방법이 궁금하신 분 개요 * 산업 분류: 엔터테인먼트 * 세부 Task: 인텐트 설계, 발화/답변 데이터 구축, 유사 발화 구축
4 min read
검색엔진을 위한 사전 데이터 검수 및 개선
고객 성공사례

검색엔진을 위한 사전(Dictionary) 구축

✔️이런 분들에게 도움이 되는 글이에요! - 인공지능 검색 솔루션 도입을 위한 사전(Dictionary) 구축 과정이 궁금하신 분 - 검색엔진 성능을 개선하고 싶은 검색 엔지니어, 검색 기획자, 검색 개발자 - 사용자 경험을 향상시키는 검색엔진 운영 방법이 궁금하신 분 - 사내에 산재한 데이터에서 정보를 추출하고 체계화하는 방법이 궁금하신 분 개요 * 산업 분류:
4 min read
챗봇 성능 개선을 위한 데이터 구축 및 정제
고객 성공사례

챗봇 성능 개선을 위한 데이터 구축 및 정제

✔️이런 분들에게 도움이 되는 글이에요! - 운영하고 있는 챗봇 성능을 개선하는 방법이 궁금하신 분 - 챗봇에 신규 콘텐츠를 추가할 때 고려할 점에 대해 궁금하신 분 개요 * 산업 분류: 금융 * 세부 Task: 챗봇 데이터 정제 * 데이터 출처: 고객사 보유 데이터 * 작업량: Confidential * 납품 형태: xlsx(Excel) * 활용 서비스: 사내 챗봇 문제
3 min read
AI 인공지능 육아 상담 대화 데이터 구축
고객 성공사례

AI 육아 상담 서비스를 위한 대화 데이터 구축

✔️이런 분들에게 도움이 되는 글이에요! - 민감한 주제를 다루는 AI 서비스를 기획하시는 분 - 전문 지식이 필요한 도메인 데이터를 구축하시려는 분 개요 * 산업 분류: IT * 세부 Task: 대화 설계, 지식/정보 설계, 데이터 레이블링 * 데이터 출처: Confidential * 작업량: Confidential * 납품 형태: json * 활용 서비스: 보이스봇 문제 AI가 직접 육아 상담을
4 min read
성격 유형별 마케팅 문구 생성을 위한 학습 데이터 구축
고객 성공사례

성격 유형별 마케팅 문구 생성을 위한 학습 데이터 구축

✔️이런 분들에게 도움이 되는 글이에요!- AI 카피라이터 등 생성 AI를 위한 데이터를 구축하시려는 분- 톤&매너, 성향, 말투 등 감성의 영역을 데이터화하고 싶으신 분- 고객 Segmentation에 대한 새로운 아이디어가 필요하신 분 개요 * 산업 분류: 생활/문화 * 세부 Task: 대화 설계 및 고도화, 대화 생성 * 데이터 출처: 고객사 보유
5 min read
인공지능 AI 혐오표현 유도 및 어뷰징 대응 발화 패턴 데이터 구축
고객 성공사례

혐오표현 유도 및 대응 발화 패턴 데이터 구축

✔️이런 분들에게 도움이 되는 글이에요!- AI의 차별 및 혐오표현에 대해 관심이 있으신 분- AI에게 악의적인 발언을 유도하는 적대적 공격(Adversarial Attack)에 대한 연구가 궁금하신 분 개요 * 산업 분류: IT/공학 * 세부 Task: 연구, 데이터 분류 * 데이터 출처: 자체 수집 * 작업량: Confidential * 납품 형태: 연구보고서 문제 고객사는 자사 서비스
5 min read
맥락을 이해하는 페르소나 대화 데이터 구축
고객 성공사례

맥락을 이해하는 페르소나 대화 데이터 구축

✔️이런 분들에게 도움이 되는 글이에요!- 다양한 페르소나를 구사하는 대화 데이터 구축이 필요하신 분- 사용자의 몰입을 만드는 대화 데이터에 관심이 있으신 분- 대화 데이터 구축에 있어 자연스러움을 만드는 요소가 궁금하신 분  개요 * 산업 분류: IT/공학 * 세부 Task: 페르소나 설계, 멀티턴 대화 데이터 구축 * 데이터 출처: 신규 생성 * 작업량: Confidential
5 min read
SINGLEX 기반 사내 업무지원 챗봇 데이터 구축 및 모니터링
고객 성공사례

SINGLEX 기반 사내 업무지원 챗봇 데이터 구축 및 모니터링

개요 * 산업 분류: 제조 * 세부 Task: 싱글턴 대화 데이터 구축 * 데이터 출처: 고객사 보유 챗봇 데이터 * 작업량: Confidential * 활용 서비스: 챗봇 문제 사내 업무지원 챗봇 데이터 구축 및 모니터링 작업이 주 목적이었습니다. 고객사에서 직접 인텐트 및 엔티티 설계를 하여 챗봇 플랫폼에 등록해 운영하고자 하였으나, 학습 데이터량이 부족하고 엔티티가 혼재되어 있어
3 min read
MRC 학습을 위한 지문기반 QA 문장 구축
고객 성공사례

MRC 학습을 위한 지문기반 QA 문장 구축

개요 * 산업 분류: IT/공학 * 세부 Task: 멀티턴 대화 데이터 구축 * 데이터 출처: 위키피디아 * 작업량: Confidential * 납품 형태: xlsx(Excel) * 활용 서비스: Confidential 문제 페르소나를 가진 AI 어시스턴트와의 지식 정보 중심의 Q&A 데이터를 필요로 했습니다. 이 데이터는 다수의 도메인으로 양질의 데이터를 구축해 MRC 엔진의 학습 효과를 높인다는 목표가
3 min read
개인정보 탐지 및 마스킹 모델 개발을 위한 학습데이터 구축
고객 성공사례

개인정보 탐지 및 마스킹 모델 개발을 위한 학습데이터 구축

개요 * 산업 분류: IT/공학 * 세부 Task: 데이터 레이블링(Labeled Corpus) * 데이터 출처: 고객사 제공 원문 * 작업량: Confidential * 납품 형태: xlsx(Excel) * 활용 서비스: Confidential 문제 다양한 종류의 개인정보를 탐지하고 이를 마스킹하기 위한 모델 개발이 목표인 프로젝트였습니다. 개인정보에도 종류가 많은데 무엇을, 어떤 조건일 때 개인정보로 탐지할 것인지 확인하는 과정이 필수적이었습니다.
2 min read
생산성 향상을 위한 업무 지원 챗봇 데이터 구축 및 사용성 개선
고객 성공사례

생산성 향상을 위한 업무 지원 챗봇 데이터 구축 및 사용성 개선

개요 * 산업 분류: 물류 * 세부 Task: 지식/정보 설계, 싱글턴 대화 데이터 구축 * 데이터 출처: 고객사 제공 사내 문서 * 작업량: Confidential * 납품 형태: xlsx(Excel) * 활용 서비스: 챗봇 문제 * 직원들의 비즈니스 및 IT 관련 문의를 해결해주는 챗봇을 위한 데이터 구축 프로젝트였습니다. 사내 매뉴얼 및 업무 관련 정보를 쉽게 확인할 수
3 min read
공황장애 진단 챗봇 개발을 위한 데이터 구축
고객 성공사례

공황장애 진단 챗봇 개발을 위한 데이터 구축

개요 * 산업 분류: IT/공학 * 세부 Task: 지식/정보 설계 * 데이터 출처: 관련 논문 및 전문 자료 * 작업량: Confidential * 납품 형태: xlsx(Excel) * 활용 서비스: 챗봇 문제 공황장애의 주요 증상 중 하나인 공황발작에 대한 데이터 구축 프로젝트로, 사용자가 증상이나 상황을 입력했을 때 공황장애에 해당하는 증상인지를 판별하고 진단을 내리는 챗봇을 만들기
3 min read
Virtual Human을 위한 챗봇 대화 데이터 가공
고객 성공사례

Virtual Human을 위한 챗봇 대화 데이터 가공

개요 * 산업 분류: 서비스 * 세부 Task: 싱글턴 대화 데이터 구축 * 데이터 출처: 신규 생성 * 작업량: Confidential * 납품 형태: xlsx(Excel) * 활용 서비스: 버츄얼 휴먼 문제 Virtual Human인 '노아'. '노아'를 데뷔 시키기 전, 사용자와의 친밀도를 쌓아나갈 수 있도록 고객사에서는 챗봇 서비스를 제공하고자 했습니다. 특히 이 챗봇
2 min read
RASA 기반 사내 업무지원 챗봇 학습 데이터셋 구축
고객 성공사례

RASA 기반 사내 업무지원 챗봇 학습 데이터셋 구축

개요 * 산업 분류: 공공기관 * 세부 Task: 싱글턴 대화 데이터 구축 * 데이터 출처: 고객사 제공 사내 매뉴얼 * 작업량: Confidential * 납품 형태: xlsx(Excel) * 활용 서비스: 챗봇 문제 RASA 엔진을 활용하여 사내 업무지원 챗봇 개발을 연구하는 프로젝트였습니다. 해당 챗봇에 들어갈 인텐트/엔티티 설계 및 학습 데이터셋을 구축하는 것이 목표였습니다. 업무지원을 위한 매뉴얼
3 min read
인공지능 의료 서비스 제공을 위한 페르소나 대화 설계
고객 성공사례

인공지능 의료 서비스 제공을 위한 페르소나 대화 설계

개요 * 산업 분류: 의료/헬스케어 * 세부 Task: 페르소나 대화 설계, 멀티턴 대화 데이터 구축, 데이터 레이블링 * 데이터 출처: 고객사 제공 문서 * 작업량: Confidential * 납품 형태: xlsx(Excel) * 활용 서비스: 디지털 휴먼 문제 문서 내 정보를 기반으로 소통하는 Digital Human을 만드는 것이 목표인 프로젝트였습니다. 인공지능 의료 서비스 제공을 목적으로 의료인을 포함한
3 min read
사내 HR 관련 문의 대응을 위한 챗봇 대화 데이터 가공
고객 성공사례

사내 HR 관련 문의 대응을 위한 챗봇 대화 데이터 가공

개요 * 산업 분류: 서비스 * 세부 Task: 지식/정보 설계, 멀티턴 대화 데이터 구축 * 데이터 출처: 고객사 제공 사내 문서 * 작업량: Confidential * 납품 형태: xlsx(Excel) * 활용 서비스: 챗봇 문제 직원들의 HR 관련 문의를 담당하는 챗봇을 구축하는 프로젝트였습니다. 고객사가 제시한 400여 가지의 대화 의도(인텐트)를 기반으로 인텐트 추출과 분류, 대화
3 min read