LLM - TEXTNET 블로그

Sign in Subscribe

LLM

A collection of 11 posts

에듀테크 서비스 LLM 개발을 위한 대화 데이터 구축

에듀테크 서비스 LLM 개발을 위한 대화 데이터 구축

✔️이런 분들에게 도움이 되는 글이에요! - 에듀테크 산업에 LLM 도입하고 싶으신 분 - 사용자에 최적화된 대화 시나리오 구축 방법이 궁금하신 분 - 불용어 데이터 관리에 대해 궁금하신 분 개요 * 산업 분류: 에듀테크 * 세부 Task: 대화 시나리오 설계, 페르소나 설계, 불용어 사전 구축 * 데이터 출처: TEXTNET 보유 데이터 및 신규 생성,

AI 모델 학습을 위한 TA 학습데이터 구축

AI 모델 학습을 위한 TA 학습데이터 구축

✔️이런 분들에게 도움이 되는 글이에요! - STT 데이터 구축 방법이 궁금하신 분 - 데이터 생산성 효율화 과정이 궁금하신 분 - 상황별, 페르소나별 데이터를 구축하고 싶으신 분 개요 * 산업 분류: IT/통신 * 세부 Task: 데이터 요약, 데이터 레이블링, 멀티턴 대화 데이터 구축 * 데이터 출처: TEXTNET 보유 데이터 및 신규 생성 * 작업량:

LLM 도입을 위한 데이터 정제 및 학습 데이터 구축

LLM 도입을 위한 데이터 정제 및 학습 데이터 구축

✔️이런 분들에게 도움이 되는 글이에요! - LLM에 맞는 데이터 구조화 방법이 궁금하신 분 - 다양한 형태의 자료를 텍스트 데이터로 변환하여 활용하고 싶으신 분 - 난도 높은 도메인 데이터를 다룰 때 주의해야 할 점이 궁금하신 분 개요 * 산업 분류: 금융 * 세부 Task: 비정형 데이터의 정형화, 데이터 정제, MRC QA 데이터셋 구축,

RAG 대응 사실 기반 QA 데이터 구축

RAG 대응 사실 기반 QA 데이터 구축

✔️이런 분들에게 도움이 되는 글이에요! - LLM을 위한 QA 데이터 구축 시 주의해야 할 점에 대해 궁금하신 분 - 데이터 소스가 부족할 때 해결할 수 있는 방법이 궁금하신 분 - 데이터 퀄리티를 높이는 프로젝트 운영 방법이 궁금하신 분 개요 * 산업 분류: IT/통신 * 세부 Task: MRC QA 데이터셋 구축 * 데이터

LLM 성능 평가 및 테스트 데이터 구축

LLM 성능 평가 및 테스트 데이터 구축

✔️이런 분들에게 도움이 되는 글이에요! - 한국어 기반 LLM의 성능 평가 방법이 궁금하신 분 - 학습 데이터셋이 아닌 벤치마크 데이터셋을 구축할 때의 유의점이 궁금하신 분 - 기존 벤치마크 데이터셋의 한계점을 보완하고 싶으신 분 개요 * 산업 분류: IT/통신 * 세부 Task: 벤치마크 데이터셋 구축, 데이터 레이블링 * 데이터 출처: 공개 데이터를 바탕으로

LLM 기반 대화형 AI 사용성 평가

LLM 기반 대화형 AI 사용성 평가

✔️이런 분들에게 도움이 되는 글이에요! - 벤치마크 중심의 LLM 성능 평가가 아닌 실제 사용자 관점의 LLM 사용성 평가에 대해 궁금하신 분 - LLM 사용성 평가 진행 시 일관성 유지 방법이 궁금하신 분 - LLM 평가를 진행할 때 어떤 부분을 고려해야 하는 지 궁금하신 분 개요 * 산업 분류: IT/통신 * 세부

LLM-RAG 기반 디지털 휴먼을 위한 데이터셋 구축

LLM-RAG 기반 디지털 휴먼을 위한 데이터셋 구축

✔️이런 분들에게 도움이 되는 글이에요! - 원시 데이터의 효율적인 전처리 및 정제 방법이 궁금하신 분 - LLM-RAG 기반 생성 데이터의 할루시네이션을 해결하고 싶으신 분 - 실존 인물을 디지털 휴먼으로 구현할 때 주의할 점이 궁금하신 분 개요 * 산업 분류: 공공·교육 * 세부 Task: 데이터 전처리, MRC QA 데이터셋 구축, 데이터 레이블링(

LLM 추론 능력 향상을 위한 학습 데이터 구축

고객 성공사례

LLM 추론 능력 향상을 위한 학습 데이터 구축

✔️이런 분들에게 도움이 되는 글이에요! - LLM의 추론 능력을 향상시키는 방법이 궁금하신 분 - LLM의 작동 원리에 맞는 데이터 설계 방법이 궁금하신 분 - 고난도 데이터 구축 시 작업 효율화 방법이 궁금하신 분 개요 * 산업 분류: IT * 세부 Task: 지식/정보 설계, 대화 데이터 구축, 데이터 레이블링 * 데이터 출처: 고객사

ChatGPT 프롬프트 작성 및 테스트

고객 성공사례

ChatGPT 프롬프트 작성 및 테스트

✔️이런 분들에게 도움이 되는 글이에요! - Prompt Engineering(프롬프트 엔지니어링)에 관심이 있는 분 - ChatGPT의 한국어 성능과 한국어 프롬프트 설계에 대해 궁금하신 분 - ChatGPT의 Hallucination(할루시네이션) 등 오류를 방지하는 방법이 궁금하신 분 개요 * 세부 Task: 프롬프트 작성 및 테스트 * 데이터 출처: 신규 생성 * 활용 서비스: 내부 프로젝트 문제

초거대 AI를 위한 문장 생성 및 요약 데이터셋 구축

고객 성공사례

초거대 AI를 위한 문장 생성 및 요약 데이터셋 구축

개요 * 산업 분류: IT/공학 * 세부 Task: 추출 및 생성 요약 데이터셋 구축, 데이터 레이블링(Labeled corpus) * 데이터 출처: 고객사 보유 상담 대화 데이터 * 작업량: Confidential * 납품 형태: xlsx(Excel) 문제 * 기계처럼 똑같은 대답을 하지 않고, 매번 사람처럼 다른 대답을 할 수 있는 AI 서비스 상용화에 가까운 기술을 구현하는 것이

초거대 AI의 추론 능력 향상을 위한 한국어 학습데이터 구축

고객 성공사례

초거대 AI의 추론 능력 향상을 위한 한국어 학습 데이터 구축

✔️이런 분들에게 도움이 되는 글이에요! - 스스로 학습하고 추론하는 초거대 AI에 필요한 데이터의 특성이 궁금하신 분 - 한국어 특성을 반영한 데이터 구축을 원하시는 분 개요 * 산업 분류: IT/공학 * 세부 Task: 데이터 레이블링(Labeled corpus), 문장 생성 * 데이터 출처: 개방 공공데이터 * 작업량: 데이터셋 8,000개 * 납품 형태: xlsx(Excel) * 활용