검색엔진을 위한 사전(Dictionary) 구축

검색엔진을 위한 사전 데이터 검수 및 개선
✔️
이런 분들에게 도움이 되는 글이에요!
- 인공지능 검색 솔루션 도입을 위한 사전(Dictionary) 구축 과정이 궁금하신 분
- 검색엔진 성능을 개선하고 싶은 검색 엔지니어, 검색 기획자, 검색 개발자
- 사용자 경험을 향상시키는 검색엔진 운영 방법이 궁금하신 분
- 사내에 산재한 데이터에서 정보를 추출하고 체계화하는 방법이 궁금하신 분

개요

  • 산업 분류: 금융
  • 세부 Task: 텍스트 분석 결과 검수 및 교정, 검색 품질 개선을 위한 키워드 데이터 구축
  • 데이터 출처: 고객사 보유 데이터
  • 작업량: Confidential
  • 납품 형태: xlsx(Excel)
  • 활용 서비스: 업무용 검색엔진

문제

증권사 임직원의 업무 효율화를 위한 검색엔진 도입에 앞서 고객사 내부의 업무 관련 용어를 사전으로 구축하는 것이 목표였습니다. 형태소 분석기를 이용하여 업무 데이터에서 키워드를 추출하고 해당 키워드를 검토한 후 품사를 구분하여 등록했습니다.

해결 방안

  • 사용자의 검색 양상을 고려한 데이터 구분
    검색엔진을 사용할 때 사용자가 단어의 일부를 생략하는 패턴을 발견, 단어를 쪼개어 등록함으로써 일부만 입력해도 사용자가 원하는 결과를 얻을 수 있도록 했습니다. 또한 한국어 사용자들이 자주 틀리거나, 맞춤법 또는 외래어 표기법 오류를 공식 명칭에 적용하는 현상 등을 고려하여 틀린 단어들도 함께 등록함으로써 분석 정확도를 높였습니다.

  • 형태소 분석 결과 검수
    업무 데이터를 형태소 단위로 분석한 결과를 검수하고 조정하였습니다. 일반적인 형태소 구분 원리에 따라 단어를 구분할 경우 오류가 발생하는 지점을 발견하였으며, 이를 개선하기 위해 단어의 결합을 고려한 원칙을 수립하여 데이터를 수정했습니다.

프로젝트 결과

  • 사용자의 검색어 입력 양상을 고려한 키워드 데이터 구축
  • 커버리지가 넓은 검색엔진 구현을 위한 단어 사전 제작
  • 인공지능 기반 검색 엔진의 사용자 경험 개선

이 프로젝트의 데이터 기획은 아래 Project Manager가 담당했습니다.
김명신


TEXTNET 소개

지금의 딥러닝을 있게 한 AI Guru 제프리 힌튼의 데이터셋 'ImageNet'에 어원을 둔 TEXTNET은 (주)스피링크가 운영하는 AI/챗봇을 위한 텍스트 데이터 설계 및 구축 서비스입니다.

TEXTNET은 언어학, 심리학, 전산언어학 석·박사를 포함한 전문 인력으로 구성된 언어전문가 그룹으로서, 고객사의 니즈에 부합하는 텍스트 데이터를 설계·가공·구축하고 내부 R&D를 통해 설계 방식을 지속적으로 개선하여 최적의 데이터 설계 방법을 제안합니다. 프로젝트 목적에 따라 적합한 숙련 작업자를 선별하여 투입하고, 체계적이고 효율적으로 고품질의 학습데이터를 생산합니다.

TEXTNET은 삼성, LG, KT, SK 등 유수 대기업의 데이터 구축 파트너로 함께하며 금융, 마케팅, 콘텐츠, 메타버스, 서비스 기획, CS 등 다양한 도메인을 다루고 있습니다.