데이터 라벨링 알바가 3년차 경력직이 되기까지

데이터 라벨링 알바가 3년차 경력직이 되기까지
Image by freepik

*이 글은 TEXTNET 소속 데이터 구축 작업자 ‘크루’의 시점에서 작성한 가상의 콘텐츠입니다.

저는 현재 3년차 직장인입니다. 지금 다니고 있는 회사는 TEXTNET이라는 곳이에요. 이곳에 입사하기 전의 저는 ‘섞어찌개’ 같은 이력서를 가지고 있었어요. ‘국어’와 ‘교육’이라는 저의 전공을 살릴 수 있는 직장이 너무 적어 공부한 것과는 전혀 다른 일들을 전전해야 했죠.

전공과 관련이 적은 일을 하다 보니 이것저것 잡무를 도맡아 했고, 그러는 동안 제 커리어는 제자리걸음을 반복했어요. 시간은 가고 나이는 먹는데, 명확한 비전 없이 시키는 일에 떠밀리다 보니 포트폴리오가 점점 잡다한 경력들로 가득찼죠.

그 사람이 바로 나예요… (출처: https://www.jobkorea.co.kr/goodjob/tip/view?News_No=15650)

결국은 업무와 적성의 괴리를 이기지 못하고 ‘먹고 살기 위해 하던 일’을 그만뒀습니다. 속이야 시원했지만 덜컥 앞날이 걱정됐어요. 참새가 방앗간 찾듯 취업포털을 돌아다니며 저의 전공과 언어적 능력을 쓸 수 있는 일들을 찾아다녔죠. 그렇게 저의 프리랜서(라고 쓰고 알바라고 읽는) 생활이 시작되었습니다.

하지만 눈에 띄는 회사들이 제시하는 업무들은 제 전공, 가지고 있는 자격증과도 일치하지 않았고 어렵게 맞는 회사를 찾아도 정해진 기간 동안 어떤 업무를 해야 하는지 제대로 명시되어있지 않은 경우가 많았어요. 일을 하고도 업무에 대한 보상을 제대로 지급받지 못한다거나 하는 일도 더러 있었습니다. 당연히 포트폴리오에 남기기도 애매한 이력들이었어요. 프리랜서가 되면 마음 편하게 일할 수 있을 줄 알았는데, 하면 할 수록 지쳐갈 뿐이었습니다. 데이터 라벨링 알바라는 걸 발견하고 교육도 듣고 몇 번 작업도 해봤지만 말 그대로 알바, 부업 수준이었고 안정적인 수입원이 되지는 못했어요.

그 때, TEXTNET에서 단기 프리랜서로 일할 ‘언어 전문가’를 모집한다는 공고를 보게 되었어요. 배운 것을 쓰고 싶다는 열망에 목말라있던 저에게는 정말 가뭄에 단비 같은 소식이었어요. 기간이 짧더라도 제가 가진 지식과 능력을 쓸 수 있는 곳이라는 게 중요했어요.

TEXTNET에서는 어떤 데이터 라벨링을 하나요?

TEXTNET에서 맡게 된 업무는 AI 데이터를 생산하는 일이에요. 조금 가볍게 이야기하자면 ‘디지털 인형 눈알 붙이기’라고도 하는데, 여기서의 업무는 이전에 경험했던 데이터 라벨링과는 조금 다르더라고요.

인공지능 데이터에도 여러 가지가 있는데, TEXTNET은 이 데이터를 크게 세 가지로 나누어요.

  • AI를 가르치는 용도의 학습 데이터
  • AI의 성능을 평가하는 평가 데이터
  • AI가 사람과 직접 대화할 때 이용하게 되는 서비스 데이터

데이터 형태로 따지자면 이미지 데이터와 텍스트 데이터로 나눌 수 있는데요. TEXTNET은 그 중에서도 일명 ‘박스치기’라고 불리는 이미지 데이터가 아니라 AI 챗봇의 학습데이터, UX라이팅 데이터, 카피라이팅 데이터 등 ‘한국어 텍스트 데이터’를 전문적으로 만드는 회사예요.

‘텍스트’, 게다가 ‘한국어’라니…! 저는 “이 회사가 나를 찾는다”는 생각이 들었어요. 일하는 도중 조금씩 소설을 써서 연재해본 적도 있고, 연극 대본 외주를 받아본 적도 있었어요. 맞춤법 교정, 교열부터 대화를 만들어내는 것, 글을 요약하고 변형하는 모든 것에 자신이 있었어요. 좋아하는 일을 하면서 돈을 벌 수 있다니, 그 때부터 두근거리기 시작했어요. 흥미를 갖고 TEXTNET 홈페이지에 공개되어 있는 데이터, 연구 자료를 찾아봤어요.

궁금증에 접속해 본 TEXTNET 홈페이지

TEXTNET 데이터 라벨링, 업무 형태는 어떤가요?

제가 본 공고는 TEXTNET의 전속 단기 프리랜서인 ‘크루’가 되면 최소 2주에서 최대 2개월까지 재택근무 형태로 안정적으로 일할 수 있고, 이후에도 같은 회사의 다른 프로젝트가 있을 경우 계속 일할 수 있다는 공고였어요.

출퇴근 형태의 프리랜서 업무를 할 때면 경기도 북부 외곽에 사는 제가 강남 또는 판교에 있는 회사까지 멀리, 매일 출퇴근을 해야 했는데 이런 업무 형태에 상당히 큰 체력적 부담을 느끼던 저에게는 정말 매력적인 조건이었어요.

해당 기업에서 일했던 경력이 없더라도, 테스트만 통과하면 바로 프로젝트를 수행할 수 있다는 것도 장점이었어요. 내 능력과 맞지 않는 프로젝트를 배정 받아서 하는 것 보다는, 테스트를 통해서 나랑 딱 맞는 프로젝트를 만나니 작업 효율도 높아지더라고요.

데이터 라벨링 테스트는 뭔가요?

전문성 유지를 위해 매 프로젝트마다 프로젝트에 적합한 능력을 가지고 있는지 테스트를 보아야 한다는 것은 부담으로 다가올 수 있었지만, 저는 저의 능력에 대해 의심해본 적은 없었어요. 오히려 테스트를 통과한 크루 동료들과 일할 수 있으니 다른 크루들의 퍼포먼스로 인해 저의 업무가 흔들리지 않는다는 게 장점이었어요.

저는 4~5개의 프로젝트에 참여했고 그 때마다 테스트를 봤어요. 그런데 같은 회사에서 테스트를 여러 번 보다 보면 문제가 눈에도 익게 되고, 기억하는 문제도 나와서 풀기가 좀 수월해야 하는데, 분명 같은 PM이 진행하는 비슷해 보이는 성격의 프로젝트인데 매번 테스트 문항이 다르더라고요. 매 테스트마다 머리를 쥐어 짜야 했어요.

그 사람이 바로 나예요… Ver.2... (출처: 출처- https://m.blog.naver.com/azzi_01/221517907874)

나중에 물어보니, 기본적인 독해력이나 문제해결력을 테스트하는 용도의 문항은 DB로 만들어 놓고 활용하고 있지만, 프로젝트 목적이나 요구 수준에 맞게 기존 문항을 변형하거나 테스트 문항을 새로 만들어 추가한다고 하더라고요.

자연스럽게 문장을 변형해야 하는 패러프라이징 작업에는 문장을 형태소 단위로 나누어 변형해보는 문항을, 빠른 독해와 요약 능력이 필요한 작업에는 문장/문단/글 단위를 독해하고 요약하는 문항을 배치하는 식으로요. 아무래도 국어/언어를 전공한 PM님들이 많고, 그래서인지 한국어에 ‘진심’이시더라고요.

만점을 예상하면서 자신만만하게 테스트에 응시했는데 채점 결과가 형태소 단위로 하나하나 분리되어 해설과 함께 돌아왔을 때 얼마나 얼굴이 화끈거렸는지…! 해설을 보는 순간 ‘나 좀 잘 하네?’싶었던 오만한 자아를 되돌아 보게 되었습니다. 그 후에 찾아오는 겸손은 덤이었죠.

“테스트에 이렇게 까지 할 필요가 있나?” 싶으면서도 다른 채용 경로 없이 오직 테스트와 실력 중심으로 채용한다는 점에서 ‘단기 프리랜서 뽑는 데도 이렇게 공들이는 곳이라면, 이 회사에 데이터를 맡기는 클라이언트는 데이터 퀄리티 걱정은 안 하겠지…’라는 생각을 언뜻 했답니다.

데이터 라벨링 업무 의사소통과 작업은 어떻게 하나요?

테스트는 쉽지 않았지만, 테스트를 통과한 후 프로젝트 투입이 확정되고 나니 업무 소통이 빠르고 편안하게 이루어졌어요. 담당 PM님이 전화로 작업에 필요한 환경이나 도구에 대해 알려주셨고, 저의 전공이나 데이터 관련 업무 경험, 배경 지식 등을 물어보고 제가 편하고 빠르게, 효율적으로 작업할 수 있는 내용의 데이터를 배정해 주셨거든요.

잘 모르는 데이터를 받고 그걸 이해하려고 애쓸 필요도, 저와는 맞지 않는 프로젝트 성격에 고통 받으며 작업하는 일도 없었어요. 작업 기간 동안 여러 가지 문의를 드리기도 했는데, 그 때마다 빠르게 답변해 주셨고요. 그날의 데이터 구축 작업이 끝나면, 어제 작업 분의 검수 결과를 보고 데이터를 수정하는 식으로 업무가 진행됐어요. 검수 과정에서는 수정해야 되는 이유를 충분히 설명해 주시기 때문에 빠르게 옳은 답변으로 수정하고 넘어갈 수 있었어요. 가이드도 자세하고 촘촘하게 되어 있어서, 초반에 적응하고 나면 훨씬 더 빠르게 많은 작업을 할 수 있었어요.

TEXTNET의 경우는 프리랜서지만 직장인 같은 루틴으로 일할 수 있다는 것이 큰 장점이었어요. 물론 건수 단위로 운영되는 프로젝트처럼 내가 하고 싶을 때만 일을 하거나, 내가 원하는 만큼 작업량을 선택해서 진행할 수는 없지만 PM님과 협의 하에 정해진 시간 동안 작업할 수 있었거든요. 한 건의 데이터를 완성하고 검수 받아서 포인트를 쌓고 그걸 모아서 교환하는 방식이 아니라 프로젝트 초반에 협의한 보수를 매월 말 받는 식이어서 개인적인 수입/비용 관리 측면에서도 안정적이었어요. PM님께서 저의 업무 스케쥴을 알고 계시다보니 프로젝트 중, 종료 후 제대로 쉬는 기간을 보장해주셨고, 보통 프리랜서가 받을 수 없는 부분에 대해서도 배려해 주시는 게 느껴졌어요.

그런데…?

TEXTNET에서의 첫 프로젝트를 끝내고 조금 쉬는 기간을 보내고 나니, 이전에 일했던 PM님에게서 테스트 참여 문자가 왔어요. 그렇게 3개에서 4개 가량의 프로젝트를 연속으로 함께 진행하게 됐죠. 작업 패턴이나 스타일을 알게 되니 속도도 빨라지고, TEXTNET의 여러 PM님들과 손발을 맞추다 보니 나름의 노하우가 생겨서 조금 더 난도가 있는 작업에도 참여할 수 있었어요. TEXTNET의 전속 프리랜서(!) 생활이 1년 가량이 지났을 무렵, 담당 PM님이 넌지시 이야기하시더라고요.

"혹시…취업 생각은 없으세요?”

많이 고민했습니다. 프리랜서에서 벗어나 직장을 가지게 되면 편히 쉬기가 어려울 것 같았고, 프리랜서 생활이 너무 길었기 때문에 회사에 잘 적응할 수 있을까 하는 걱정도 들었어요. 그리고 약간의 불신도 있었어요. ‘나한테 직장과 월급을 준다고? 이 회사 괜찮은가…?’ 고민 끝에 TEXTNET 입사를 선택했고, 위에서 했던 저 걱정이 정말 바보같은 생각이었다는 걸 알게 됐어요. 열심히 일해도 남의 일일 뿐이었던 프리랜서 시절을 지나, 이제 프로젝트 담당 PM이라는 저의 이름이 들어가고 차곡차곡 포트폴리오가 쌓였습니다.

물론 어려움도 없지는 않았어요. 저의 주요 키워드는 ‘국어’와 ‘교육’, ‘언어’였는데 업무를 수행 하다보니 AI 기술과 시장 현황에 대한 이해도 상당히 필요했거든요. 빠르게 발전하는 AI 기술에 알맞는 데이터를 구축하는 게 TEXTNET의 역할이니까요. 단순 데이터 라벨링 작업 외에도 챗봇 기획, 대화형 AI 시나리오 설계, 프롬프트 엔지니어링, 언어 모델 평가, 모델에 맞는 학습 데이터 만들기 등등 생각하지 못했던 정말 많은 일들이 있더라고요. 지금까지의 제 식견이 정말 좁고 작았다는 걸 알게 됐어요. 입사 후 AI 전반에 대해서 많이 배울 수 있었고, 그걸 토대로 앞으로 TEXTNET에서 나의 전문성을 어떻게 키워갈 것인지 진지하게 고민하기 시작했습니다. 본인의 의지만 있다면 업무 간 경계 없이 전환할 수 있는 기회도 있어서 좀 더 자유롭게 미래를 그려볼 수 있었어요.

아직 갈 길이 먼 3년차 PM

앞선 내용은 크루의 입장에서 제가 창작한 내용이지만, 2023년은 제가 입사한 지 진짜 3주년이 되는 해였습니다. 이렇게 이야기하면 주변 사람들의 반응은 대개 한 방향으로 정리됩니다.

"오래 있었네"
"이직할 때 되지 않았니?"

하지만 저는 아직 할 일이 많습니다. 보아야 하는 것, 알아야 하는 것 천지입니다. 사실 모두 그렇잖아요? 어떤 일들은 한번 보고 겪은 걸로는 다 알지 못할 것들이라 두 번 세 번 보고 익히고 직접 해 보아야 내 지식이 되는 것들이 있습니다. 아직 제 것이 되지 못한 지식들이 아직 많이 남아있다는 점에서 저는 ‘당분간은 이직 생각 없어’라고 대답하곤 해요. 실제로도 그렇고요.

아직 할 일이 많은, 알아야 할 것도 많은 젊은 회사, 2~30대 또래의 젊은 동료들이 함께하고 있습니다. 크루로 지원하시는 분들께, 또 입사에 대해 생각하시는 예비 PM님들께 이 글이 도움이 되었으면 해요.

✏️
Editor │ 데이터사업팀 박항아 PM
작년의 목표는 "GPT 이기기", 올해의 목표는 "패배를 받아들이고 좋은 데이터에 대한 고민이나 하기"인 조금 낡고 병든 회사원입니다.

TEXTNET 소개

지금의 딥러닝을 있게 한 AI Guru 제프리 힌튼의 데이터셋 'ImageNet'에 어원을 둔 TEXTNET은 (주)스피링크가 운영하는 AI/챗봇을 위한 텍스트 데이터 설계 및 구축 서비스입니다.

TEXTNET은 언어학, 심리학, 전산언어학 석·박사를 포함한 전문 인력으로 구성된 언어전문가 그룹으로서, 고객사의 니즈에 부합하는 텍스트 데이터를 설계·가공·구축하고 내부 R&D를 통해 설계 방식을 지속적으로 개선하여 최적의 데이터 설계 방법을 제안합니다. 프로젝트 목적에 따라 적합한 숙련 작업자를 선별하여 투입하고, 체계적이고 효율적으로 고품질의 학습데이터를 생산합니다.

TEXTNET은 삼성, LG, KT, SK 등 유수 대기업의 데이터 구축 파트너로 함께하며 금융, 마케팅, 콘텐츠, 메타버스, 서비스 기획, CS 등 다양한 도메인을 다루고 있습니다.