2024.11.28 (목)

스타트업

무하유, '2024년 초거대 AI 데이터 구축사업' 주관기업 선정



자연어를 이해하는 실용 AI 기술 기업 무하유가 과학기술정보통신부가 주관하고, 한국지능정보사회진흥원이 추진하는 '2024년 초거대 AI 데이터 구축사업'의 주관기업으로 선정됐다고 7일 밝혔다.


무하유는 해당 사업 내 교육 영역의 '학술논문 이해 데이터' 구축을 담당한다. 일반인들도 학술 논문을 쉽고 빠르게 이해할 수 있도록 CC-BY 라이선스[1] 형태의 학술 논문 1만 건에 대한 포스터 생성을 돕는다.


포스터 생성을 위한 논문 요약, 핵심 표·그림 선정, 표·그림에 대한 설명문 작성 등을 지원하는 학습 데이터를 구축하고, AI 모델을 개발할 예정이다. 데이터 수집부터 모델링까지 AI 모델 제작을 위한 전 과정을 도맡는다. 이를 통해 수작업으로 진행할 경우 많은 시간이 소모되는 학술논문 포스터 제작을 자동화한다는 목표다. 학술 논문 전문 중 포스터에 활용될 영역을 매핑하는 데이터를 라벨링 하는 게 핵심이며, 라벨링 과정에는 국내 연구기관출신의 석·박사급 인재를 고용해 정확도를 높일 계획이다.


무하유는 지난 13년간 AI 기반 학술논문 전문 표절검사 서비스 '카피킬러'를 운영하며 축적한 자연어 이해(NLU) 전문성 및 학술 논문 내용에 대한 높은 이해도를 바탕으로 안정적으로 데이터를 구축해 왔다.


특히 텍스트 처리 노하우는 물론, 이미지·오디오·영상 등 다양한 형태의 데이터를 분석하고 동시 처리할 수 있는 '멀티모달' 기술력이 높게 평가됐다. 단순히 논문의 텍스트를 요약하는데 그치지 않고, 논문 내 이미지들과 텍스트 내용 간의 유기적인 상관관계를 데이터로 옮겨야 하기 때문이다. 무하유는 AI 면접 평가 서비스 '몬스터'를 개발 및 운영하며 이미지·영상·음성 등 복잡한 데이터를 분석하고 평가하는 노하우를 쌓아왔다.


데이터셋 구축 전문 플랫폼 ‘데이터 팩토리’를 운영하며 고품질의 학습 데이터셋을 구축해 오고 있다. 실제 AI 기술을 토대로 한 다양한 서비스를 운영해 왔기 때문에 데이터 확보를 위해 외주 업체를 활용하지 않고도 고품질 학습 데이터를 꾸준히 쌓으며 기술을 고도화하고 있다. 대량으로 생성해야 하는 데이터는 AI가 담당하고, 생성된 데이터의 품질을 높이는 건 사람이 담당하는 방식을 적용해 시간을 단축하고 학습 데이터의 품질을 보장한다.


한편, 이번 사업에는 품질관리 전문기업 더테스트가 참여해 구축 데이터의 품질을 보증할 예정이다. 주관기관이 구축 과정에서 자체 검증한 데이터를 교차 검증해 데이터 품질을 제고한다.


무하유의 신동호 대표는 "무하유는 AI 기반의 논문표절 검사, 서류 분석, 비대면 면접 등 다양한 서비스를 자체 개발해 운영하고 있으며, 이를 위한 AI 모델 개발 관련 석박사급 인력을 다수 보유하고 있어 분야 전문성이 우수하다"며, "자체 보유한 데이터 팩토리를 통해 신뢰할 수 있는 고품질 데이터를 대량 구축할 수 있어 공공부문에서의 구축 사례가 늘고 있다"라고 설명했다.

관련기사