아마존웹서비스(AWS) 소속 김성연(32) 박사가 인공지능(AI) 검색의 구조적 한계를 극복하고 텍스트, 이미지, 영상을 통합적으로 처리하는 차세대 멀티모달 검색 기술을 개발했다.
지난해 열린 컴퓨터 비전 분야 세계 최고 권위 학회인 ‘CVPR 2025’에서 김 박사는 제1저자로 참여한 논문 ‘GENIUS: A Generative Framework for Universal Multimodal Search’를 통해 기존 AI 검색 구조의 전환을 제안했다.
김 박사가 제안한 GENIUS는 기존의 검색 방식과는 궤를 달리한다. 수백만 개의 데이터를 질문과 일일이 비교하는 기존 방식과 달리, GENIUS는 데이터의 의미를 압축 코드로 변환한 뒤 질문에 적합한 코드를 직접 생성해 답을 찾는 ‘생성 기반 검색’ 구조를 채택했다.
이는 마치 도서관에서 수천 권의 책을 하나씩 확인하는 대신, 정답이 있는 선반의 번호를 즉시 계산해내는 것과 같은 원리다. 이러한 구조 덕분에 데이터 규모가 방대해져도 검색 속도가 일정하게 유지되며, 텍스트와 이미지가 결합된 복합 질의를 단일 시스템 내에서 효율적으로 처리할 수 있다.
GENIUS는 다양한 멀티모달 검색 벤치마크에서 기존 기술보다 높은 성능을 기록했으며, 아마존 사이언스(Amazon Science)는 공식 블로그를 통해 이 연구의 효율성을 높게 평가하기도 했다.
김 박사는 영상 검색의 고도화 문제에도 집중했다. 영상은 시각 정보 외에도 대화, 효과음, 배경음악 등 다양한 청각 정보를 포함하고 있어 이를 효율적으로 결합하는 것이 검색의 핵심이다.
김 박사가 공동저자로 참여한 ‘AVIGATE’ 논문은 게이트 어텐션(Gated Attention) 메커니즘을 도입해 검색에 실질적인 도움이 되는 음성 신호만을 선별적으로 반영하는 기술을 선보였다.
소음을 걸러내고 유의미한 정보만을 결합하는 이 방식은 영상-텍스트 검색 분야에서 높은 성능을 기록하며, CVPR 2025에서 ‘구두 발표(Oral)’ 논문으로 선정된 바 있다. CVPR 학회는 채택률 약 3% 수준으로 구두발표 논문을 선정한다.
글로벌 검색 시장은 텍스트 중심에서 시각과 음성이 결합된 멀티모달 방식으로 빠르게 재편되고 있다. 구글 렌즈(Google Lens)는 2025년 한 해 시각 검색 1000억 건을 돌파했으며, 구글은 멀티모달 검색 기능을 전 세계 200개국 이상으로 확대 적용했다.
시장조사기관 프레시던스 리서치는 멀티모달 AI 시장이 2025년 25억 달러에서 2034년 424억 달러 규모로 연평균 37%의 고성장을 기록할 것으로 내다봤다. 가트너 역시 2030년까지 기업용 소프트웨어의 80%가 멀티모달 방식으로 전환될 것으로 예측한다.
김 박사는 “AI가 인간이 요구하는 복잡한 업무를 수행하려면 텍스트뿐 아니라 이미지와 영상, 음성까지 모든 형태의 데이터에서 지식을 쌓아갈 수 있어야 한다”며 “멀티모달 검색은 그것을 가능하게 하는 핵심 도구가 될 것”이라고 말했다.