구글이 공개한 ‘터보퀀트(TurboQuant)’를 둘러싸고 메모리 반도체 위기론이 제기되고 있다. 하지만 업계에서는 시장을 대체할 기술이 아닌 인공지능(AI) 인프라 효율을 높이는 보완 기술로 보고 되려 낙관적인 평가를 내리고 있다.
27일 업계에 따르면 구글은 지난 24일(현지시간) 구글리서치 블로그에 터보퀀트 논문을 공개했다. 메모리 사용량을 6분의 1로 줄이면서도 성능을 유지하는 것이 핵심이다. 거대언어모델(LLM)의 추론 과정에서 발생하는 메모리 병목 현상을 해결해 AI의 효율성을 극대화한다.
터보퀀트가 상용화되면 “AI 모델이 기존보다 효율성을 높이고 메모리 수요를 줄이는 구조를 만들어 낼 수 있다”(IT전문매체 테크크런치)는 진단이 나왔다. 메모리 사용량이 감소할 것이라는 우려에 미국 마이크론 테크놀로지와 한국의 삼성전자·SK하이닉스 등 관련 기업의 주가는 2거래일 연속 하락세를 나타냈다.
하지만 업계에서는 터보퀀트를 통해 AI 메모리 활용도가 높아지면서 오히려 수요 확대를 자극할 수 있다는 반박이 나오고 있다.
터보퀀트는 LLM의 ‘맥락 저장 방식’을 바꾼다. LLM은 대화를 이어가기 위해 이전 토큰 정보를 저장하는 KV캐시(Key-Value Cache)를 활용하는데, 문맥이 길어질수록 용량이 급격히 늘며 메모리 부담이 커진다. 터보퀀트는 이 KV캐시 저장 과정에서 긴 숫자를 단순화해 저장하는 방식으로 메모리 점유 공간과 데이터 이동량을 낮춘다. 다만 연산 단계에서는 이를 다시 복원해야 해 계산량 자체가 크게 줄어드는 구조는 아니다. 연산 효율보다는 저장 효율 개선에 초점이 맞춰진 기술이다.
시장에서는 메모리 사용량 감소만 부각되고 있지만, AI 시대의 병목은 저장용량이 아닌 ‘속도’에 기인한다는 게 전문가들의 지적이다. 그래픽처리장치(GPU)와 메모리 간 데이터 처리 속도를 결정하는 대역폭이 성능을 좌우한다는 의미다. 삼성전자 한 반도체 엔지니어는 “터보퀀트가 효율적인 알고리즘인 것은 맞지만, 메모리 공급 부족 문제를 근본적으로 해소할 기술로 보기는 어렵다”고 말했다.
업계에서는 오히려 메모리 수요를 자극할 가능성에 주목한다. 효율 개선으로 AI 서비스 단위 비용이 낮아지면 기업들의 인프라 투자 확대를 유도할 수 있다는 논리다. 절약된 메모리는 더 긴 문맥 처리나 복잡한 연산에 재투입될 가능성이 크다. 석탄 효율이 높아질수록 소비가 늘어나는 ‘제번스 역설’이 AI 인프라에서도 재현될 수 있다는 분석이다.
다만 글로벌 빅테크(대형 기술기업)를 중심으로 메모리 효율을 끌어올리려는 흐름은 국내 기업에 새로운 도전 요인으로 작용할 수 있다는 우려도 나온다. 이번 터보퀀트 개발은 고가 메모리 확대에만 의존하기보다, 소프트웨어와 시스템 차원에서 효율을 높이려는 시도가 본격화되고 있음을 보여주는 신호라는 점에서다.
실제 삼성전자와 SK하이닉스 등 메모리 제조사에는 기회와 위협이 교차한다는 평가가 나온다. 향후 메모리 업체들은 터보퀀트와 같은 알고리즘을 하드웨어(로직 다이) 수준에서 지원할 수 있는 ‘지능형 메모리’ 설계 역량을 확보하는 것이 필수적이라는 분석이다. 이제 메모리 기업이 단순히 ‘용량 큰 램’을 만드는 데 머물러서는 경쟁력을 유지하기 어렵다는 지적이다.
『반도체 삼국지』 저자인 권석준 성균관대 교수는 “메모리 기업이 고객사 맞춤형 설계에 대응할 수 있는, 사실상 AI 칩 회사로의 전환이 요구되는 상황”이라며 “삼성전자와 SK하이닉스가 올해 상반기 어떤 선택을 하느냐에 따라 향후 5년 경쟁력이 좌우될 가능성이 크다”고 강조했다. 이종환 상명대 시스템반도체학과 교수도 “앞으로는 메모리와 비메모리의 경계를 허무는 시도까지 이어질 수 있다”며 “기존 메모리 패권을 흔들 수 있는 기술 변화에 대비해야 한다”고 조언했다.