GPT가, 라마(LLaMA)가, 딥시크가 나와도, 왜 ‘기승전 엔비디아 그래픽처리장치(GPU)’일까. 그 많던 ‘엔비디아의 대항마’들은 다 어디로 갔을까.
" “매주 쏟아져 나오는 새로운 인공지능(AI) 모델이 반도체에서 구동하도록 최대한 빨리 지원하는 ‘민첩함’이 오늘날 혁신의 핵심입니다.” "
루이스 체제 엔비디아 AI 시스템 소프트웨어 수석 부사장은 그 이유를 이렇게 설명했다. 가장 거대한 엔비디아가 가장 민첩하게 움직이며, 강력한 소프트웨어로 그래픽처리장치(GPU) 효율성을 높이고 있다는 거다. “엔비디아에는 하드웨어보다 소프트웨어 인력이 더 많다”고, 젠슨 황 최고경영자(CEO)가 강조한 대로다.
체체 부사장은 지난 20일 서울 중구 롯데호텔에서 열린 제58회 국제마이크로아키텍처학회(MICRO) 기조연설에 나섰다. MICRO는 국제전기전자공학회(IEEE)와 미국 컴퓨터학회(ACM)가 주최하는 컴퓨터 아키텍처 분야 세계 3대 학회로, 한국 개최는 처음이다.
아키텍처란 컴퓨터 연산 처리 방식의 설계다. 예를 들어, D램을 쌓은 고대역폭메모리(HBM)를 그래픽처리장치(GPU) 옆에 붙이겠다는 구상도 이 분야에서 나왔다. 지난 18~22일 열린 마이크로는 세계 최고 아키텍처 연구자들이 온통 ‘AI 가속기, AI 메모리’에 몰두해있음을 보여줬다.
━
‘칩만 해선 칩 못한다’
체제 부사장은 워싱턴대 교수로, 2019년 창업한 옥토AI가 지난해 엔비디아에 인수되며 회사에 합류했다. 옥토AI는 ‘AI 모델이 하드웨어에 무관하게 잘 실행되게 하는’ 소프트웨어를 만든다. 체제 부사장은 엔비디아 GPU가 어떤 새로운 AI 모델을 만나도 빠르고 효율적으로 작동하도록, 소프트웨어로 최적화하는 역할을 맡고 있다.
그는 기조연설에서 “비용·전력 효율적인 AI를 실현하려면 개별 분야를 넘어 시스템 전체를 보고 조율할 수 있어야 한다”고 강조했다. 칩만 봐서는 좋은 칩을 못 만든다는 거다.
그는 또한 “AI 비서가 코드를 작성·실행하고 데이터를 수집해 스스로 알고리즘을 개선하는 게 가능해지고 있다”고 했다.
━
‘메모리 장벽, 부정확함’ 데몬 물리쳐야
21일에는 ‘AI 데몬 헌터스’라는 제목으로 마이크로소프트∙삼성전자∙SK하이닉스·조지아텍·UIUC의 산·학 토론이 열렸다. AI 분야의 난제 해결을 ‘퇴마’에 빗댄 거다. 넷플릭스 애니메이션 ‘K팝 데몬 헌터스’의 인기를 반영한 이 제목은 해외 연구진이 먼저 제안했다고 한다. 좌장은 가브리엘 로 AMD 시니어 펠로가 맡았다.
김대현 삼성리서치 AI센터장은 “AI 번역 앱 등을 개발해도. 스마트폰 같은 다양한 기기에서 소비자에게 동일한 품질로 제공하는 건 어려운 숙제”라면서 “소비자 상품 AI의 정확도·신뢰성은 연구 단계보다 훨씬 높아야 하는데, 현재 AI 모델 성능평가(벤치마크)는 객관적이지 않은 게 ‘데몬’”이라고 말했다. 삼성리서치는 업무용 AI 성능 채점표 ‘트루벤치’를 자체 개발하며, 이를 해결하고 있다.
김호식 SK하이닉스 메모리 연구센터 부사장은 “D램에서 GPU로 데이터를 옮기는 데 드는 에너지가, 실제 연산에 드는 에너지의 1만 배”라며 AI 메모리의 전력 소비를 ‘데몬’으로 꼽았다. 그는 “메모리와 연산 다이를 하나의 패키지, 하나의 칩 안에 3D로 통합하고 메모리 인접 연산을 구현하는 연구를 하고 있다”고 말했다.
━
GPU·메모리 관심 높아…中 ‘HBM 아닌 AI 메모리’ 발표도
논문 발표 세션 중 AI 시스템, GPU, 메모리 중심 컴퓨팅(PIM) 세션은 객석 통로까지 빼곡이 서서 발표를 들을 정도로 높은 관심을 받았다.
종종 “왜 전체 학계가 GPU와 AI 언어모델의 최적화라는 작은 주제에 죄다 매달려야 하느냐”는 불만 섞인 목소리가 질의·토론 시간에 나오기도 했다. 주로 나이 지긋한 연구자들이었다. 그러나 “매주 8억 명이 챗GPT를 사용하는데, 이것만큼 수요가 강력하고 해결시 파급력이 큰 주제는 없다”는 데에 이견은 적었다.
칭화대와 화웨이는 각각 ‘HBM 이외의’ AI 메모리 연구를 발표해 눈길을 끌었다. 칭화대는 로직 다이(Die) 위에 D램을 쌓아 구리로 이어붙이고 연산 기능을 넣어 속도를 높인 ‘3D 하이브리드 본딩 D램 PIM’을 발표했다. 하이브리드 본딩은 열을 빼내지 못하면 메모리 성능이 떨어지는데, 칭화대는 발열을 잡는 별도의 하드웨어를 부착하는 설계로 보완했다.
화웨이는 HBM 이외의 메모리를 많이 사용하면서도 느린 속도를 보완하는 기술을 발표했다. HBM같이 GPU와 가까이 있는 메모리는 속도가 빠르지만 용량을 늘리기가 쉽지 않은데, 대용량 메모리를 GPU에 멀리 두고 쓰면서도 데이터를 가져오느라 지연되는 시간은 최소화하는 알고리즘이다.
━
中 인해전술 속 韓 선전, 전략 필요
올해 MICRO 운영 의장은 연세대학교 전기전자공학과 노원우·김한준 교수가, 논문 심사를 맡는 프로그램 의장은 유민수 KAIST 교수와 라두 테오도레스쿠 미국 오하이오주립대 교수가 맡았다. 운영·프로그램을 모두 한국 연구진이 맡은 것은 이번이 처음이다.
1052명이 참석하고 123편 논문이 발표됐으며, 국가별 논문 제출 수는 미국, 중국, 한국 순이었다. 유민수 교수는 “인구 대비 연구 수준은 한국이 우수한데, 중국은 연구자 수가 압도적으로 많고 문제에 대한 해결책을 도출하는 시간이 매우 짧다”라고 말했다. 노원우 교수는 “이번 MICRO가 국내 AI 반도체 연구 기반과 생태계를 세계 수준에서 점검하는 계기가 되길 바란다”라고 말했다.