국가대표 인공지능(AI)에 도전 중인 국내 주요 대형언어모델(LLM)들이 수능 수학과 논술 문제 풀이에서 해외 모델에 크게 뒤처진다는 분석 결과가 나왔다.
김종락 서강대 수학과 교수 연구팀은 국내 국가대표 AI 도전 5개 팀의 대표 LLM과 챗GPT 등 해외 5개 모델을 대상으로 수능 수학 20문제와 논술 30문제를 풀게 한 결과를 15일 공개했다.
연구팀은 수능 문제로 공통과목, 확률과 통계, 미적분, 기하에서 최고 난도의 문항 5개씩 총 20문제를 선정했다. 논술 문제는 국내 10개 대학 기출 문제, 인도 대학입시 수학 10문제, 일본 도쿄대 공대 대학원 입시 수학 10문제 등 30문제로 구성해 총 50문항을 10개 모델에 제시했다.
국내 모델로는 업스테이지의 솔라 프로-2, LG AI연구원의 엑사원 4.0.1, 네이버 HCX-007, SK텔레콤의 A.X 4.0(72B), 엔씨소프트의 경량 모델 라마 바르코 8B 인스트럭트가 활용됐다. 해외 모델은 GPT-5.1, 제미니 3 프로 프리뷰, 클라우드 오푸스 4.5, 그록 4.1 패스트, 딥시크 V3.2 등이 대상이었다.
평가 결과 해외 모델은 76점에서 92점 사이의 점수를 기록한 반면, 국내 모델은 솔라 프로-2만 58점을 받았고 나머지는 20점대에 머물렀다. 라마 바르코 8B 인스트럭트는 2점으로 최저점을 기록했다.
연구팀은 국내 모델의 경우 단순 추론만으로 문제 해결이 어려워 파이썬 도구 사용을 허용했음에도 성능 격차가 컸다고 설명했다.
이어 연구팀은 대학 수준부터 교수급 연구 난이도까지 세분화한 자체 문제 세트 엔트로피매스 100문제 중 10문항을 선별해 추가 실험을 진행했다. 이 평가에서도 해외 모델은 82.8점에서 90점을 기록했지만, 국내 모델은 7.1점에서 53.3점에 그쳤다.
세 차례까지 풀이를 시도해 정답을 맞히면 통과하는 방식의 실험에서는 그록이 만점을 기록했고, 다른 해외 모델들도 90점을 받았다. 국내 모델은 솔라 프로-2가 70점, 엑사원이 60점, HCX-007이 40점, A.X 4.0이 30점, 라마 바르코 8B 인스트럭트가 20점을 기록했다.
김종락 교수는 “국내 소버린 AI 모델의 수능 수학 평가가 없다는 질문이 많아 직접 테스트를 진행했다”며 “해외 프런티어 모델과의 격차가 상당하다는 점이 확인됐다”고 밝혔다.
연구팀은 이번 실험에 사용된 모델이 공개 버전인 만큼, 각 팀의 국가대표 AI 신규 버전이 공개되면 자체 개발 문제를 활용해 다시 성능을 평가할 계획이다. 김 교수는 “엔트로피매스를 기반으로 수학 리더보드를 구축했으며, 이를 국제적 수준으로 확대할 것”이라며 “문제 생성 알고리즘과 파이프라인을 고도화해 과학, 제조, 문화 등 다양한 도메인 특화 데이터세트 개발에도 기여하겠다”고 말했다.
이번 연구는 서강대 수리과학 및 데이터사이언스 연구소(IMDS)와 딥파운틴의 공동 지원으로 진행됐다.