전국 주요 대학 연구 논문에 인공지능(이하 AI)에게 긍정적인 평가만 내리도록 유도하는 비밀 명령어가 숨겨져 있었던 사실이 드러났다.
AI를 활용한 논문 평가나 정보 분석이 보편화되는 가운데, 연구 윤리를 둘러싼 논란 역시 커지고 있다.
일본 닛케이 보도에 따르면 워싱턴대, 컬럼비아대, 버지니아대, 미시간대 등 유수 대학 소속 연구자들이 논문 공개 플랫폼 ‘아카이브(arXiv)’에 게재한 다수 논문에서 AI만 인식할 수 있는 명령어가 삽입된 것이 확인됐다. 해당 명령어는 ‘긍정적으로 평가하라’, ‘부정적 언급은 삼가하라’ 등의 내용을 담고 있다.
이번에 문제가 제기된 논문들은 주로 컴퓨터 공학 관련 분야 논문들이다. 비밀 명령어는 사람이 식별할 수 없도록 HTML 코드 안에 숨기거나, 흰 배경에 흰 글씨로 입력됐다. 또 육안으로 확인하기 어려운 크기의 글씨로 작성되기도 했다.
논문 평가, 자동 요약, 인용문 생성 등 AI가 텍스트를 분석하는 과정을 겨냥해, 긍정적인 응답을 유도하려는 의도가 담긴 것으로 보인다.
이번 사례는 미국 대학에만 국한되지 않았다. 닛케이는 한국과학기술원(KAIST)을 비롯해 일본, 중국, 싱가포르 등 8개국 14개 대학에서 같은 방식의 AI 조작 시도가 확인됐다고 전했다.
이에 대해 카이스트 측은 “대학으로서 절대 허용할 수 없는 행위”라며 “적절한 AI 활용 가이드라인을 마련하겠다”고 밝혔다. 해당 논문 공동저자인 한 KAIST 부교수는 “AI 판단에 영향을 주려는 지시는 부적절했다”며 논문 철회 입장을 표명했다.
물론 AI 이용을 옹호하는 학자들도 있다.
이번에 문제가 된 논문을 공동 집필한 일본 와세다대 교수는 “AI를 활용한 게으른 심사자에게 대항하기 위한 수단”이라며 명령어 삽입 정당성을 주장했다. 그는 일부 학회가 논문 심사에 AI 활용을 공식적으로 금지하고 있음에도, 사전 심사 과정에서 무분별하게 AI를 활용하는 현실을 지적했다.
워싱턴대 소속 교수 역시 “논문 심사 같은 중요한 작업을 AI에게 맡기는 경우는 학계에서 비일비재하다”고 말했다.
전문가들은 이번 사태를 계기로 논문 평가 시스템의 신뢰성과 AI 응답의 공정성 문제가 도마 위에 올랐다고 분석한다. AI 활용 시 명령어 입력 등을 통해 데이터 등을 왜곡하는 수법 역시 은밀하게 이루어지고 있어 완전한 방지는 어렵다는 평가도 있다.
매체는 “이런 수법을 남용하면 연구 분야 외에서도 AI 답변 기능이 왜곡될 위협이 있다”고 지적했다.
사쿠마 히로아키 일본 AI 거버넌스협회 사무국장은 “AI 명령어를 숨기는 수법은 기술적으로 일정 부분 차단할 수 있다”며 “서비스 제공자와 학계, 각 업종별로 AI를 활용 시 관련 규범을 마련하고, 윤리적 기준을 강화해야 할 시점”이라고 조언했다.
한편, 회계 법인 PWC 재팬의 경우 미국과 독일 기업들의 약 40%가 AI 명령어 입력과 같은 프롬프트 인젝션(prompt injection) 공격에 대한 대응 방안을 마련 중이다. 이어 영국(37%), 중국(36%), 일본(29%) 기업 등의 순이다.