광고닫기

[김병필의 인공지능 개척시대] AI 학습 데이터, 특례법이 필요한 이유

중앙일보

2025.08.17 08:14 2025.08.17 13:34

  • 글자크기
  • 인쇄
  • 공유
글자 크기 조절
기사 공유
김병필 KAIST 기술경영학부 교수
인공지능(AI) 학습에는 방대한 데이터가 필요하다. 그렇다면 국제 경쟁력을 갖춘 AI를 개발하려면 도대체 얼마나 많은 데이터가 있어야 할까. 중국 AI 스타트업 딥시크(DeepSeek)는 약 50테라바이트(TB)의 문자 데이터를 AI에 학습시킨 것으로 알려져 있다. 그중 20%가 중국어라고 가정하면 대략 10TB에 이른다. 책으로 환산하면 약 3000만 권 분량이다. 국립중앙도서관이 소장한 국내 도서가 1000만 권 수준이니, 지금까지 우리나라에서 출간된 모든 한국어책을 전부 디지털로 변환하더라도 한참 부족한 셈이다.

더구나 이제는 AI가 활자로 된 정보만이 아니라 세상에 관한 영상과 행동 데이터까지 학습하는 시대로 접어들고 있다. 이른바 대규모 세계 모델(Large World Model)이다. 자율주행, 로봇, 의료 분야 등 물리적 인공지능 구현에는 필수적이다. 이 단계에서는 수십 TB 이상의 복합 데이터가 필요하다. 이 정도 규모의 학습 데이터를 확보하지 못한다면 우리는 기술 지형에서 변방으로 밀려날 수밖에 없다.

국제 경쟁력 AI 개발하려면
국립중앙도서관 도서로도 부족
대규모 범용 AI 학습 면책하는
특례법 제정 시급히 논의해야

김지윤 기자
방대한 학습 데이터 구축의 가장 큰 걸림돌로는 법 제도가 지목된다. 학습 데이터에는 저작권, 데이터베이스권, 개인정보, 초상권 등 복잡한 권리가 얽혀 있다. 이 때문에 사소한 침해 가능성까지 완벽히 제거하는 일은 사실상 불가능하다. 이미 국내외에서 관련 소송이 잇따르고 있다. 이러한 법적 불확실성을 어떻게 해소할 것인지는 오랫동안 논의된 주제다. 하지만 급변하는 AI 환경에 대응하려면 시급히 해법을 마련해야 한다.

이 문제를 풀기 위해서는 특례법 제정을 진지하게 검토할 필요가 있다. 각종 데이터를 무작정 AI 학습에 쓰도록 허용한다면 권리자에게 일방적 희생을 강요하는 셈이 된다. 대신 권리 침해 위험이 낮으면서도 AI 학습에 중요한 분야를 정해, 일정한 요건을 충족하면 책임을 면제하는 방식을 택할 수 있다. 기술 변화가 워낙 빠른 만큼, 우선 한정된 기간 시행하고 매번 연장 여부를 재평가하는 접근이 바람직하다.

우선, 학습 데이터 특례는 여러 목적에 쓰이는 범용 AI에만 적용하는 것이 좋다. 사회 전반의 생산성을 높이고 삶을 풍요롭게 만드는 경우에만 특례를 인정할 이유가 있기 때문이다. 또한 수 TB 이상의 방대한 데이터를 요구하는 대규모 AI로 한정할 필요도 있다. 예컨대 파라미터의 수가 수백억 개 이상일 것을 기준으로 삼을 수 있다.

더욱이 대규모 범용 AI 모델은 사회적 가치와 법적 개념을 이해할 수 있어 권리자 보호에도 활용될 수 있다. 예컨대 저작권 침해 여부를 판단하는 데 쓰는 것이다. 실제로 최근에는 대규모 시각·언어 AI로 저작권 침해 가능성을 판별하는 기술이 제시되고 있다. 그러나 이런 기능은 방대한 학습 없이는 불가능하다. 아이러니하게도 저작권 침해를 막으려면 오히려 대규모 저작물 학습이 허용되어야 한다는 역설이 성립한다. 이런 이유에서도 특례를 둘 필요가 있다.

다만 면책이 무조건적이어서는 안 된다. 학습 성과가 국내 산업 생태계에 환류되도록 하는 장치가 마련되어야 한다. 이를 위해 몇 가지 요건을 검토해 볼 수 있다. 예컨대 학습 데이터가 원칙적으로 국내에서 저장·처리되도록 하는 방안이 있다. 이렇게 하면 데이터의 무분별한 해외 반출을 막고, 산업적 이익도 국내에 남길 수 있다. 또한 투명성과 책임성을 확보해 신뢰성과 안전성을 높이는 조치도 중요하다. 이를 위해 정부가 운영하는 등록 시스템에 사전 등록 절차를 두는 방안도 고려할 수 있다.

특례법은 민간 기업의 면책에만 적용되는 것이 아니다. 정부가 공공 기관을 중심으로 대규모 학습용 데이터베이스를 구축해 제공하는 데에도 중요한 역할을 할 수 있다. 그중 가장 상징적인 자원으로는 국립중앙도서관의 도서를 들 수 있다. 1000만 권이 넘는 국내 도서를 스캔하고 정제해 텍스트 데이터베이스를 만들 수 있다. 이렇게 하면 민간 기업이 개별적으로 도서를 구매하는 대신, 국가 차원에서 품질과 법적 정합성을 보장한 데이터를 공급할 수 있다.

이와 같은 공공 데이터 허브에는 인터넷에 공개된 자료, 학술 논문, 판결문, 교과서 등 다양한 한국어 자원을 더할 수 있다. 중장기적으로는 음성과 영상 등으로도 확장될 수 있다. 여기에 특례법을 적용하면 구축 비용을 크게 줄이고, 포함된 방대한 자원의 법적 불확실성도 해소할 수 있다.

구체적으로 특례법을 어떻게 설계할지는 더 많은 토론과 숙의가 필요하다. 하지만 해법을 마련하는 일을 더 이상 미뤄서는 안 된다. 현재의 법 제도만으로는 수십 TB에 이르는 학습 데이터베이스를 제대로 구축하기 어렵다는 점을 직시해야 한다. 한국어와 한국 문화가 AI시대의 변방으로 밀려나지 않도록, 빠르게 변화하는 기술 환경에 대응해 법 제도 개선의 첫걸음을 서둘러 내디뎌야 한다.

김병필 KAIST 기술경영학부 교수


많이 본 뉴스

      실시간 뉴스