광고닫기

[김현철의 퍼스펙티브] 감으로 경영하던 시대는 끝났다, 기업이여 실험하라

중앙일보

2025.12.10 07:24 2025.12.10 13:13

  • 글자크기
  • 인쇄
  • 공유
글자 크기 조절
기사 공유
글로벌 빅테크 기업이 경제학자를 채용하는 이유
김현철 연세대 의대·홍콩과기대 경제학과 교수, 연세대 인구와인재연구원장
2010년대 초반 미국에서 경제학 박사 과정을 밟던 나와 동료들에게, 박사학위를 마친 뒤 교수직·연구기관·정부기관으로 진출하는 것은 자연스러운 경로였다. 기업으로 가는 것은 대개 ‘연구를 그만큼 좋아하지도 또 잘하지도 않는 학생이 택하는 진로’처럼 여겨지던 시절이었다.

그러나 2015년을 기점으로 흐름은 급격히 바뀌었다. 아마존·구글·넷플릭스·메타와 같은 기업들이 경제학자를 대거 채용하기 시작했다(Athey and Luca, 2019). 아마존은 박사급 경제학자 400명 이상을 보유한, 사실상 세계 최대의 경제학자 고용주가 되었고, 우버·아마존 등은 2021~2022년 하버드 경제학 박사 졸업생 50여 명 중 무려 10명을 데려갈 정도였다〈그림 1〉.

그림 1. 김경진 기자
수억 명 사용자 대상 무작위 실험
실험 기반 의사결정이 곧 경쟁력

우버, 수익극대화 최적가격 도출
실리콘밸리의 성공도 실험 덕분

카카오 UI 개편, 실험 없이 적용
검증 없이 전략 도입하는 건 무모

실제로 나와 함께 공부하던 동료 교수들 상당수도 이들 기업으로 옮겨 실험 플랫폼 구축, 인과추론 기반 의사결정 체계 고도화 등 기업의 핵심 기능을 맡고 있다. 테크 기업이 경제학자를 필요로 한 이유는 ‘세계에서 가장 큰 실험실(lab)’이 존재했기 때문이다.

왜 빅테크는 경제학자를 채용할까
빅테크에서 경제학자들이 하는 역할은 매우 명확하다. 이들은 기업이 보유한 수천 개의 동시 실험 플랫폼을 활용해 수억 명의 사용자에게 무작위 실험(A/B 테스트)을 시행하고, 그 결과를 바탕으로 가격·추천 알고리즘·광고·사용자 인터페이스(UI)·물류·구독 모델 같은 기업의 모든 전략을 과학적으로 최적화한다.

이러한 실험의 결과는 곧바로 매출, 사용자 경험, 고객 이탈률, 재구매율 등 핵심 성과지표에 실시간으로 반영된다. 한 번 실험의 맛을 본 기업은 그 가치를 깨닫는 순간 실험의 수를 기하급수적으로 늘려간다〈그림 2〉.

그림 2. 차준홍 기자
우리가 사용하는 앱 화면이 사람마다 다른 이유도 바로 여기에 있다. 광고 위치, 버튼 색상, 추천 콘텐트, 가격 배지가 모두 다르다. 사용자는 자신이 하나의 실험군에 들어가 있다는 사실조차 모른다. 기업은 이렇게 사용자 개개인을 실험군으로 설정하여 최적의 사용자 경험과 매출 구조를 ‘실험을 통해’ 찾아낸다.

우버: 실험 기반 의사결정의 교과서
우버의 가격 체계는 실험이 어떻게 기업 전략을 바꾸는지 보여주는 대표적인 사례다. 우버의 가격은 누군가의 감이나 경험으로 정해지는 것이 아니다. 철저하게 실험으로 검증된 결과다.

예를 들어, 비 오는 저녁 러시아워처럼 수요가 폭증하고, 반대로 운전자 공급이 부족한 상황을 가정해보자. 이때 우버는 하나의 가격을 일괄 적용하지 않는다. 소비자별·지역별·시간대별로 조금씩 다른 가격을 무작위로 뿌려보는 방식을 택한다. 어떤 지역에는 기존 요금의 1.2배, 다른 지역에는 1.4배, 또 다른 곳에는 1.6배와 같이 서로 다른 가격을 배정한다(Cohen, Peter, et al, 2016).

이렇게 가격을 달리 적용하면 곧바로 중요한 데이터가 쌓인다. 1) 어느 가격 수준에서 어떤 승객이 “이건 너무 비싸다”라며 이탈하기 시작하는지 2) 어느 가격에서 운전자들이 “지금 나가서 태우는 게 이득이다”라고 판단해 가장 빠르게 몰려오는지 알 수 있다.

우버는 이러한 실험을 수십 개 지역에서, 수백 개 시간대에 걸쳐 끊임없이 반복한다. 그리고 그 데이터를 토대로 수요와 공급이 가장 효율적으로 균형을 이루고 수익이 극대화되는 최적 가격을 찾아낸다. 이것이 바로 ‘실험 기반 의사결정’이다.

이는 우버만의 이야기가 아니다. 수많은 기업이 이러한 방식으로 수익과 생산성을 실험 기반으로 끌어올렸다. 아마존의 광고 경매 구조, 넷플릭스의 추천 알고리즘, 메타의 광고(Ghost Ads) 플랫폼 등은 모두 이러한 노력의 산물이다.

AI 기업은 실험의 수준을 완전히 새로운 차원으로 끌어올렸다. 오픈AI, 구글 딥마인드, 메타는 정확한 수치를 밝히지 않지만, 공개된 기술 문헌을 보면 하루 수천~수만 건의 실험이 병렬적으로 진행되는 것으로 알려져 있다. 답변의 길이·톤·정확성, 파인 튜닝 방식, 모델 안정성, UI 노출, 가격 정책 등 거의 모든 요소가 실험 대상이며, 사용자는 자신이 어떤 실험군에 속했는지조차 모른다. AI 기업에 ‘실험의 속도’는 곧 경쟁력이며, 이 세계에서 감으로 판단하는 순간 바로 뒤처진다. 실리콘밸리의 성공은 결국 알고리즘이 아니라 실험 기반 의사결정 문화의 승리다.

한국 기업: 데이터 많지만 실험 드물어
한국에 귀국한 뒤 나는 자연스럽게 국내 빅테크 기업들을 찾아갔다. 세계가 이미 실험 중심의 의사결정으로 움직이고 있으니, 한국 기업들도 비슷하게 가고 있을 것이라 기대했기 때문이다. 그러나 현실은 정반대였다.

전사적 실험 플랫폼을 갖춘 기업은 거의 없었고, 실험을 설계하고 해석할 수 있는 전문 경제학자도 전무했다. 미국 빅테크 경험을 공유하며 협력을 제안해도 “우리는 아직 준비가 안 되어 있다”는 답변이 돌아오곤 했다. 답답한 마음에 수소문해보니, 극소수의 국내 기업만이 비교적 작은 규모로 이러한 노력을 하고 있었다.

한국 기업의 회의실에서는 지금도 “경험상…”, “감으로는…” 이라는 말이 자연스럽다. 하지만 세계는 이미 실험 기반 의사결정으로 이동했다. 한국 기업이 뒤처진 점은 데이터 부족이 아니라, 그 데이터를 제대로 활용하지 못한다는 것이다. 데이터를 기업 전략의 인과효과를 검증하는 데 거의 활용하지 못한다. 그리고 ‘실험하지 않는 위험’을 위험으로 인식하지 못한다.

실험 없이 ‘감’으로 움직여 실패한 사례는 이미 너무 많다. 2025년 카카오는 메신저 UI 개편을 사전 실험 없이 전면 적용했다가 이용자의 거센 반발에 일주일 만에 원상 복구했다. 실험 한 번이면 막을 수 있었던 리스크였다.

2011년 넷플릭스는 스트리밍과 DVD 서비스를 분리하며 기존 9.99달러 구독을 각각 7.99달러로 나누는 가격 개편을 발표했다. 두 서비스를 모두 이용하던 고객에게는 60% 인상과 같았고, 강한 반발이 뒤따랐다. 이후 DVD 사업을 ‘퀵스터’로 분사하겠다는 발표와 그 철회까지 겹치며 고객 신뢰와 투자자 신뢰가 모두 흔들렸고, 주가는 연말까지 70% 이상 하락했다. 넷플릭스는 이후 모든 전략을 반드시 실험으로 검증하는 문화를 정착시켰다.

“이 전략은 실험으로 검증되었는가?”, “대조군 대비 효과는 얼마인가?”, “유의수준과 재현 가능성은 충분한가?”라는 질문을 리더가 던지는 순간, 조직의 의사결정 방식은 완전히 달라진다. 실험으로 축적된 근거는 전략이 만들어지는 방식을 바꾸고, 실험이 가능한 조직과 그렇지 않은 조직은 의사결정의 정교함에서 완전히 다른 세계를 살게 된다.

국제개발 분야도 실험 통해 도약
국제개발 분야도 이미 이러한 변화를 경험했다. 2000년대 초반까지만 해도 개발정책은 직관과 경험에 의존했지만, 경제학자들이 무작위대조실험(RCT)을 대규모로 도입하면서 ‘그럴듯한 정책’과 ‘정말 효과 있는 정책’이 분리되었다. 국제개발이 실험을 통해 도약했듯, 기업도 실험 기반 의사결정으로 전환하면 경영 방식이 과학화된다.

AI와 머신러닝이 패턴을 예측한다면, 실험은 무엇을 해야 하는지를 결정한다. 한국 기업의 문제는 데이터나 기술의 부족이 아니다. 오히려 검증되지 않은 전략을 전면 도입하는 무모함이 문제다. 감이나 경험에 의존하는 경영 방식은 이미 시대적 유효기간이 끝났다.

기업의 리더는 이제 실험을 통해 전략을 검증해야 한다. 감이 아니라, 실험이 만든 근거로 경영하라.

사용자를 처치군과 대조군으로 무작위 배정
실험의 실제 구조
많은 기업이 A/B 테스트라는 말을 쉽게 쓰지만, 인과관계를 정확히 식별하는 구조적 설계를 흔히 간과한다. A/B 테스트의 정석은 다음과 같다.

사용자를 처지군과 대조군으로 ‘무작위’ 배정한다.

▶처치군(Treatment group) : 새로운 가격, 메시지, 혜택, 알고리즘 등을 적용받는 집단

▶대조군(Control group) : 기존 방식·기존 화면을 그대로 유지하는 집단

실험의 목적은 “변화가 실제로 행동 변화를 유발했는가?”이다. 즉, 두 집단의 차이가 정말로 전략 때문이었는지를 검증하는 것이다.

예를 들어 건강검진 헬스케어 기업이라면 실험 대상을 다음과 같이 나눈다.

▶처치군 1 : 배우자 동반 검진 시 할인 10% ▶처치군 2 : 배우자 동반 검진 시 할인 20% ▶대조군 : 기존 방식 유지

그 후 본인 재검률, 배우자 수검률, 고객 만족도를 비교하고, 회사의 이윤에 미친 영향을 정량적으로 확인할 수 있다. 앱 기반 서비스 기업이라면 더욱 쉽다. 사용자 화면·가격·문구·알림 빈도 등을 다르게 적용하기만 하면 즉시 실험, 즉시 결과 확인이 가능하다.


김현철 연세대 의대·홍콩과기대 경제학과 교수, 연세대 인구와인재연구원장

〈참고문헌〉
Athey, Susan, and Michael Luca. "Economists (and economics) in tech companies." Journal of Economic Perspectives 33.1 (2019): 209-230.
Ron Kohavi et al. (2020), “Online randomized controlled experiments at scale: lessons and extensions to medicine,” Trials 21(1)
Cohen, Peter, et al. Using big data to estimate consumer surplus: The case of uber. No. w22627. National Bureau of Economic Research, 2016.

많이 본 뉴스

      실시간 뉴스