지역별 뉴스를 확인하세요.

많이 본 뉴스

광고닫기

기사공유

  • 페이스북
  • 트위터
  • 카카오톡
  • 카카오스토리
  • 네이버
  • 공유

[취재수첩] '1048576' 7자리 숫자의 함정

지난 한 달간 LA시 범죄 체포자와 피해신고 데이터를 분석했다. 2010년부터 2017년 10월까지 수백만 개의 데이터를 입수해 조사했다. 자료에는 범죄 발생시간, 장소, 유형, 범죄 도구 등 10여 가지의 세부 목록이 있었다. 분석 작업은 컴퓨터 소프트웨어를 사용하지만 사실 '노가다'에 가깝다.

수백만 행(row)에 달하는 숫자들을 유용한 통계로 바꾸는 일은 마치 커피 원두를 바닥에 뿌려놓고 불량 원두(오류 데이터)를 손가락으로 일일이 집어내는 것과 비슷하다.

104만8576개. 1탄 기사였던 체포자 통계에서 애초 확보한 행의 총 숫자다. 체포자가 104만8576명이라는 뜻이다.

그런데 갑자기 선배가 시간차를 두고 피해건수와 체포자수를 물었다. 확인했다. 어라? 104만8576개. 체포자와 피해신고 건의 숫자가 정확하게 일치했다. 뭔가 이상했다. LAPD의 범죄자 체포율이 100%라는 뜻이다.



뭔가 오류가 있었다. 인터넷을 뒤졌다. 오류의 원인은 컴퓨터 프로그램 '엑셀'의 한계치에 있었다. 분석할 수 있는 열의 최대치가 104만8576개란다. 100만개가 넘는 많은 양을 처음 분석했던 터라 '컴퓨터 프로그램의 한계'를 알리 만무했다.

앞이 깜깜했다. 이미 104만8576개의 데이터로 1차 분석을 마쳤고, 기사 마감시간도 불과 4시간 남겨둔 상황이었다. 부랴부랴 전산팀에 SOS를 요청해 다시 분석 작업을 시작했다. 이날은 LA다저스와 휴스턴의 월드시리즈 1차전이 열린 날이었다. 다행히 마감시간이 다소 여유가 있었기에 망정이지 하마터면 엉터리 통계로 오보를 낼 뻔했다.

새삼 느끼는 바지만 팩트는 기자의 한순간 방심으로 거짓으로 뒤바뀔 수 있다.

기획취재팀은 지난 5월부터 '데이터 탐사'라는 코너로 각종 통계를 분석한 심층보도 기사를 써왔다. 정부 기관 등에서 1차 가공한 데이터를 받아쓰지 않고, 직접 원본 데이터를 입수해 자체 분석했다.

한인 연방 공무원 현황, LA시의회 의정활동 보고서, 311 민원신고 분석 등이 그 예다.

품이 많이 드는 작업이고 시행착오도 겪고 있지만 언론으로서 의미 있는 시도라고 생각한다. 독자들은 기자가 글에 녹인 고민과 노력의 흔적을 잘 알고 있다.


기획취재팀 황상호 기자



Log in to Twitter or Facebook account to connect
with the Korea JoongAng Daily
help-image Social comment?
lock icon

To write comments, please log in to one of the accounts.

Standards Board Policy (0/250자)


많이 본 뉴스





실시간 뉴스