지역별 뉴스를 확인하세요.

검색어 치면…0.25초에 1500마일 돌려 결과 보여주죠…검색의 세계

'웹 검색'. 최근 10년 새 가장 친근해진 말이다. 생활 속 궁금증 해소에서부터 학술 논문 작성에 필요한 자료수집에 이르기까지 인터넷을 뒤지는 웹 검색은 현대인에게 너무나 당연해진 일이 됐다. 불과 20년 전엔 1990년대 초반만 해도 원하는 정보를 얻기 위해선 많은 노력이 필요했다. 답을 아는 사람을 찾을 때까지 주변 사람들을 수소문하는 것은 기본이고, 도서관을 방문해 관련 서적을 일일이 읽어봐야 했다. 세계 최대 검색엔진이 구글에서는 하루 평균 10억건의 검색이 이뤄진다. 검색의 세계를 들여다봤다. 이수기 기자

첫 검색엔진은 1990년 캐나다서 만든 아키

40년 전 인터넷이 처음 만들어질 당시에는 지금처럼 월드와이트웹(WWW)이라 불리는 웹페이지들이 존재하는 것이 아니었다. 개인 서버에 올린 파일들이 FTP라는 통신규약에 따라 그물망처럼 연결된 형태였다. 최초의 검색엔진은 이러한 파일들을 검색해주는 아키(archie)다. 아키는 1990년 캐나다 맥길대에 재학 중이던 앨런 앰티지가 개발했다. 월드와이드웹이 도입되면서 93년 크롤링(Crawling)이라는 개념을 도입한 월드와이드웹원더러(World Wide Web Wanderer)라는 검색엔진이 탄생한다. 크롤링이란 무수히 많은 컴퓨터에 분산 저장돼 있는 문서를 수집해 색인을 만드는 기술이다. 컴퓨터가 정해진 규칙에 따라 인터넷에 존재하는 수많은 웹사이트에 접속해 해당 정보를 복사해 온 후 이를 정리하는 것이었다. 하지만 월드와이드웹원더러는 하루에 같은 페이지를 수백 번 접속해 시스템 랙(lag)을 발생시켰고 사람들은 과연 이런 크롤링이 필요한가 의문을 가지기 시작했다. 이후에도 프리미티브웹서치(Primitive Web Search.1993) 알리웹(ALIWEB.1993) 알타비스타(Alta Vista.1994) 인포시크(infoseek.1994) 등 다양한 검색엔진이 등장했지만 오래지 않아 역사의 뒤안길로 사라졌다.

수작업하다 콘텐트 넘치자 자동연산으로 선별

인터넷 초창기에는 많은 정보가 없었다. 즉 사람의 손으로 일일이 좋은 사이트를 선별한 후 전화번호부처럼 한 사이트에 모두 모아놓는 게 가능했다. 야후가 이런 방식을 통해 검색시장의 절대 강자로 뛰어올랐다. 크롤링을 도입한 검색엔진들은 수집해오는 정보의 양이 너무 방대했기에 획기적인 기준 없이는 어떤 사이트가 좋은 곳이고 나쁜 곳인지 구분할 길이 없었다. 그래서 야후처럼 정돈이 잘되어 있는 전화번호부식 검색사이트를 사용자들은 선호했다.

하지만 시간이 지날수록 인터넷에는 콘텐트가 끊임없이 생산됐고 또 재가공돼 정보가 넘쳐나기 시작했다. 더 이상 사람의 손으로는 관리가 불가능한 시점이 도래한 것이었다. 이때 등장한 것이 구글이었다. 구글은 크롤링과 더불어 페이지랭크라는 획기적인 규칙을 적용했다. 모든 웹사이트에는 고유한 주소가 있는데 '주소를 다른 사이트에서 많이 언급하면 할수록 해당 사이트는 좋은 사이트일 것'이라는 가정 아래 언급이 많은 사이트를 검색 결과의 상단에 위치시킨다는 게 바로 페이지랭크의 원리다. 쉽게 말해 인용된 횟수가 많을수록 그 내용은 좀 더 믿을 수 있고 그런 만큼 검색결과 상단에 나오도록 해야 한다는 것이다.

이 페이지랭크 알고리즘은 몇몇 가지 추가 알고리즘을 더해 현재까지도 구글 검색의 얼개를 이루고 있다. 또 이 방식이 구글이 세계적인 검색의 제왕 자리에 오르는 데 결정적인 기여를 했다.

사실 구글도 초창기에는 3~4개월에 한 번 웹을 크롤링했었다. 2002년 미국 9.11테러 당시 사람들은 관련 정보를 구글을 통해 검색했지만 클로링된 데이터는 이미 한 달 전에 이뤄진 것이어서 관련 정보는 구글에서 검색이 불가능했다. 이때 구글은 메인 페이지 하단에 유명 뉴스 사이트 링크를 추가하는 등의 노력을 했지만 한두 달에 한번 크롤링하는 것은 부족하다는 것을 깨닫게 됐고 페이지랭크를 서둘러 도입하는 단초가 됐다.

하지만 최근의 구글은 인터넷에 특정 콘텐트가 게시된 지 몇 초 만에 뉴스.블로그 등 종류에 상관없이 정보들을 긁어올 수 있는 기술을 갖추게 됐다. 지금까지 구글이 크롤링한 콘텐트 용량은 10억 기가바이트(GB)가 넘는다. 구글이 다른 검색엔진들과 차별되는 점 중 하나는 검색결과에 '사람의 손'이 개입하지 않는다는 점이다. 다른 검색사이트의 경우 콘텐트를 수작업을 통해 수정하는 경우도 여전히 있다. 정치색 짙은 사안이 불거질 때마다 포털사이트들의 중립성이 의심받는 것은 이 때문이다.

네이버.다음 포털 추구 사이트 머물게 유도

한국 검색 시장의 70% 안팎을 차지하는 네이버도 90년대 말에 생겨났다. 네이버는 처음 삼성SDS 사내 벤처로 출발했다. 99년 법인을 설립하고 지식검색서비스인 '지식IN'을 무기로 선발주자였던 야후와 다음을 추격한다.

여기서 네이버와 다음은 검색엔진이 아닌 포털의 길을 택한다. 웹에 있는 방대한 정보를 찾아서 보여주기보다는 지식인.카페 등과 같이 사용자 콘텐트를 모으고 이 안에서 사람들이 오랜 시간 머물도록 하는 전략이다. 구글과 같은 검색엔진의 경우 해당 검색 사이트를 빨리 떠나서 원하는 정보를 얻도록 하는 것이 목표다. 이 때문에 다른 사이트를 파트너로 삼아 광고를 해당 사이트에서 보여주고 수익의 일부를 얻는다. 일종의 소개비를 받는 셈이다. 포털 전략을 취하면 자사 사이트에 유저들이 오랫동안 머물도록 하는 게 관건이다. 자사 사이트 안에서 머물며 배너 광고 등을 보도록 하고 그에 따른 광고료 전액을 얻는다는 점에서 차이가 있다.

구글 검색 200여 가지 연산과정 거쳐 도출

사용자가 검색어를 입력하면 어떤 과정을 거쳐 결과가 표시되는 걸까. 예를 들어 사용자가 구글에 '중앙일보'를 검색하면 해당 검색어는 인터넷망을 타고 전 세계에 있는 구글의 데이터센터 중 한 곳에 도달한다. 그곳에서 구글이 미리 수집해놓은 '중앙일보' 관련 자료들과 비교한다.

이어 200여 가지의 컴퓨터 연산 과정을 거쳐 내용의 일치 정도 등에 따라 산출된 결과 순으로 사용자의 컴퓨터에 돌아와 모니터에 뜨는 식이다. 검색결과가 뜨는 데 소요되는 시간은 평균 0.25초. 이 짧은 시간 동안 이렇게 검색어 하나가 여행하는 거리는 평균 1500마일 가량이다.

도움말=구글코리아

Social comment?

To write comments, please log in to one of the accounts.

Standards Board Policy (0/250자)

미주중앙일보 - 미주 최대 한인 뉴스 미디어

검색어 치면…0.25초에 1500마일 돌려 결과 보여주죠…검색의 세계

많이 본 뉴스

실시간 뉴스