해외 유명 블로그 TechCrunch 에 구글 관련 내용이 올라왔습니다. 이 소식을 발빠르게 전해 주시는 여러 블로거님들 덕분에 금방 소식을 접하게 되었습니다. (참 좋은 세상입니다. ^^)

Google Processing 20,000 Terabytes A Day, And Growing (TechCrunch)
구글, 하루에 20000 테라바이트(TB)의 자료를 처리한다고? (학주니닷컴)
구글이 20 petabyte의 데이터를 얼마만에 처리할까?

사용자 삽입 이미지
그럼 이게 실제 얼마나 되는 양일까요? 20PB(페타바이트)는 실제로 감이 잘 안 올만큼 커다란 값이긴 합니다.
이 값은 데이터를 처리할 수 있는 양을 나타내는 것 뿐이고 실제 몇개의 웹페이지를 처리하는 지는 직접적으로 나타내지 않습니다. 하지만 원문글 중간의 표에 나와있는 데이터로 약간 유추해 볼 수 있을 것 같습니다.

2007년 9월을 기준으로 구글의 map input data 가 403,152 TB(테라바이트)라고 합니다. 이걸 웹페이지 기준으로 볼때 웹페이지 한장을 평균 10 KB 라고 가정하면 하루에 약  1조4천5백억개의 웹페이지가 됩니다. map output data 는 34,774 TB, 하루 1천2백억 페이지 정도 됩니다. 구글이 인덱스 하고 있는 페이지가 120억개 라고 가정해 볼 경우, 한페이지당 하루에 10번 다녀갈 수 있는 양입니다. 여러분의 블로그에 구글에서 인덱스 하고 있는 페이지가 1,000개 라면 10,000번 다녀간다는 이야기가 되는 군요. 뭐 실제로 그런지는 모르는 거고, 그렇게 할 수도 있는 능력이라는 것 입니다.

구글에 인덱스 되어 있는 제 블로그 글을 검색해 보면 대충 1,660개 라고 나오던데요. 구글봇이 하루에 얼마나 다녀가는 걸까요? 대단한 능력 인 것 만은 틀림없는 사실 입니다.

출처가 되는 논문은 여기 있습니다. ACL이 걸려 있어서 귀찮으므로 고감자 님이 받아주신 PDF 파일도 첨부 합니다. 저도 아직 자세히 읽어 보지는 못 했습니다. ^^

업데이트: 구글의 Map Reduce 는 gmail 스펨 필터 처리에도 쓰인다고 합니다. 그러니까 저기 논문에 나온 map input data의 데이터 량은 메일 데이터 까지 전부 합친 용량이라고 할 수 있겠습니다.
또는 Add to Google로 구독하시면 편리합니다. ^^

TRACKBACK :: http://ypshin.com/trackback/2690210 관련글 쓰기

  1. 구글의 MapReduce의 간략한 이해

    Tracked from 지민아빠의 해처리  삭제

    구글에게 MapReduce가 없었다면 현재의 구글은 없었을 찌도 모릅니다. 구글이 대단한 것은 세계에서 가장 많다고 자부할 수 있는 그 방대한 데이터를 유지하고 있는 능력 인 것 같습니다. 이 대단한 능력을 가능하게 하는 것은 바로 구글의 MapReduce가 있기 때문이죠. 구글의 MapReduce는 대용량 병렬처리를 가능하게 합니다. 엄청난 크기의 데이터를 짧은 시간안에 슈퍼컴퓨터가 없어도 처리가 가능 합니다. 하지만 MapReduce도 만능은 아..

    2008/05/07 01:32

댓글을 달아 주세요

  1. 미친병아리  수정/삭제  댓글쓰기

    정말 엄청난 양이군요.. 올려주신 논문도 함 읽어봐야겠습니다..

    2008/01/12 15:09
    • 지민아빠  수정/삭제

      대용량 데이터를 처리하는데 있어서 구글의 능력은 최고 인 것 같습니다. ^^

      2008/01/12 19:48

◀ Prev 1  ... 508 509 510 511 512 513 514 515 516  ... 777  Next ▶
BLOG main image
지민아빠의 해처리

카테고리

분류 전체보기 (777)
소식-웹서비스 (3)
소식-인수합병 (2)
소개-이벤트 (2)
소개-휴대폰 (2)
IT소식-웹서비스 (247)
IT소식-통신전자 (202)
친절리뷰 (19)
우주전쟁 (29)
욍알욍알 (218)
산책노트 (53)

지민아빠의 해처리

지민아빠's Blog is powered by Tattertools / Supported by Tatter & Media
Copyright by 지민아빠 [ http://www.ringblog.com ]. All rights reserved.

Tattertools Tatter & Media DesignMyself!
지민아빠's Blog is powered by Textcube. Designed by Qwer999. Supported by Tatter & Media.