웹 크롤러 Mercator 구조

정보검색 2007. 11. 21. 15:12 Posted by 지민아빠

Mercator: A Scalable, Extensible Web Crawler를 간단히 소개 합니다.

1999년 6월 26일 자료이고, 저자는 Allan Heydon(heydon@pa.dec.com), Marc Najork(najork@pa.dec.com) 입니다. 당시 Compaq System Research Center에 있었습니다.

사용자 삽입 이미지
 

Mercator의 Main Component를 표시한 그림 입니다. 일반적인 웹 크롤러의 구조와 비슷 하게 생겼습니다. 동작을 간단하게 살펴보면 번호 순서대로 아래와 같습니다.


  1. 추려진 URL을 준비 합니다.
  2. 각각의 scheme에 따라 fetch 명령이 실행 됩니다.
  3. RewindInputStream (RIS) 형식으로 download 됩니다.
  4. 중복 되거나 필요없는 Contents는 처리하지 않습니다.
  5. Link 추출, Tag Count, GIF 처리 등과 같은 작업이 수행 됩니다.
  6. 추출된 Link에서 필요없는 URL은 판단하여 처리하지 않습니다.
  7. 이미 처리된 URL은 중복으로 판단하여 처리하지 않습니다.
  8. 추출된 Link를 새로 탐색하기 위하여 준비 합니다.

Mercator는 기본적인 웹 크롤러의 기능을 가지고 있고, 모듈화가 잘 되어 있는 크롤러 입니다. 각각 모듈의 자세한 특징은 PDF 파일로 살펴 보실 수 있습니다. ^^


참고문헌:

Mercator: A Scalable, Extensible Web Crawler by Allan Heydon(heydon@pa.dec.com) and Marc Najork(najork@pa.dec.com) 1999/06/26


관련글:

2007/11/01 - 초기 구글 검색엔진의 구조
2007/11/01 - 공개 검색엔진 Nutch의 구조

,
BLOG main image
지민아빠의 해처리

카테고리

분류 전체보기 (73)
블라블라 (21)
정보검색 (15)
우주전쟁 (37)

최근에 올라온 글

지민아빠의 해처리

지민아빠's Blog is powered by Tattertools
Copyright by 지민아빠 [ http://www.ringblog.com ]. All rights reserved.

Tattertools DesignMyself!
지민아빠's Blog is powered by Textcube. Designed by Qwer999.