정보검색

웹 크롤러 Mercator 구조

지민아빠 2007. 11. 21. 15:12

Mercator: A Scalable, Extensible Web Crawler를 간단히 소개 합니다.

1999년 6월 26일 자료이고, 저자는 Allan Heydon(heydon@pa.dec.com), Marc Najork(najork@pa.dec.com) 입니다. 당시 Compaq System Research Center에 있었습니다.

 

Mercator의 Main Component를 표시한 그림 입니다. 일반적인 웹 크롤러의 구조와 비슷 하게 생겼습니다. 동작을 간단하게 살펴보면 번호 순서대로 아래와 같습니다.


  1. 추려진 URL을 준비 합니다.
  2. 각각의 scheme에 따라 fetch 명령이 실행 됩니다.
  3. RewindInputStream (RIS) 형식으로 download 됩니다.
  4. 중복 되거나 필요없는 Contents는 처리하지 않습니다.
  5. Link 추출, Tag Count, GIF 처리 등과 같은 작업이 수행 됩니다.
  6. 추출된 Link에서 필요없는 URL은 판단하여 처리하지 않습니다.
  7. 이미 처리된 URL은 중복으로 판단하여 처리하지 않습니다.
  8. 추출된 Link를 새로 탐색하기 위하여 준비 합니다.

Mercator는 기본적인 웹 크롤러의 기능을 가지고 있고, 모듈화가 잘 되어 있는 크롤러 입니다. 각각 모듈의 자세한 특징은 PDF 파일로 살펴 보실 수 있습니다. ^^


참고문헌:

Mercator: A Scalable, Extensible Web Crawler by Allan Heydon(heydon@pa.dec.com) and Marc Najork(najork@pa.dec.com) 1999/06/26


관련글:

2007/11/01 - 초기 구글 검색엔진의 구조
2007/11/01 - 공개 검색엔진 Nutch의 구조