Mercator: A Scalable, Extensible Web Crawler를 간단히 소개 합니다.
1999년 6월 26일 자료이고, 저자는 Allan Heydon(heydon@pa.dec.com), Marc Najork(najork@pa.dec.com) 입니다. 당시 Compaq System Research Center에 있었습니다.
Mercator의 Main Component를 표시한 그림 입니다. 일반적인 웹 크롤러의 구조와 비슷 하게 생겼습니다. 동작을 간단하게 살펴보면 번호 순서대로 아래와 같습니다.
- 추려진 URL을 준비 합니다.
- 각각의 scheme에 따라 fetch 명령이 실행 됩니다.
- RewindInputStream (RIS) 형식으로 download 됩니다.
- 중복 되거나 필요없는 Contents는 처리하지 않습니다.
- Link 추출, Tag Count, GIF 처리 등과 같은 작업이 수행 됩니다.
- 추출된 Link에서 필요없는 URL은 판단하여 처리하지 않습니다.
- 이미 처리된 URL은 중복으로 판단하여 처리하지 않습니다.
- 추출된 Link를 새로 탐색하기 위하여 준비 합니다.
Mercator는 기본적인 웹 크롤러의 기능을 가지고 있고, 모듈화가 잘 되어 있는 크롤러 입니다. 각각 모듈의 자세한 특징은 PDF 파일로 살펴 보실 수 있습니다. ^^
참고문헌:
Mercator: A Scalable, Extensible Web Crawler by Allan Heydon(heydon@pa.dec.com) and Marc Najork(najork@pa.dec.com) 1999/06/26
관련글:
'정보검색' 카테고리의 다른 글
정보검색(IR) 에서 Recall & Pricision 용어의 뜻 (0) | 2007.11.29 |
---|---|
구글 이름의 유래 - googol (2) | 2007.11.19 |
초기 구글 검색엔진의 구조 (0) | 2007.11.01 |