공개 검색엔진 Nutch의 구조

욍알욍알/정보검색 2007/11/01 01:03 Posted by 지민아빠

Nutch는 자바로 구현된 오픈소스 검색엔진 입니다. LuceneIndexer 와 Searcher로 구성되어 있고, Nutch는 Lucene에 없는 웹검색에 필요한 모든 기본요소를 전부 갖추어서 웹검색 용으로 확장 한 것이라고 보면 될 것 같습니다. 그래서 Nutch Lucene 기반의 공개 웹검색 엔진입니다. Nutch는 많은 부분 구글 검색 엔진 구조를 목표로 하고 있습니다.

전체적인 구조는 일반적인 웹검색 시스템의 구조와 비슷한 것 같습니다.

사용자 삽입 이미지

Nutch의 구조는 그림과 같은데, 이걸 지금 제가 알고 있는 웹검색 시스템의 구조로 이해하기 위해서 대충 나누어 보면 아래처럼 나눌 수 있을 것 같습니다.

  1. Crawler
    • Nutch는 웹데이터 들을 효과적으로 가져올 수 있는 fetcher 들을 가지고 있습니다. 이를 통해서 목표로 하는 URL 들의 데이터를 수집하고, 이 작업은 목표로 하는 깊이까지 도착하면 멈춥니다.
  2. Repository
    • 수집된 웹 데이터 들은 Repository에 저장됩니다. Nutch에서는 특별히 Repository 라는 명칭을 사용하지는 않지만, WebDB와 Segment들이 여기에 해당 한다고 수 있을 것 같습니다.
  3. Indexer
    • 수집된 데이터는 Lucene에서 사용 가능한 Index 형식으로 구성되어야 합니다.
  4. Searcher
    • 구성된 Index는 Lucene Searcher 에서 사용됩니다.

몇일 뒤에 어떤 고마운 분이 Nutch의 구조나 특징에 대하여 조사 한것을 설명 해 주실텐데 Nutch가 어떻게 생긴건지 전혀 몰라서 간단히 살펴 보았습니다. 이제 어느정도 설명을 들을 만한 최소한의 기본 준비는 것 같으니 이제 기다려야 겠군요. ^^


참고문헌:

Introduction to Nutch, Part 1: Crawling by Tom White 2006/01/10 번역본

Introduction to Nutch, Part 2: Searching by Tom White 2006/02/16

Nutch: Open-Source Web Search Software by Doug Cutting(doug@nutch.org) 2004/11/26

Open Source Search by Doug Cutting(cutting@apache.org) 2005/12/05


빠른소식을 원하신다면 또는 Add to Google로 구독하시면 편리합니다. ^^

안내
이글에는 다른분에게 권리가 있는 컨텐츠가 포함되어 있을 수 있으며, 이를 무단으로 사용하시면 안됩니다. 자세한 내용은 컨텐츠 사용시 주의사항을 읽어봐 주시기 바랍니다.

Creative Commons License
제가 직접 작성한 부분에 한하여 크리에이티브 커먼즈 코리아 저작자표시-비영리-변경금지 2.0 대한민국 라이선스에 따라 이용하실 수 있습니다.
  1. mepays 2007/11/01 02:08 답글수정삭제

    어렵습니다. -_-;; 자세히 읽어봤는데 전에 페이지랭크 설명하신것과 별반 차이가 없는것 같습니다. 전혀 다른 분야라 그런지 생소하기만 한데 제가 이곳을 자주 찾는 이윤..왠지 모를 끌림 같은게 있는것 같습니다. 모르지만 뭔가 새로운게 있을것 같은..나중에 기회가 되시면 넙치,에 관한 (쉬운) 설명 부탁 드리겠습니다. ㅎㅎ 하지만 그림으로 대략적 구조는 알겠습니다.

    • 지민아빠 2007/11/01 11:08 수정삭제

      논문에 나오는 저 허접한 그림 한장으로 대략적 구조를 아실 정도라면, 밑에 기재된 참고문헌 정도 만 읽어 보시면 Nutch를 이해하는데 많은 도움이 되실 것 같습니다. 필요하실 경우에 말입니다. ^^

트랙백 주소 :: http://ypshin.com/2690127/trackback/
옵션
댓글 달기
블로그 이미지
Blog Image
지민아빠의 해처리

by 지민아빠
프로필 버튼
프로필 상세보기
블로그롤 정보




구글 우수 블로거

카테고리



지민아빠의 해처리

지민아빠's Blog is powered by Tattertools / Supported by Tatter & Media
Copyright by 지민아빠 [ http://www.ringblog.com ]. All rights reserved.

Tattertools Tatter & Media DesignMyself!
지민아빠's Blog is powered by Textcube. Designed by Qwer999. Supported by Tatter & Media.