Nutch는 자바로 구현된 오픈소스 검색엔진 입니다. Lucene이 Indexer 와 Searcher로 구성되어 있고, Nutch는 Lucene에 없는 웹검색에 필요한 모든 기본요소를 전부 갖추어서 웹검색 용으로 확장 한 것이라고 보면 될 것 같습니다. 그래서 Nutch는Lucene 기반의 공개 웹검색 엔진입니다. Nutch는 많은 부분 구글 검색 엔진 구조를 목표로 하고 있습니다.
전체적인 구조는 일반적인 웹검색 시스템의 구조와 비슷한 것 같습니다.
Nutch의 구조는 그림과 같은데, 이걸 지금 제가 알고 있는 웹검색 시스템의 구조로 이해하기 위해서 대충 나누어 보면 아래처럼 나눌 수 있을 것 같습니다.
Crawler
Nutch는 웹데이터 들을 효과적으로 가져올 수 있는 fetcher 들을 가지고 있습니다. 이를 통해서 목표로 하는 URL 들의 데이터를 수집하고, 이 작업은 목표로 하는 깊이까지 도착하면 멈춥니다.
Repository
수집된 웹 데이터 들은 Repository에 저장됩니다. Nutch에서는 특별히 Repository 라는 명칭을 사용하지는 않지만, WebDB와 Segment들이 여기에 해당 한다고 볼 수 있을 것 같습니다.
Indexer
수집된 데이터는 Lucene에서 사용 가능한 Index 형식으로 구성되어야 합니다.
Searcher
구성된 Index는 Lucene Searcher 에서 사용됩니다.
몇일 뒤에 어떤 고마운 분이 Nutch의 구조나 특징에 대하여 조사 한것을 설명 해 주실텐데 Nutch가 어떻게 생긴건지 전혀 몰라서 간단히 살펴 보았습니다. 이제 어느정도 설명을 들을 만한 최소한의 기본 준비는 한 것 같으니 이제 기다려야 겠군요. ^^
어렵습니다. -_-;; 자세히 읽어봤는데 전에 페이지랭크 설명하신것과 별반 차이가 없는것 같습니다. 전혀 다른 분야라 그런지 생소하기만 한데 제가 이곳을 자주 찾는 이윤..왠지 모를 끌림 같은게 있는것 같습니다. 모르지만 뭔가 새로운게 있을것 같은..나중에 기회가 되시면 넙치,에 관한 (쉬운) 설명 부탁 드리겠습니다. ㅎㅎ 하지만 그림으로 대략적 구조는 알겠습니다.
댓글을 달아 주세요
어렵습니다. -_-;; 자세히 읽어봤는데 전에 페이지랭크 설명하신것과 별반 차이가 없는것 같습니다. 전혀 다른 분야라 그런지 생소하기만 한데 제가 이곳을 자주 찾는 이윤..왠지 모를 끌림 같은게 있는것 같습니다. 모르지만 뭔가 새로운게 있을것 같은..나중에 기회가 되시면 넙치,에 관한 (쉬운) 설명 부탁 드리겠습니다. ㅎㅎ 하지만 그림으로 대략적 구조는 알겠습니다.
2007/11/01 02:08논문에 나오는 저 허접한 그림 한장으로 대략적 구조를 아실 정도라면, 밑에 기재된 참고문헌 정도 만 읽어 보시면 Nutch를 이해하는데 많은 도움이 되실 것 같습니다. 필요하실 경우에 말입니다. ^^
2007/11/01 11:08