예전에 링크 스펨 알아내는 방법에 대한 논문을 읽고 간단히 만들어 본적이 있는데요. 워낙 유명한 스펨사이트만 나와서 별 쓸모 없어 보이긴 했지만, 잊어버리기 전에 정리하는 차원에서 그때 사용했던 방법을 정리해 둡니다.

우연히 주소를 잘못치고 들어간 곳이 낯뜨거운 성인사이트 거나 불법 파일공유 사이트, 도메인 장사하는 사이트 였던 기억이 가끔 있는데요. 이런 사이트가 검색결과에 등장하면 안되겠죠. 이런 스펨사이트를 걸러내는 방법에는 여러가지가 있지만 그 중에 한가지가 링크를 가지고 분석하는 방법 입니다.


사이트간의 링크를 그림처럼 그려놓고 찾아보면 변방에 자기들끼리 모여있는 그룹을 볼 수 있습니다. 어떤 경우 몇몇 사이트들 끼리 수만개 이상 링크를 교환해서 가지는 경우도 있습니다. 이 경우 대부분의 경우 스펨사이트들 입니다. 요즘 나오는 검색엔진들은 이런 기초적인 스펨은 대부분 걸러버리기 때문에 요즘에도 이런 방법으로 검색랭킹을 올리려는 시도는 별로 없지만, 그래도 꽤 남아 있습니다.

목표는 위그림의 빨간색 표시들을 찾는 겁니다. 이런 사이트를 찾으려면 어떻게 해야 할까요?

먼저 수많은 웹페이지로 부터 링크를 찾는 과정이 필요 합니다. 그리고 각 사이트간의 연결을 찾기 위하여 링크를 추상화 시켜야 겠죠. 제 경우 '링크 URL'의 'HOST' 부분만 찾아서 사용했습니다. 그럼 아래 그림과 같은 연결을 찾을 수 있습니다.


이 데이터(HostMap)를 기준으로 Rank 점수를 계산 했습니다. 각 Host마다 초기 10점의 점수를 가지고 있고, Outlink 갯수 만큼 나누어 주었습니다. 이런 방식으로 10번 이상 여러번 돌리면, 링크를 받는 Host는 점점 점수가 올라가게 됩니다. 페이지랭크와 비슷한 방법이죠. 여기에서 WhiteList(원래 유명한 믿을만한 사이트들)를 뺍니다.

이런방식으로 어느정도 상위분포를 잘라보면 별로 유명하지도 않으면서 지들끼리 수만개 이상 링크를 교환하는 스펨사이트가 나타나게 됩니다. 물론 국내외 검색엔진들은 이것보다 더 정교하고 똑똑한 방법을 사용합니다. 그리고 스펨사이트에는 여러가지 유형이 있는데 링크스펨은 그 중 한가지일 뿐이죠. ^^
,

구글 페이지 랭크의 이해를 위한 간단설명

정보검색 2007. 10. 30. 14:57 Posted by 지민아빠
사용자 삽입 이미지
요즘 구글에서 페이지 랭크를 업데이트 하고 있다고, 소식이 들리고 있습니다. 들리는 소식에 의하면 블로그 쪽에 특화된 변화가 있다고 합니다만 아직 정확히 밝혀진 내용은 접해보지 못했습니다.

얼마전에 회사에서 Google's PageRank and Beyond 라는 책을 스터디 한 적이 있습니다. 역시 PageRank의 내용은 수학적인 내용이 거의 전부이기 때문에 수학에 취약한 본인은 다른분들의 도움을 받아서 겨우겨우 쫓아가는 것이 전부 였지만, PageRank의 개념을 이해하고 특성을 이해하는 데는 많은 도움이 되어 나름 뿌듯한 스터디 였습니다. ㅜ.ㅜ

구글의 PageRank라는 개념은 쉽게 이야기 해서 "사람들이 Link를 많이 거는 URL은 사람들이 많이 찾아가는 곳일 테고, 그 만큼 정확한 정보가 있는 곳일테니 URL의 랭킹값을 높게 주자." 라는 이론입니다. 이 것은 사람들이 실제로 어디를 얼마나 찾아가는지 모르기 때문에 이것을 계산하기 위하여 구글에서 개발한 방법입니다. 아마 실제로 사람들이 어디를 돌아다니는지 알 수 있으면 PageRank 보다 더 정확한 랭킹값을 계산 할 수 있을 거라고 생각 합니다.

실제로 구글에서 PageRank 를 어떤 값을 가지고 어떻게 계산하는지 전부 다 공개되어 있지는 않지만 추상적으로 보면 아래 그림과 같은 방법으로 계산 될 겁니다.
사용자 삽입 이미지
출처: How PageRank Works

이렇게 계산 된 값은 이론상 원래 하나의 URL당 하나의 상수값을 가지고 전체의 URL이 일렬로 주욱 순위별로 서 있는 형태를 가지게 됩니다. 그러므로 여러분의 블로그에 여러개의 글들은 전부다 PageRank 값을 가지고 있습니다. 다만 대부분 Top URL을 링크로 거는 경우가 많으므로 가장 널리 알려진 Top URL이 PageRank 값이 가장 높을 확률이 높습니다.
이 값을 보기 쉽게 0부터 10까지의 레벨로 표시한 값이 보통 '3'이네 '7'이네 하고 부르는 값이 됩니다. 레벨별로 분포는 보통 아래그림과 같다고 합니다.
사용자 삽입 이미지
분포를 보면 6레벨 이하의 값은 전세계 웹페이지 중에서 밑바닥 이군요. ㅜ.ㅜ (하지만 그래도 3.5 이상의 값을 가지면 Average에 속할 수 있습니다!!!)

여기까지 구글의 PageRank를 이해하기 위한 간단 설명이였습니다.
자아 마지막으로 Rank 9를 먹는 그날까지!! 고고~~
,
BLOG main image
지민아빠의 해처리

카테고리

분류 전체보기 (73)
블라블라 (21)
정보검색 (15)
우주전쟁 (37)

최근에 올라온 글

지민아빠의 해처리

지민아빠's Blog is powered by Tattertools
Copyright by 지민아빠 [ http://www.ringblog.com ]. All rights reserved.

Tattertools DesignMyself!
지민아빠's Blog is powered by Textcube. Designed by Qwer999.