SVM을 이용하여 스펨 블로그를 판별하겠다는 논문

정보검색 2007. 12. 5. 12:11 Posted by 지민아빠

고감자님 블로그에서 SVM을 이용한 블로그 와 스팸 블로그 인식 이 포스트를 얼마전에 읽었습니다. 내용은

SVMs for the Blogosphere: Blog Identification and Splog Detection 논문을 읽어 보았는데 블로그를 인식 하는 것이 성능이 꽤 좋았다는 내용이었습니다.

그래서 저도 논문을 읽어 보았습니다. 내용을 살펴 보니 사용된 데이터 집합과 사용된 방법 등이 설명되어 있는데, 영어권을 중심으로 실험한 내용이었습니다. 그냥 이 결과를 믿어 버리고 "아 이렇게 하면 결과가 좋다고 하구나" 라고 넘어 갈려고 했는데 아무래도 영어권 중심의 내용이라는게 못 미더 웠습니다.

호기심이 동하여 구할 수 있는 블로그 URL 들을 가지고 테스트를 좀 해 보았습니다. 테스트에 사용된 URL 들은 주로 설치형 테터(텍스트큐브), 티스토리(독립도메인), 설치형 워드프레스 등을 사용하시는 블로그의 URL 들 을 사용 하였으며, 포털 블로그나 이글루스, 티스토리 처럼 도메인만 보면 블로그 인지 판단 할 수 있는 URL들은 일부러 제외 하고 약 6만개 정도를 추렸습니다. (이 중에는 포스팅된 글의 URL 뿐 아니고, TAG 페이지나 방명록 과 같은 URL도 있습니다)

논문의 실험 결과 중 한가지를 보면 위의 표와 같습니다.

여기서 META 항목은 <meta name="generator" 태그를 가진 것을 뜻하지만,
- 우리나라는 영어권과 달리 META 정보를 가진 블로그가 별로 없습니다. 워드프레스를 사용하시는 블로그나 몇몇 소수의 텍스트 큐브나 테터툴즈 블로그에서만 있습니다.
RSS 를 <link rel="alternate" 로 표시하지 않는 블로그도 종종 있습니다.
- 주로 버전이 낮은 테터툴즈를 사용하는 블로그 (또는 이때 작성된 스킨을 그대로 사용하시는 블로그) 에서 발견 됩니다.
blog, comment, trackback 의 단어의 경우
- 우리나라 블로그는 "댓글", "덧글", "답글", "트랙백", "연관글", "이웃글"등 여러가지 용어가 혼재되어 사용되며, 영어 단어와도 혼용 되는 특징이 있습니다.
블로그에 AnyBGM 과 같은 걸 사용하면 Frame을 사용하게 되므로, 한번에 웹페이지를 가져올 수 없어서 (귀찮으므로) 이런 URL들은 상세히 테스트하지 않고 비율만 구해 보고 제외시켜 버렸습니다.

이런 특징 들이 있기 때문에 좀 더 다른 방법으로 테스트를 해 보았습니다. META 정보의 경우 소수의 블로그에서만 발견 되지만 비교적 정확한 정보를 얻을 수 있기 때문에 블로그라고 확신되는 META 정보의 비율만 측정 하였습니다.(나모 웹 에디터와 같은 정보는 무시 하였다는 뜻) 그리고 RSS의 경우 HTML 을 전부 뒤져봐서 RSS 관련 링크라고 판단되는 모든 링크를 사용하였습니다. 그리고 bag-of-words 의 경우 혼용되는 모든 단어의 출현빈도를 계산하여 사용 하였습니다. 그래서 측정된 비율이 아래 표와 같습니다.

분류	건수	비율	비고
META	2,401	4%	words 결과와 중복
words	50,759	84.2%	META 를 제외하면 48,507건 80.5%
frame	1,139	1.9%
none	8,209	13.6%
TOTAL	60,256	100%	rss 링크가 발견된 전체 건수

여기까지 해보는데 하루 정도 걸렸습니다. ㅜ.ㅜ 나머지 블로그를 판단하는 몇가지 특징들을 추가로 테스트 해보고 좀 더 검증 해 보고 싶었습니다만, 시간도 없고 귀차니즘의 압박으로 이 정도만 하고 끝냈습니다. 하지만 이 정도 결과면 논문의 나머지 방법도 좀 더 사용하면, 이 URL이 블로그인지 아닌지 판단하는데 많은 도움을 받을 수 있을 것 같습니다. ^^

테스트에 사용된 데이터 셋이 작아서 오차가 많이 날 수 있겠습니다만.. 결론은 이 정도 인 것 같습니다.

몇가지 단어의 출연 빈도를 가지고 블로그 URL들을 측정해본 결과 결과값이 높더라
Anchor Text 나 Link 특성 분석하는 특징까지 사용하면 결과값이 꽤 신뢰성 높게 보정될 것 같다.
META 정보의 경우 우리나라에서 비율이 낮지만 확실한 정보로 판단된다.

'정보검색' 카테고리의 다른 글

링크 스펨 알아내는 방법에 대한 논문 (0)	2007.12.11
정보검색(IR) 에서 Recall & Pricision 용어의 뜻 (0)	2007.11.29
웹 크롤러 Mercator 구조 (6)	2007.11.21

지민아빠의 해처리