고감자님 블로그에서 SVM을 이용한 블로그 와 스팸 블로그 인식 이 포스트를 얼마전에 읽었습니다. 내용은

SVMs for the Blogosphere: Blog Identification and Splog Detection 논문을 읽어 보았는데 블로그를 인식 하는 것이 성능이 꽤 좋았다는 내용이었습니다.


그래서 저도 논문을 읽어 보았습니다. 내용을 살펴 보니 사용된 데이터 집합과 사용된 방법 등이 설명되어 있는데, 영어권을 중심으로 실험한 내용이었습니다. 그냥 이 결과를 믿어 버리고 "아 이렇게 하면 결과가 좋다고 하구나" 라고 넘어 갈려고 했는데 아무래도 영어권 중심의 내용이라는게 못 미더 웠습니다.

호기심이 동하여 구할 수 있는 블로그 URL 들을 가지고 테스트를 좀 해 보았습니다. 테스트에 사용된 URL 들은 주로 설치형 테터(텍스트큐브), 티스토리(독립도메인), 설치형 워드프레스 등을 사용하시는 블로그의 URL 들 을 사용 하였으며, 포털 블로그나 이글루스, 티스토리 처럼 도메인만 보면 블로그 인지 판단 할 수 있는 URL들은 일부러 제외 하고 약 6만개 정도를 추렸습니다. (이 중에는 포스팅된 글의 URL 뿐 아니고, TAG 페이지나 방명록 과 같은 URL도 있습니다)

사용자 삽입 이미지

논문의 실험 결과 중 한가지를 보면 위의 표와 같습니다.

  • 여기서 META 항목은 <meta name="generator" 태그를 가진 것을 뜻하지만,
    • 우리나라는 영어권과 달리 META 정보를 가진 블로그가 별로 없습니다. 워드프레스를 사용하시는 블로그나 몇몇 소수의 텍스트 큐브나 테터툴즈 블로그에서만 있습니다.
  • RSS 를 <link rel="alternate" 로 표시하지 않는 블로그도 종종 있습니다.
    • 주로 버전이 낮은 테터툴즈를 사용하는 블로그 (또는 이때 작성된 스킨을 그대로 사용하시는 블로그) 에서 발견 됩니다.
  • blog, comment, trackback 의 단어의 경우
    • 우리나라 블로그는 "댓글", "덧글", "답글", "트랙백", "연관글", "이웃글"등 여러가지 용어가 혼재되어 사용되며, 영어 단어와도 혼용 되는 특징이 있습니다.
  • 블로그에 AnyBGM 과 같은 걸 사용하면 Frame을 사용하게 되므로, 한번에 웹페이지를 가져올 수 없어서 (귀찮으므로) 이런 URL들은 상세히 테스트하지 않고 비율만 구해 보고 제외시켜 버렸습니다.

이런 특징 들이 있기 때문에 좀 더 다른 방법으로 테스트를 해 보았습니다. META 정보의 경우 소수의 블로그에서만 발견 되지만 비교적 정확한 정보를 얻을 수 있기 때문에 블로그라고 확신되는 META  정보의 비율만 측정 하였습니다.(나모 웹 에디터와 같은 정보는 무시 하였다는 뜻) 그리고 RSS의 경우 HTML 을 전부 뒤져봐서 RSS 관련 링크라고 판단되는 모든 링크를 사용하였습니다. 그리고 bag-of-words 의 경우 혼용되는 모든 단어의 출현빈도를 계산하여 사용 하였습니다. 그래서 측정된 비율이 아래 표와 같습니다.

분류
건수
비율
비고
META
2,401 4% words 결과와 중복
words 50,759
84.2%
META 를 제외하면 48,507건 80.5%
frame 1,139
1.9%
none 8,209 13.6%
TOTAL 60,256 100% rss 링크가 발견된 전체 건수

여기까지 해보는데 하루 정도 걸렸습니다. ㅜ.ㅜ 나머지 블로그를 판단하는 몇가지 특징들을 추가로 테스트 해보고 좀 더 검증 해 보고 싶었습니다만, 시간도 없고 귀차니즘의 압박으로 이 정도만 하고 끝냈습니다. 하지만 이 정도 결과면 논문의 나머지 방법도 좀 더 사용하면, 이 URL이 블로그인지 아닌지 판단하는데 많은 도움을 받을 수 있을 것 같습니다. ^^

테스트에 사용된 데이터 셋이 작아서 오차가 많이 날 수 있겠습니다만.. 결론은 이 정도 인 것 같습니다.
  • 몇가지 단어의 출연 빈도를 가지고 블로그 URL들을 측정해본 결과 결과값이 높더라
  • Anchor Text 나 Link 특성 분석하는 특징까지 사용하면 결과값이 꽤 신뢰성 높게 보정될 것 같다.
  • META 정보의 경우 우리나라에서 비율이 낮지만 확실한 정보로 판단된다.
,
BLOG main image
지민아빠의 해처리

카테고리

분류 전체보기 (73)
블라블라 (21)
정보검색 (15)
우주전쟁 (37)

최근에 올라온 글

지민아빠의 해처리

지민아빠's Blog is powered by Tattertools
Copyright by 지민아빠 [ http://www.ringblog.com ]. All rights reserved.

Tattertools DesignMyself!
지민아빠's Blog is powered by Textcube. Designed by Qwer999.