고감자님 블로그에서 SVM을 이용한 블로그 와 스팸 블로그 인식 이 포스트를 얼마전에 읽었습니다. 내용은

SVMs for the Blogosphere: Blog Identification and Splog Detection 논문을 읽어 보았는데 블로그를 인식 하는 것이 성능이 꽤 좋았다는 내용이었습니다.


그래서 저도 논문을 읽어 보았습니다. 내용을 살펴 보니 사용된 데이터 집합과 사용된 방법 등이 설명되어 있는데, 영어권을 중심으로 실험한 내용이었습니다. 그냥 이 결과를 믿어 버리고 "아 이렇게 하면 결과가 좋다고 하구나" 라고 넘어 갈려고 했는데 아무래도 영어권 중심의 내용이라는게 못 미더 웠습니다.

호기심이 동하여 구할 수 있는 블로그 URL 들을 가지고 테스트를 좀 해 보았습니다. 테스트에 사용된 URL 들은 주로 설치형 테터(텍스트큐브), 티스토리(독립도메인), 설치형 워드프레스 등을 사용하시는 블로그의 URL 들 을 사용 하였으며, 포털 블로그나 이글루스, 티스토리 처럼 도메인만 보면 블로그 인지 판단 할 수 있는 URL들은 일부러 제외 하고 약 6만개 정도를 추렸습니다. (이 중에는 포스팅된 글의 URL 뿐 아니고, TAG 페이지나 방명록 과 같은 URL도 있습니다)

사용자 삽입 이미지

논문의 실험 결과 중 한가지를 보면 위의 표와 같습니다.

  • 여기서 META 항목은 <meta name="generator" 태그를 가진 것을 뜻하지만,
    • 우리나라는 영어권과 달리 META 정보를 가진 블로그가 별로 없습니다. 워드프레스를 사용하시는 블로그나 몇몇 소수의 텍스트 큐브나 테터툴즈 블로그에서만 있습니다.
  • RSS 를 <link rel="alternate" 로 표시하지 않는 블로그도 종종 있습니다.
    • 주로 버전이 낮은 테터툴즈를 사용하는 블로그 (또는 이때 작성된 스킨을 그대로 사용하시는 블로그) 에서 발견 됩니다.
  • blog, comment, trackback 의 단어의 경우
    • 우리나라 블로그는 "댓글", "덧글", "답글", "트랙백", "연관글", "이웃글"등 여러가지 용어가 혼재되어 사용되며, 영어 단어와도 혼용 되는 특징이 있습니다.
  • 블로그에 AnyBGM 과 같은 걸 사용하면 Frame을 사용하게 되므로, 한번에 웹페이지를 가져올 수 없어서 (귀찮으므로) 이런 URL들은 상세히 테스트하지 않고 비율만 구해 보고 제외시켜 버렸습니다.

이런 특징 들이 있기 때문에 좀 더 다른 방법으로 테스트를 해 보았습니다. META 정보의 경우 소수의 블로그에서만 발견 되지만 비교적 정확한 정보를 얻을 수 있기 때문에 블로그라고 확신되는 META  정보의 비율만 측정 하였습니다.(나모 웹 에디터와 같은 정보는 무시 하였다는 뜻) 그리고 RSS의 경우 HTML 을 전부 뒤져봐서 RSS 관련 링크라고 판단되는 모든 링크를 사용하였습니다. 그리고 bag-of-words 의 경우 혼용되는 모든 단어의 출현빈도를 계산하여 사용 하였습니다. 그래서 측정된 비율이 아래 표와 같습니다.

분류
건수
비율
비고
META
2,401 4% words 결과와 중복
words 50,759
84.2%
META 를 제외하면 48,507건 80.5%
frame 1,139
1.9%
none 8,209 13.6%
TOTAL 60,256 100% rss 링크가 발견된 전체 건수

여기까지 해보는데 하루 정도 걸렸습니다. ㅜ.ㅜ 나머지 블로그를 판단하는 몇가지 특징들을 추가로 테스트 해보고 좀 더 검증 해 보고 싶었습니다만, 시간도 없고 귀차니즘의 압박으로 이 정도만 하고 끝냈습니다. 하지만 이 정도 결과면 논문의 나머지 방법도 좀 더 사용하면, 이 URL이 블로그인지 아닌지 판단하는데 많은 도움을 받을 수 있을 것 같습니다. ^^

테스트에 사용된 데이터 셋이 작아서 오차가 많이 날 수 있겠습니다만.. 결론은 이 정도 인 것 같습니다.
  • 몇가지 단어의 출연 빈도를 가지고 블로그 URL들을 측정해본 결과 결과값이 높더라
  • Anchor Text 나 Link 특성 분석하는 특징까지 사용하면 결과값이 꽤 신뢰성 높게 보정될 것 같다.
  • META 정보의 경우 우리나라에서 비율이 낮지만 확실한 정보로 판단된다.
,

이 글을 읽기전에 먼저 이런 잡담을 하게된 이전 글들을 읽어 보시면 좋을 것 같습니다.

우주선에 관한 기술이 발전되고, 우주 항해를 위한 동력 문제가 충분히 해결된다면, 우주에서 사람이 탑승한 우주선을 고속으로 운행하는데 최고의 걸림돌은 가속에 따른 관성에 법칙에 의한 압력이 될 것이다.

사용자 삽입 이미지

이미지 출처: 위키백과

전투기의 조종사를 살펴보았을때 4G 이상이 되면 시야가 흐려지고 5G 이상이 되면 의식을 잃을 수 있다. F-16 전투기는 (일시적으로) 최대 9G 까지 압력을 받을 수 있다고 한다.

조종사 들이 착용하는 슈트가 1~2G 가량 압력을 줄여주는 효과가 있다는 것을 고려했을때, 미래에 더 좋은 슈트가 개발되어 2G 가량의 압력을 항상 줄여 줄 수 있는 효과를 가진다고 가정 했을때, 우주전함의 가속은 6G 이상으로 지속 하는 것은 불가능해 보인다. 여기에 항행시 장애물의 급속 회피 동작을 고려하면 5G 정도가 안전한 가속 일 것 같다. 이것도 처음 출발이나 도착시에 잠시간의 시간만 사용 가능 할 것 이다. 긴 항해동안 정해진 자리에 꼼짝 말고 앉아서 압력만 견디면서 갈 수는 없기 때문이다. 밥도 먹고 화장실도 가야한다. 출발시에 잠깐 급가속 한후에는 평 가속으로 돌입 해야 하는데 이 경우 슈트를 고려하더라도 3~4G 이상은 힘들다. 그리고 전투시 격한 움직임을 고려하면 전투 속도는 3G 이하의 가속으로 사용 가능 할 것 같다.


이 정도의 속도가 우주공간에서 얼마나 빠른 속도인지 알아보기 위하여 아래의 표를 살펴보자. 일단 한가지 절대적인 가정은 광속의 99% 의 속도 이상은 낼 수 없다는 것이다.

압력 가속 가속시간 이동거리
1G 초속 9.8m,시속 35km 350일 4조5천억km = 0.5광년 = 3만AU
3G 초속 29.4m,시속 105km 116일 1조5천억km = 0.16광년 = 1만AU
5G 초속 49m,시속 176km 70일 9천억km = 0.09광년 = 6천AU
10G 초속 98m,시속 350km 35일 4천5백억km = 0.047광년 = 3천AU
25G 초속 245m,시속 882km 14일 1조8백억km = 0.019광년 = 1천2백AU
100G 초속 980m,시속 3528km 3일 4백50억km = 0.005광년 = 300AU

1초에 초속 9.8미터(시속 35킬로미터)씩 계속 가속하면 1G의 압력을 가지게 된다. 이 경우 광속의 99% 속도까지 가속 하는데 350일이 걸린다. 이동한 거리는 약 44,942억 킬로미터, 태양에서 명왕성까지의 거리(약 60억 킬로미터)의 450배 거리(약 0.5광년)이다. 탄도 요격 미사일의 경우 최대가속도는 100G 라고 한다. 이 경우 3일만에 광속의 99% 까지 가속이 가능하고, 가속에 필요한 거리는 450억 킬로미터(0.005광년, 300AU), 명왕성 거리의 7.5배 이다. 만약 0.5광년 거리의 적을 찾아낼 수 있다면, 연료만 충분 하다면 185일 (약 6개월) 후에 타격이 가능하다는 이야기 이다.

사용자 삽입 이미지

이미지 출처 : 위키백과

이렇게 되면 우주전함에서 공격을 위한 가장 중요한 시스템은 아마 레이더와 같은 탐지장비가 될 것이다. 전파 망원경과 비슷한 구조의 수동 탐지장치로 약 1광년 이내의 적의 존재를 식별 할 수 있어야 할 것이며, 0.5광년 이내의 적의 위치를 탐지 할 수 있을 정도는 되어야 한다. 500만 키로미터 이하의 거리에서는 레이저 측정 장치와 같은 능동적 탐지장치로 적의 정확한 위치를 거의 오차 없이 계산 할 수 있어야 하겠다. (이렇게 되면 잠수함의 능동 소나와 수동소나와 비슷하다)

또한 안전을 위하여 우주선에 피해를 입힐 수 있는 콩알만한 아주 작은 물체까지도 최소한 100만 키로미터 이하의 근접거리에서 탐지 가능 하여야 한다.

사용자 삽입 이미지

탐지 거리가 이정도 된다고 가정 했을때 능동적으로 적을 찾아서 갈 수 있는 유도 미사일 공격 체계의 경우 적의 위치를 탐지 할 수 있는 최대거리인 약 0.5광년의 거리에서 발사 가능하며, 적이 광속의 99% 속도로 이쪽으로 곧장 날아오고 있다고 한다면 약 3개월 후에  타격이 가능하다. 직사 무기인 빔 종류의 공격 거리는 빔 자체의 발사거리와 상관 없이 목표의 오차없는 정확한 위치를 알 수 있는 거리와, 목표까지 빔의 궤도(반입자 빔은 자기장등에 의하여 궤도가 휠 수 있기 때문에 궤도 보정을 통한 발사 각도를 계산 할 수 있어야 한다)를 계산 할 수 있는 거리에 의해서 결정 될 것 같다. 약 500만 키로미터의 목표를 타격 가능 할 것 같다. 이때 목표를 타격 하는데 까지의 시간은 약 30초 (조준 및 발사 10초 미만, 발사후 목표까지 약 20초 미만) 미만 정도 일 것이다.

우주에서 함대전이 발생 한다면 약 4조 5천억 킬로미터에서 적이 발견 되면 일단 먼저 장거리 유도 미사일을 발사 하고 승무원들을 준비시켜 가속을 시작하여 2~3개월 동안 항해하여 몇천억 킬로미터 이하까지 거리를 좁힌 다음 전투속도 이하로 감속하고 단거리 유도 미사일을 발사하여 미사일 전을 개시하고 일주일 안에 몇백만 키로미터 이하로 접근 하게 되면 단거리 포격전이 이루어 질 것 같다. 장거리 미사일이나, 단거리 미사일이나, 포격전에서 모두 1발만 맞으면 우주의 재로 화하게 된다.

가장 근접한 400만 키로미터의 거리는 지구에서 달까지 거리의 10배 이상. 지구에서 금성까지 거리의 20분의 1이하 되는 거리로, 적의 영상을 눈으로 확인 하는 것은 불가능(만화에 나오는 우주전함의 함교는 필요 없는 물건이다) 할 테고, 빔마저도 몇십초, 미사일은 몇일 만에 결과를 알 수 있는.. 마치 눈으로 볼 수 없고 소나에 의지하여야 하며, 느릿느릿 기어가는 어뢰로 싸워야 하는 잠수함전과 매우 흡사한 전투 방식이 될 듯 하다.


이렇게 해서 일단 계획한 분량의 글은 전부 다 쓰긴 썼습니다. ^^ (휴우)

이제부터는 차차 연표, 배경, 기타 과학적 자료들.. 에 관한 글들을 생각 날때 마다 쓸 생각 입니다.
일단 중력이나, 항해에 관한 문제에 대해서 우주전함의 구조에 대해서 먼저 시작할 예정이고, 그 다음에 대상이 되는 외계인에 대한 고민 등을 해 볼 생각 입니다. 생각 보다 자료조사에 시간이 많이 들어서. 글이 얼마나 주기적으로 올라 올찌 모르겠습니다만, 의외로 재미 있어서 차근 차근 하나하나 써볼 생각 입니다. 나중에 글이 어느정도 모이면 그때 무얼 할까 생각 해보기로 하고, 일단 지금은 흥미가 땡기는 대로 이것 저것. ^^
,

정보검색(IR) 에서 Recall & Pricision 용어의 뜻

정보검색 2007. 11. 29. 17:53 Posted by 지민아빠

Recall 과 Precision은 IR에서 중요한 측정 기준 입니다.

Recall은 검색어와 관계되는 문서 전체 중에 몇개를 찾아내느냐를 보는 것입니다. Recall이 높지 않으면 검색 결과 자체가 적기 때문에 품질이 형편 없다고 느껴지게 됩니다. 물론 대상되는 문서 자체가 엄청나게 많다면 Recall이 어느정도 수준만 되면 검색 결과의 양이 충분 하기 때문에 품질에 문제를 느끼지 못합니다. 예를 들어 구글에서 검색하는 결과는 대상되는 문서 자체가 엄청나게 많기 때문에 다른 검색엔진에 비해서 Recall이 떨어진다고 해도 품질 자체는 더 좋아보이게 됩니다. 이 경우 Precision이 더 중요하게 됩니다.

사용자 삽입 이미지

이런 Recall이 아닙니다. 이미지 출처는 요기

Precision은 검색결과 중에서 상위 몇 위까지 중 관계되는 문서가 몇개인가를 보는 것 입니다. 결과의 "정확도"를 측정 하는 자료로서 검색엔진의 "랭킹"이 얼마나 잘 되어 있는가 측정 하는 자료 라고도 볼 수 있을 것 같습니다. 문서모음(= 컬렉션 = 검색대상 전부)의 크기가 커질 수록 높은 Precision을 가진 검색엔진이 필요합니다.

 
100개의 검색대상에서 "블로그"와 관계있는 문서가 50개 라고 했을때, 검색엔진에서 "블로그"를 검색 했을때 20개의 결과를 반환 한다면 Recall은 50분의 20 = 0.4 됩니다. 보통 검색 엔진이 한페이지에 10개의 결과를 보여 주므로.. 상위 10개(첫페이지)를 보았을때 "블로그"와 관계된 문서가 5개가 보인다면 Precision은 10분의 5 = 0.5의 값이 됩니다.

,
BLOG main image
지민아빠의 해처리

카테고리

분류 전체보기 (73)
블라블라 (21)
정보검색 (15)
우주전쟁 (37)

최근에 올라온 글

지민아빠의 해처리

지민아빠's Blog is powered by Tattertools
Copyright by 지민아빠 [ http://www.ringblog.com ]. All rights reserved.

Tattertools DesignMyself!
지민아빠's Blog is powered by Textcube. Designed by Qwer999.