Recall 과 Precision은 IR에서 중요한 측정 기준 입니다.
Recall은 검색어와 관계되는 문서 전체 중에 몇개를 찾아내느냐를 보는 것입니다. Recall이 높지 않으면 검색 결과 자체가 적기 때문에 품질이 형편 없다고 느껴지게 됩니다. 물론 대상되는 문서 자체가 엄청나게 많다면 Recall이 어느정도 수준만 되면 검색 결과의 양이 충분 하기 때문에 품질에 문제를 느끼지 못합니다. 예를 들어 구글에서 검색하는 결과는 대상되는 문서 자체가 엄청나게 많기 때문에 다른 검색엔진에 비해서 Recall이 떨어진다고 해도 품질 자체는 더 좋아보이게 됩니다. 이 경우 Precision이 더 중요하게 됩니다.
이런 Recall이 아닙니다. 이미지 출처는 요기
Precision은 검색결과 중에서 상위 몇 위까지 중 관계되는 문서가 몇개인가를 보는 것 입니다. 결과의 "정확도"를 측정 하는 자료로서 검색엔진의 "랭킹"이 얼마나 잘 되어 있는가 측정 하는 자료 라고도 볼 수 있을 것 같습니다. 문서모음(= 컬렉션 = 검색대상 전부)의 크기가 커질 수록 높은 Precision을 가진 검색엔진이 필요합니다.
100개의 검색대상에서 "블로그"와 관계있는 문서가 50개 라고 했을때, 검색엔진에서 "블로그"를 검색 했을때 20개의 결과를 반환 한다면 Recall은 50분의 20 = 0.4 됩니다. 보통 검색 엔진이 한페이지에 10개의 결과를 보여 주므로.. 상위 10개(첫페이지)를 보았을때 "블로그"와 관계된 문서가 5개가 보인다면 Precision은 10분의 5 = 0.5의 값이 됩니다.
'정보검색' 카테고리의 다른 글
SVM을 이용하여 스펨 블로그를 판별하겠다는 논문 (2) | 2007.12.05 |
---|---|
웹 크롤러 Mercator 구조 (6) | 2007.11.21 |
구글 이름의 유래 - googol (2) | 2007.11.19 |