Recall 과 Precision은 IR에서 중요한 측정 기준 입니다.

Recall은 검색어와 관계되는 문서 전체 중에 몇개를 찾아내느냐를 보는 것입니다. Recall이 높지 않으면 검색 결과 자체가 적기 때문에 품질이 형편 없다고 느껴지게 됩니다. 물론 대상되는 문서 자체가 엄청나게 많다면 Recall이 어느정도 수준만 되면 검색 결과의 양이 충분 하기 때문에 품질에 문제를 느끼지 못합니다. 예를 들어 구글에서 검색하는 결과는 대상되는 문서 자체가 엄청나게 많기 때문에 다른 검색엔진에 비해서 Recall이 떨어진다고 해도 품질 자체는 더 좋아보이게 됩니다. 이 경우 Precision이 더 중요하게 됩니다.

사용자 삽입 이미지

이런 Recall이 아닙니다. 이미지 출처는 요기

Precision은 검색결과 중에서 상위 몇 위까지 중 관계되는 문서가 몇개인가를 보는 것 입니다. 결과의 "정확도"를 측정 하는 자료로서 검색엔진의 "랭킹"이 얼마나 잘 되어 있는가 측정 하는 자료 라고도 볼 수 있을 것 같습니다. 문서모음(= 컬렉션 = 검색대상 전부)의 크기가 커질 수록 높은 Precision을 가진 검색엔진이 필요합니다.

 
100개의 검색대상에서 "블로그"와 관계있는 문서가 50개 라고 했을때, 검색엔진에서 "블로그"를 검색 했을때 20개의 결과를 반환 한다면 Recall은 50분의 20 = 0.4 됩니다. 보통 검색 엔진이 한페이지에 10개의 결과를 보여 주므로.. 상위 10개(첫페이지)를 보았을때 "블로그"와 관계된 문서가 5개가 보인다면 Precision은 10분의 5 = 0.5의 값이 됩니다.


빠른소식을 원하신다면 또는 Add to Google로 구독하시면 편리합니다. ^^

안내
이글에는 다른분에게 권리가 있는 컨텐츠가 포함되어 있을 수 있으며, 이를 무단으로 사용하시면 안됩니다. 자세한 내용은 컨텐츠 사용시 주의사항을 읽어봐 주시기 바랍니다.

Creative Commons License
제가 직접 작성한 부분에 한하여 크리에이티브 커먼즈 코리아 저작자표시-비영리-변경금지 2.0 대한민국 라이선스에 따라 이용하실 수 있습니다.
트랙백 주소 :: http://ypshin.com/2690162/trackback/
옵션
댓글 달기
블로그 이미지
Blog Image
지민아빠의 해처리

by 지민아빠
프로필 버튼
프로필 상세보기
블로그롤 정보




구글 우수 블로거

카테고리



지민아빠의 해처리

지민아빠's Blog is powered by Tattertools / Supported by Tatter & Media
Copyright by 지민아빠 [ http://www.ringblog.com ]. All rights reserved.

Tattertools Tatter & Media DesignMyself!
지민아빠's Blog is powered by Textcube. Designed by Qwer999. Supported by Tatter & Media.