閱讀格言

2008年12月26日 星期五



[網技W15]求全率與求準率

本週課程提到IA的搜尋系統時,recall(求全率)與precision(求準率)這兩個資訊架構或資訊檢索時常討論到的概念又再次出現。本來想說可能會輕輕帶過,沒想到,老師問了我們兩個引起上課同學熱烈討論的問題:
1.何謂recall(求全率)與precision(求準率)?並以圖解說明?
2.為何recall(求全率)與precision(求準率)會呈負相關?

喔喔!這兩個問題一問,突然讓我當場愣住。不問我還有點似懂非懂,一問卻不知道要怎麼解釋。於是趕緊上網查找惡補,得到的答案如下:

參考資料來源:
http://choo.fis.utoronto.ca/FIS/Courses/LIS1325/RecallPrecision3.html
http://moodle.lips.tw/~mlu/database/database9302/0607reviewing.ppt

[問題一參考答案]



如上圖,從相關性來看檢索結果,可以分為以下四個區塊:
A: 相關且檢出
B:不相關但檢出
C:不相關且未檢出
D:相關但未檢出

求全率(Recall)=A/(A+D)
檢索出來的相關文件/資料庫內所有相關資料的總數

求準率(Precision)=A/(A+B)
檢索出來的相關文件/檢索到資料的總數

如何提高求全率:擴大檢索範圍

*擴大主題層面( FACETS)及檢索詞彙。
* 減少既有的主題層面。
* 以更多的主題領域檢索(標題、摘要、敘述詞)。
* 使用較少限制的字詞。

如何提高求準率:縮小檢索範圍
* 以較少的同義字或較精確的字詞濃縮主題層面。
*增加新的主題層面。
* 以較少的主題領域檢索 (標題、摘要、敘述詞)。
* 使用較多限制的字詞。


[問題二參考答案]
在求全率(Recall)=A/(A+D)及求準率(Precision)=A/(A+B)的公式中,由於分子都相同,如果假設A與C(C為不相關且未被檢索到的資料)不變時,當D愈大,B應會相對縮小。換言之,當D愈大,求全率愈小;而D愈大,B相對變小時,求準率會愈大。因此求全率與求準率應該會呈現負相關。


此外,由上圖可知
X=完美檢索結果

B=高求全率,低求準率
H=求準率同B,但求全率較差,可見檢索策略較B差
C=求準率最高,但求全率最低


在期末報告纏身時突然出現這些問題,雖然因為自己程度欠佳而覺得吃力,但討論起來真的很有趣,尤其看到永嘉拼命要把問題搞懂的衝勁也讓我跟著想認真理解這兩個問題。我想,研究生應該要有博覽群書及充分討論這兩種動能與特質,才有辦法扮演好研究生的角色。看來,我還是需要更多努力! 如果各位看官有更好或更淺顯易懂的說明,麻煩回應一下,感激不盡。

繼續閱讀...

Clicky Web Analytics

  © Blogger template Brooklyn by Ourblogtemplates.com 2008

Back to TOP