[圖研W3]使用者無錯,錯在技術尚有改進空間
本週的課程,小蝶老師邀請到威斯康辛大學密爾瓦基分校資訊研究學院穆祥明教授主講,講題是書目隱性語義索引:使用者無錯。首先穆教授自我介紹,教授從南京大學大氣科學系畢業後就到北卡大學教堂山分校唸動力大氣科學碩士,後來對於圖資產生興趣,就繼續攻讀北卡大學的圖資博士學位。談到穆教授所服務的美國UWM的資訊研究學院(SOIS),他表示UWM在圖資領域的研究產出是全美排名第一的,而美國目前對於圖資碩士的需求仍有空間,因此穆教授很鼓勵我們有機會可以到UWM進修,雖然這不是對我說的(囧),不過對於穆教授的鼓勵,覺得他應該是位平易近人而且很照顧學生的優秀學者。
原本聽著穆教授用國語親切和藹的開場白,想說這場演講可以鬆口氣聽中文了,沒想到一進入主題,教授流利但帶有口音的英文真的讓我有點招架不住,還好有講義與小蝶老師的解說,可以稍微了解講題的內容。一開始教授以網路、傳統的資訊檢索系統,以及線上公用目錄系統等三種不同環境,討論使用者搜尋行為,結果發現,OPAC的使用者中,只有8%符合進階搜尋的特徵,只有1%的人使用布林邏輯檢索(Neither do I),而對於相關回饋都沒人感到興趣。所以,這要怪使用者笨懶呆嗎?或是要使用者必須學會進階的搜尋技巧呢?科技應該來自人性,因此教授認為使用者無錯,要怪就該怪OPAC不能提供更好更簡單的檢索功能,就像Google為什麼會大受歡迎,原因就是Google把使用者的需求放在心上,讓使用者可以網網相連,透過超連結找到使用者所需要的網站。
教授對於發展書目隱性語義索引的原始概念是,文件不應該是分離孤立的,透過隱性語意(Latent Semantic)的連結,同一作者的兩篇文獻有所關聯。他舉小蝶老師兩篇中英文各一的文獻為例,即便是書寫的語言不同,但只要確定作者中英文名字相同,輸入作者名字時應該能讓OPAC找到同一作者的文獻。因此基本的想法是,當使用者檢索條件包括作者時,相同作者的不同文獻應該都會被列出來;而檢索條件包括時間時,同一時間的所有文獻也都能被檢索出來。為了達到這樣的概念,教授提出三種方法,分別是類神經網路(Neural Network)、群集(Clustering)及隱性語意索引(Latent Semantic Index, LSI),其中以LSI能夠處理同義詞並透過重新界定的標題擷取文件中有關聯的部份,是教授認為比較可行的方式。至於何謂LSI呢?簡要來說,LSI從文件字詞中發現隱藏語意的方法,能克服文件中一詞多義和一義多詞的問題,並使用奇異值分解(Singular Value Decompostion,SVD)的概念,從不同角度提供文件一個架構,並移除文件中所呈現的雜訊(Noise)。
接著穆教授提到了標準化詞與文件頻率矩陣的公式與概念 ,雖然教授PPT上寫著'A little bit of Math',不過我的解讀卻是It's all Greek to me...。只大概了解到,當把多重書目資訊整合入LSI之後,文件搜尋的平均準確率(Mean Average Precision, 即MAP)會有所提升。接著教授以其資訊研究學院的小規模書目資料庫(只有標題及作者)來進行實驗設計,變數為傳統的LSI及加入書目資料後的LSI(BLSI),進行一個字詞(Archive及Video各一次)、二個字詞(Information Organization)及三個字詞(Copyright and Legal Issues)等四項查詢,最後分析BLSI,LSI及VSM(傳統向量空間模型)的MAP值。結果發現,BLSI的結果較LSI及VSM平均準確率為高。不過由於試驗的規模不大,加上BLSI的MAP值並沒有相當顯著高於其他兩個值,因此在場有學者認為,相較於搜尋引擎Page Rank的準確度可能還高於BLSI或LSI,似乎還有很大的改善空間。
不過小蝶老師提到一個很棒的想法,那就是產品要很強健且經得起各種考驗,但研究一定得要控制變項。因此用成熟度高的產品和實驗中的研究相提並論,可能有點不盡公平。仔細想想,這也是A型性格的我常犯的毛病,總是一下子就要以高標準來看待實驗結果,或是立刻要從綜合的角度來看問題。穆教授也在回應中提到,實驗或研究時,要把問題簡單化,要確認自己的觀點是什麼,而不要擔心別人的質疑而擔心。教授以正向的態度看待問題,並認為因為有了正反雙方的論證,兩邊的意見都會水漲船高,而不是你死我活的單方面勝利。這樣的高超境界值得我好好咀嚼修煉。
今天這堂課,除了大概了解LSI與BLSI的概念之外,我最大的收穫就是有了看待問題的新的角度。不必過於擔心技術的問題,或是急著從All-in-one的觀點解決問題,只要有理想和熱情,即便困難的克服無法一步到位,但一定會往漸入佳境的方向前進的。
[PS]當天我個人想問但不好意思問的一個小問題:
BLSI或LSI在中文或跨語文檢索(如中英文、或英日文)在MAP值的表現與準確度如何?
原本聽著穆教授用國語親切和藹的開場白,想說這場演講可以鬆口氣聽中文了,沒想到一進入主題,教授流利但帶有口音的英文真的讓我有點招架不住,還好有講義與小蝶老師的解說,可以稍微了解講題的內容。一開始教授以網路、傳統的資訊檢索系統,以及線上公用目錄系統等三種不同環境,討論使用者搜尋行為,結果發現,OPAC的使用者中,只有8%符合進階搜尋的特徵,只有1%的人使用布林邏輯檢索(Neither do I),而對於相關回饋都沒人感到興趣。所以,這要怪使用者笨懶呆嗎?或是要使用者必須學會進階的搜尋技巧呢?科技應該來自人性,因此教授認為使用者無錯,要怪就該怪OPAC不能提供更好更簡單的檢索功能,就像Google為什麼會大受歡迎,原因就是Google把使用者的需求放在心上,讓使用者可以網網相連,透過超連結找到使用者所需要的網站。
教授對於發展書目隱性語義索引的原始概念是,文件不應該是分離孤立的,透過隱性語意(Latent Semantic)的連結,同一作者的兩篇文獻有所關聯。他舉小蝶老師兩篇中英文各一的文獻為例,即便是書寫的語言不同,但只要確定作者中英文名字相同,輸入作者名字時應該能讓OPAC找到同一作者的文獻。因此基本的想法是,當使用者檢索條件包括作者時,相同作者的不同文獻應該都會被列出來;而檢索條件包括時間時,同一時間的所有文獻也都能被檢索出來。為了達到這樣的概念,教授提出三種方法,分別是類神經網路(Neural Network)、群集(Clustering)及隱性語意索引(Latent Semantic Index, LSI),其中以LSI能夠處理同義詞並透過重新界定的標題擷取文件中有關聯的部份,是教授認為比較可行的方式。至於何謂LSI呢?簡要來說,LSI從文件字詞中發現隱藏語意的方法,能克服文件中一詞多義和一義多詞的問題,並使用奇異值分解(Singular Value Decompostion,SVD)的概念,從不同角度提供文件一個架構,並移除文件中所呈現的雜訊(Noise)。
接著穆教授提到了標準化詞與文件頻率矩陣的公式與概念 ,雖然教授PPT上寫著'A little bit of Math',不過我的解讀卻是It's all Greek to me...。只大概了解到,當把多重書目資訊整合入LSI之後,文件搜尋的平均準確率(Mean Average Precision, 即MAP)會有所提升。接著教授以其資訊研究學院的小規模書目資料庫(只有標題及作者)來進行實驗設計,變數為傳統的LSI及加入書目資料後的LSI(BLSI),進行一個字詞(Archive及Video各一次)、二個字詞(Information Organization)及三個字詞(Copyright and Legal Issues)等四項查詢,最後分析BLSI,LSI及VSM(傳統向量空間模型)的MAP值。結果發現,BLSI的結果較LSI及VSM平均準確率為高。不過由於試驗的規模不大,加上BLSI的MAP值並沒有相當顯著高於其他兩個值,因此在場有學者認為,相較於搜尋引擎Page Rank的準確度可能還高於BLSI或LSI,似乎還有很大的改善空間。
不過小蝶老師提到一個很棒的想法,那就是產品要很強健且經得起各種考驗,但研究一定得要控制變項。因此用成熟度高的產品和實驗中的研究相提並論,可能有點不盡公平。仔細想想,這也是A型性格的我常犯的毛病,總是一下子就要以高標準來看待實驗結果,或是立刻要從綜合的角度來看問題。穆教授也在回應中提到,實驗或研究時,要把問題簡單化,要確認自己的觀點是什麼,而不要擔心別人的質疑而擔心。教授以正向的態度看待問題,並認為因為有了正反雙方的論證,兩邊的意見都會水漲船高,而不是你死我活的單方面勝利。這樣的高超境界值得我好好咀嚼修煉。
今天這堂課,除了大概了解LSI與BLSI的概念之外,我最大的收穫就是有了看待問題的新的角度。不必過於擔心技術的問題,或是急著從All-in-one的觀點解決問題,只要有理想和熱情,即便困難的克服無法一步到位,但一定會往漸入佳境的方向前進的。
[PS]當天我個人想問但不好意思問的一個小問題:
BLSI或LSI在中文或跨語文檢索(如中英文、或英日文)在MAP值的表現與準確度如何?