閱讀格言

2008年12月9日 星期二



[圖研W13]語意網與知識本體

[2008.12.08]
本週的課程是由柯浩仁老師主講語意網與知識本體。光聽到這個講題本來覺得可能又是催眠指數很高的課程,不過如果扣除技術的部分,在應用上真的是讓人感到好奇。本次課程主題有六個重點:
1.網頁現況。
2.語意網(Semantic Web)。
3.XML,RDF, 及RDFS(延伸標記語言、資源描述架構/Resource Description Framework、資源描述架構基模/RDF Schema)。
4.知識本體(Ontologies)。
5.主題地圖(Topic Maps)。
6.知識本體語言OWL概覽。

目前的網頁有三個特徵,那就是交換或傳遞資訊的載體、以簡單易懂的HTML語言撰寫,最初是提供人們詮釋與使用。但全球資訊網發明者Tim Berners-Lee在其1999的著作Weaving the web一書當中,就已經揭露了對未來網頁的期待,那就是網頁資料可以直接或間接被電腦自然地理解與處理的語意網(Semantics Web)。老師舉了幾個網站來說明語意網的概念,例如Findbook翻書客網站,可以讓網友透過在該站的單一搜尋,就可以得到國內各大網路書店的找書、比價服務;而臺灣大學的整合查詢系統(Met@Cat),也是可以在該站找出國內藏書量在三十萬冊的圖書館中的館藏資訊,真的相當的方便且功能強大。

至於語意網的基本定義,則指以電腦能夠理解的方式描述事物的網頁。語意網並非指網頁間的連結,而是描述事物與事物屬性之間的關係。是目前網頁格式的延伸,由於被賦與定義清楚的意義,故更有助於電腦與人們之間的互動和運作。而語意網是種基礎架構使得電腦可以理解語意文件和資料。語意網的優點如下:
1.在查找和比較商品時,機器可處理的資訊語義可使查找和比較的工作自動化。
2.在處理大量異構資料時,本體技術可用于定義標準以便在資料之間更好地映射。
3.在處理大量異構商務邏輯時,本體技術可用於彌補它們之間的差異,使雙方更好地合作。

如何交知識內容加入網路或電腦如何閱讀語意呢?老師提到目前可以透過在網頁中加入XML延伸標記語言、RDF資源描述架構、及RDFS資源描述架構基模的撰寫與運用作為媒介。XML的寫作方式和HTML類似,但是在標籤的運用上可以直接以事物的屬性更清楚的呈現資料的脈絡,譬如可以用來說明某個課程開課教師的相關資訊,但因為在作為語意網的標記使用上還有些限制,如對於特定領域知識本體字彙(Domain-specific ontological vocabulary)及知識本體建模原語(Ontological modeling primitives)的支援度不佳,也不適合用於網頁資源的分享。因此RDF資源描述架構及RDFS資源描述架構基模成為目前較為普遍用來描述知識資源內容的媒介。RDF是由W3C所發展出來的網頁中介資料(或稱後設資料,metadata)的標準與資料模型,RDF資料模型是種獨立於XML之外的抽象與概念層,其陳述式(statements)主要是由主詞、述語及受詞三個部分所組成。由於我們可用陳述式來描述其他的RDF陳述式,更可以用來表達更高層次的陳述(如表達信念、數位簽章等),加上透過以RDFS來定義y在資源描述架構最上層的額外的建模原語(modeling primitives),因此在知識資源內容的描述上更加符合使用者的需求。

但除了以RDF(S)就想讓電腦能夠閱讀語意還不夠,必須要以知識本體(Ontology)來定義關鍵詞並進行邏輯推理。知識本體的用途就是以電腦可用的形式,將特定領域的字彙與意義加以模式化,讓知識得以再使用。而知識本體界定常用的字詞與概念,用以描述或表徵特定領域的知識。由於同一個詞彙在不同領域、情境或時代中可能有不同的意義,因此每個網頁或資源要有一個被定義過的知識本體,電腦才能夠加以閱讀。而能夠在網頁中表達知識本體內涵的語言就稱為知識本體語言OWL(Web Ontology Language)。

談到另一種用來管理大量非組織化資訊的工具,就是主題地圖(Topic Map)。主題地圖包含了三主題 (Topics)、關聯 (Associations) 和資源指引 (Occurrences)。當使用者對某個特定的主題感興趣時,可透過資源指引直接連往相關的資源,並能自層層的關聯中迅速找到其他相關主題,便於使用者在特定的資訊組織架構中探索。這可能是老師把主題地圖稱為網頁GPS的原因。

就像其他技術導向的演講主題類似,新的技術讓人期待,但在等待技術成熟的同時往往充滿一些猶豫與懷疑。首先是龐大的現有及未來的網頁,在建構同一規準的知識本體本體之前,光是要在每個網頁加入RDF(S)或OWL,就需要降低圖書館員理解相關語言的技術門檻,才能在繁瑣的語意網轉換或建置歷程中讓圖資人有更多的專業參與。其次,人類的知識本體如果能夠和語意網的知識本體一致,那真會是個一魚多吃的完美境界,不過鏡頭先轉回台灣,老師光以WordNet隨便輸入一個英文單字,就出現十多種字詞,如果是國內不同領域不同學科,甚至是圖資界本身語意網知識本體的建構如何趨向一致,恐怕就是相當曠日廢時的大工程,。此外,不同技術或語言間的研發與競逐,會不會讓好不容易轉向的研發人員或學者因為其他新技術的出現而由無所適從或前功盡棄的現象。而當語意網建構成熟時,代表資料的查找與比較量是相當驚人的,會不會有人用這樣的技術盜取他人隱私或無異公諸於世的資訊。以上的問題雖然看起來一時間難以克服,不過技術的發展誰也說不定,只要是對人們有幫助的技術,都值得我們持續關注與期待,希望語意網的發展,能在圖資人與資工等相關領域的學者專家通力合作之下,有愈來愈普及、安全且功能強大的突破。







語意網的個別標準:
http://www.semanticweb.org/

柯老師的百世經綸網站:
http://blog.lib.nctu.edu.tw/index.php?blogId=6

繼續閱讀...

Clicky Web Analytics

  © Blogger template Brooklyn by Ourblogtemplates.com 2008

Back to TOP