本站小編為你精心準備了圖書情報本體思考參考范文,愿這些范文能點燃您思維的火花,激發您的寫作靈感。歡迎深入閱讀并收藏。
1引言
圖書情報界組織文獻資源的歷史已有兩千多年,對信息資源的組織也有20多載,面對知識資源的數字化,我們所面臨的前所未有的挑戰是對知識的組織。什么是知識組織?對知識組織的詮釋需與信息組織加以比較才能準確界定。簡單地說,信息組織是對無序的信息進行系統化和有序化的過程,對信息的描述、揭示以及序化是信息組織的中心內容。知識組織則是對知識的本質以及知識間的關聯進行揭示和控制的過程及方法,對信息的優化和重組,對知識的結構、關系和語義的描述與揭示,對知識的提取、挖掘和智能化表示是知識組織的中心內容。
當前,數字圖書館的資源組織正由信息組織向知識組織邁進,在對數字資源的知識組織中,知識本體無疑是最本質、最重要的技術和方法。知識本體可以看作是對知識規范的抽象和描述,是共享、重用知識的方法,目前已經成為一種提取、理解和處理領域知識的工具。如果把某一學科領域知識抽象成一套概念體系并使其“明確”、“形式化”和“共享”,就構成了這一學科的領域本體。領域本體的特征是針對特定的學科領域,描述了某一學科中的概念、概念的屬性、概念間的關系以及屬性和關系的約束。通過某領域的知識本體可將該領域的知識組織起來,使數字圖書館對知識的表示從信息的集合到知識網絡和知識地圖。
構建領域本體的方法已經成為一個新的研究熱點,在實踐中也產生了一些面向不同應用需求的本體方法,如IDEF-5法、骨架法、企業建模法、METHONTOLOGY法、循環獲取法、七步法等。雖然領域本體的開發與建設面向不同的、特定的學科領域,但其過程則具有一定的規律性,需要以一定的科學方法為指導,需要遵循一些通用的技術路線。作者曾在另文中提出本體構建的原型進化方法,本文以此為基礎,聚焦于一個本體進化的周期過程,對其中的基本流程和方法作一概要的梳理和分析。
一個學科領域知識本體原型的建設,一般包括本體需求分析、本體構建規劃、獲取本體信息、確定本體概念及關系、本體形式化編碼、本體的評價、本體的進化、本體的表示等過程。
2本體需求分析
領域知識本體建設一定要根據具體的應用需求進行建設。如同軟件工程注重需求分析一樣,知識本體的開發與建設必須將本體需求分析置于首要位置。
需求分析階段是本體開發的開端,也是本體建設的基石。它是從實際應用的規劃、目標及特點出發,對本體系統進行的一種規范化描述。一般來講,本體需求可分為功能需求和非功能需求。功能需求主要描述本體的目標實現;非功能需求主要描述本體要達到的性能指標。
作為數字圖書館領域的本體建設的需求分析,其要旨是確定領域本體建設的目的、范圍、用途和使用者。基本內容應包括:
所構建的知識本體覆蓋的學科領域,該學科領域資源的基本狀況。
知識本體的建設目的、任務要求,實現的社會效益與經濟效益。
利用知識本體的基本用戶與核心用戶,用戶需求的基本特點。
較之其他資源系統,知識本體將提供什么樣的服務。
知識本體和其他資源系統的關系,包括資源的進一步映射和整合。
知識本體在建設時間、進度上的要求。
對本體需求分析時要注意以下問題:
需求分析的過程性。本體需求分析應包括需求調研、分析需求、需求描述、需求認可、需求演進等逐次遞進的過程。需求分析不僅應是本體實施的前提,而且應貫穿于本體開發的整個生命周期。故此,要進行科學的安排。
需求分析的動態性。因為本體需求貫穿于整個本體建設過程,用戶需求在很多情況下是隱性的。不明確的,所以本體需求分析只能建立在不完全的需求基礎上。為此,本體需求分析既要維持需求的穩定性和精確性,也要在實施過程中不斷地進行動態調整。
需求分析的文檔化。為了指導領域本體建設的后續工作,應該編寫一份基本需求描述完整、具有可操作性的“需求分析報告”,以文檔的形式明確需求分析的結果,作為該階段的成果。
3本體構建規劃
“凡事預則立,不預則廢”。本體建設應有明確的計劃,其目的是用一套程序和標準來規范開發過程,讓研究者和建設者了解其目標和所要做的工作,將偏離目標的損失減至最小;同時合理有效地開發計劃便于對建設過程進行檢查和控制,預防可能出現的問題,及時采取有效的應對措施,使本體建設置于一種規范化、可視化、可控制的管理之中,提高本體研究與建設的效率。
本體建設計劃應以“需求分析報告”為依據,主要解決三個基本問題:確定目標,確定完成目標的程序,確定工作所需要的資源配置。內容大致包括:
明確計劃中要達到的工作目標,論證工作的重要性和必要性。
明確工作的具體任務和要求以及每一階段的中心任務和工作重點;對任務進行層層分解,列出工作責任矩陣,確定完成工作的優先次序。
明確計劃中各項工作開始和完成的時間,在任務分解的基礎上進行統籌規劃,以便有效地控制和協調。
說明完成計劃的方式方法、具體措施,對資源進行合理分配和集中使用,并進行綜合平衡。
規定控制標準和工作指標,也就是說必須做到什么程度,達到什么標準才算完成了計劃。
制定計劃是本體建設過程中必不可少的重要步驟,但在研究項目中往往被忽略,致使其開發過程難以受控,從而導致實施過程中的重新計劃。本體建設計劃的關鍵是計劃的合理編制和有效執行。
4本體信息獲取
獲取領域信息是領域知識本體建設的關鍵。這一階段的主要目標是確定領域知識本體的信息源,獲取領域本體信息,通過收集領域信息,充分了解領域知識的現狀,為本體建設奠定基礎。獲取領域信息大體有兩條路徑:
復用現有本體。獲得領域信息的最根本的方法應該是考慮復用已有本體的可能性,通常的方法也是最行之有效的方法是復用已經廣泛使用于各個學科領域的主題詞表(也稱敘詞表)和分類表。
主題詞表中的主題是表達文獻主題的詞和詞組,是經過規范化處理的,具有專指性、準確性、明確性和唯一性。其具有完備的參照系統,通過主題詞下設置用、代、屬、分、參等多種參照項,以表示概念之間的等同關系、等級關系和相關關系,在主題語言系統之間建立起語義聯系。
與主題法不同,分類法中的類目(概念)是表達文獻內容學科知識領域的概念,是遵循邏輯分類規則建立的科學語言,具有知識的系統性和整體性。分類法具有完備的類目組織系統,通過等級結構、邏輯關系顯示文獻主題概念(類目)之間的從屬、并列、交替、相關等各種關系,在分類語言系統之間建立起語義聯系。
本體是概念和概念關系的集合,而主題詞表/分類法也是主題詞(概念)和關系的集合,其基本功能和本體具有一致性。目前,作為主要檢索語言,各種主題詞表和分類法已經覆蓋各學科領域。復用現有領域本體可以使本體的建立事半功倍。但是,由于傳統的主題詞表與分類法中的術語是規范的(不能用自然語言來表達)、知識點是線性的(不能反映概念網絡)、內容結構滯后(難以經常修訂)、語義簡單、缺乏對所應用資源的針對性等等,因此將其應用于數字圖書館的領域本體建設,需要對其進一步修改、完善。
利用相關方法與途徑獲取。如果所建本體領域沒有可用的主題詞表和分類表,可以采用以下兩種方式獲取本體信息:一種是組織領域專家承建,領域專家通曉本領域學科體系和知識,能夠較為準確地描述與提供領域本體的基本信息;一種是利用知識獲取工具從數據庫中提取,學科領域現有的不同類型的數據庫可以看作是領域的知識源,通過一些知識獲取技術(如關系數據庫中數據字典、E-R圖手段以及人機交互技術、機器學習技術等),從現有的數據庫中提取專業術語,挖掘、發現學科的基本知識。
如果將上述兩種方式結合起來使用,可以獲得更為完整和精確的領域本體信息。
5確定本體概念及關系
這一階段的主要目標是確定領域知識本體的主要概念,揭示概念間的各種關系,構筑起領域本體的概念模型。
確定領域知識本體的核心概念集。如果是復用現有的本體,即可直接應用領域主題詞表和分類表中的主題詞與分類名稱作為領域本體的核心概念。它們都是經過受控處理的,語義及等級關系清晰、嚴格,可以根據應用的需要直接復用。
如果是通過其他渠道獲得領域知識,那么確定重點概念及關系的過程,可以參考骨架法中提出的middle-out方法。這種方法不要求概念的選擇是自底向上或自頂向下。因為在領域知識中要確定哪些是頂部概念、哪些是底部概念是非常困難的。可盡量選取最基本、最常見的概念及關系,并用精確無二義性的術語加以表達。同時對應編制一份“術語集”,把選擇術語的過程加以描述,羅列出最終選定的術語,并對每個術語賦予相應的自然語言描述。
構建領域知識本體概念關系。即將所獲得的領域概念組織成概念網絡。
如果是復用現有的本體,首先應考慮主題詞表和分類表的對應關系,即主題詞表概念間的等級關系與分類法概念間的學科相屬關系。分類表可以看作是領域本體概念網絡的主體結構,主題詞表可以看作是概念網絡的各級概念節點。
目前各學科領域現有的主題詞表和分類法都有其相應的電子版,也出版了一些類表和詞表完全結合在一起的分類主題一體化詞表,這種一體化詞表中每一類目都對應著一個概念,類目間的學科等級就是概念間的等級關系。如果領域的主題詞表和分類法是分別的或是分類主題對照詞表,分類表與主題詞之間沒有完全的等值對應關系,則需要另外創建類目概念節點。可先利用主題詞表中的各參照項關系形成概念網絡(具有等同關系的所有主題詞可形成一個概念),然后將分類法的學科體系結構嵌入其中,作為概念網絡的主干結構,再建立具有等級關系的類目節點和概念間的對應關系。
如果是自己創建的本體,其概念關系的建立也應該遵循上述方法。所建立的本體概念間的基本關系應該包括等同關系、等級關系和相關關系。
將本體概念及關系模型化。明確了本體的概念以及概念間的關系,接下來就可以采用一定的方法(如圖示法)來揭示概念間的各種關系。6本體形式化編碼
本體的形式化編碼階段就是用選定的本體語言來描述知識本體。
對于知識本體的描述,可以采用自然語言或邏輯語言描述,若要實現較強的推理能力,一般要用形式化描述語言進行表述。描述本體的語言應該具備4個基本條件:①基于某種形式的邏輯;②機器可讀的;③具備編碼語言的表達性\編碼的精確性和語言的語義性;④支持語法和語義的互操作。
本體的描述一般都是基于某種邏輯語言的,
>目前RDF(S)已成為一個能對本體進行初步描述的標準語言。而描述邏輯(DL)是一個相當重要的知識表示語言,目前正被積極應用于本體描述,或者作為其他本體描述語言的基礎。描述邏輯吸取了KL-ONE的主要思想,是一階謂詞邏輯的一個可判定子集。與一階謂詞邏輯不同的是,描述邏輯具有強大的推理能力,能夠提供完備高效的知識推理機制,滿足本體知識表達的需要。而且,描述邏輯的語法容易轉換成XML/RDF形式,因此基于描述邏輯的本體模型更適合Web環境下概念建模與知識共享。
目前幾個主要的知識本體語言——CKML、OIL、DAML+OIL和OWL就是建立在描述邏輯的基礎之上的。其中DAML+OIL是結合了OIL和DAML優點的一種本體描述語言,采用面向對象的方法用類和屬性來描述領域概念的結構,具有清晰的語義,但不能表示規則。以DAML+OIL為基礎的OWL是一種網絡本體描述語言,通過類和屬性來描述對象,并通過公理來描述類和屬性的特征和關系,可以構造很豐富的關系類并支持自動推理。
上述本體語言的表述能力不斷增強,其技術也日臻成熟,已成為W3C國際標準的OWL是一種發展勢頭很強的本體語言,應作為本體編碼的首選語言。為了提高本體編碼效率,可以使用一些輔助工具來完成。編碼過程結束之后,應該把編碼過程和編碼結果以文檔的形式保存下來,為本體共享提供規范的文檔。
7本體的評價
經過上述階段,已經形成了一個初步的領域知識本體。本體能否實際應用,需要對其進行評估與測試。由于領域本體建設得不成熟,目前尚無通用的本體確認和評價的標準方法,更談不上標準測試集。格汝伯(Gruber)[9]于1995年提出了本體構建的5條標準,即清楚(Clarity)、一致(Coherence)、可擴展性(Extensibility)、最小本體的承諾(Minimalontologicalcommitment)、最小的編碼偏差(Minimalencodingbias)。不過在其設計標準中并沒有給出具體的評價內容。筆者類比于軟件工程的軟件測試,提出本體評價的標準。
對應于軟件開發過程的測試階段,一般需要對領域本體的正確性和有效性進行評價,評價指標應包括:
本體的完整性。即本體是否包括了該領域重要概念,概念及關系是否完整,概念的等級、層次是否多樣化。
本體的清晰性。即本體中的術語是否被清晰無歧義地定義。除了規范的主題、分類術語外,對本體進化產生的概念是否給出明確、嚴格的語義定義。
本體的一致性。即概念間的關系在邏輯上是否嚴密、一致,能否支持本體在語義邏輯上的推理。
本體的可擴展性。即本體可否順利實施進化,本體能否在層次結構上可擴充,在語義上可豐富與完善,能否加入新的術語概念。
本體的兼容性。即本體的開放性和互操作性,本體能否和其他領域本體及相關資源系統進行映射,包括系統層、邏輯層、語義層、表現層等的兼容和互操作。
此外,對本體的評價還應包括本體建設過程中其文檔的完備性、準確性、可操作性等的評價。
8本體的進化
任何系統都會經過從簡單到復雜,由低級到高級的進化發展過程,領域知識本體建設也不例外。隨著領域知識的增加和應用需求的發展,本體需要不斷進化。特別是對于一個應用性很強的領域本體來說,本體的進化可以看作是本體生命的延續。所謂本體進化,即是在現有領域本體的基礎上,根據應用的需要,在本體結構、概念和關系上不斷進行豐富、完善、改進的過程和方法。
領域知識本體進化主要包括兩方面內容:一是本體的自身進化,即是對已建本體進行更新,增加新的本體概念,擴展本體語義結構,完善本體概念間的語義關系。如何建立本體的自豐富機制,是本體自身進化需要重點研究的。二是本體的對外進化,即不同領域本體之間的互操作。因為不僅本體自身存在關聯,不同的領域本體之間也存在多種關聯,人類知識本是一個大的宏觀的知識網絡。目前每個領域都在建設本體,如果各個本體獨立發展便將成為一個個本體“孤島”。本體的對外進化主要通過映射機制,與相關領域本體的概念、關系及資源實體建立對應和關聯,實現不同領域本體資源的共知和共享。
領域知識本體進化的方式:
本體的自動進化。即由研究專家采取一定的方法與技術,實現本體的自豐富。如通過機器學習、抽詞算法、知識發現等方法發現新的概念和關系,然后定位到本體中去。
本體的手工進化。即由通過了解領域本體建設情況的專業人員,以手工或半自動的方式獲取新的概念和關系,將其補充到本體中去。這種進化過程比專家定義容易操作,比機器學習準確規范。但是它需要有合適的工具支持。
上述兩種方法的結合。本體的自動進化難以達到較高的準確度,而本體的手工進化存在成本高、速度慢等不足,同時對專業人員的知識性要求也高。怎樣將兩者在本體建設過程中有機結合起來,是領域本體建設所面臨的挑戰,也是一個具有理論和實踐意義的重要課題。
從理論上說,本體進化是必須的,也是可行性的。但在本體的實際建設過程中,本體的進化是一個比較復雜、難度較大的問題,是包含了眾多方面相互作用和相互影響的復雜過程。需要對領域本體進化的模式、機理、過程、路徑和技術進行深入的研究。
9本體的表示
建設好的領域知識本體必須面向用戶提供服務。以知識本體為基礎的資源系統與其他資源系統究竟有什么不同?它給用戶在知識獲取與利用上究竟帶來何種便利?這便涉及到本體如何表示問題。所謂本體的表示,即通過一定的知識表示技術,將建設好的領域知識本體按照一定的方式,清晰有序地在一個統一的界面上層示出來。對本體的表示實際是本體功能的最終實現。
領域知識本體的功能是否能夠得到有效的實現,與內部復雜的知識體系結構如何更好地展示有直接關系。一個完整的、有效的領域知識本體的外在表示至少應該滿足以下兩個基本要求:其一,體現知識導航。即用樹型結構將本體的概念網絡動態地加以顯示,可循著學科等級和概念間的語義關系進行瀏覽。其二,體現知識檢索,即能夠實現基于概念的語義檢索。給定一個概念,即提示此概念和其他概念間的關系,并顯示其在知識體系中的位置;檢索過程不再是數據集合中的關鍵詞匹配,而是基于概念網絡的概念檢索。
本體表示實際上應看作是本體建設的自然而必然的延續。因為,知識本體不僅僅是知識組織的工具,也是知識導航、知識檢索的工具;知識導航、知識檢索是知識本體建設的逆過程,是本體建設的最終目的。本體表示涉及了最新的Web技術、人機交互、可視化等技術。
10結語
知識本體是數字圖書館資源組織最本質的技術和方法。筆者面向學科領域,提出并分析了領域知識本體構建的基本流程和方法,其目的是使本體建設過程規范和可控。與現有本體建設方法相比,本文強調了本體的進化、本體的構建是一個不斷完善的、螺旋上升的、有序而系統的發展過程,進化是本體的生命所在;鑒于知識組織和知識表示不可分離,故將本體的表示置于本體構建方法的一個環節和過程,認為本體的表示是本體建設的一個重要階段,它既具有相對的獨立性,又和本體建設密不可分。