摘 要: 為了解決環保部門多源數據的語義異構問題,研究了各領域本體構建思路與方法,結合環保領域的實際特點,提出了一種環保領域本體構建方法。以建設項目環評審批基本信息為例,在領域專家幫助下,詳細描述了其本體的構建流程及其本體模型,為環保領域應用研究奠定了基礎。
關鍵詞: 環保;領域本體構建;建設項目環評
0 引言
環保部門為了加強對環境的管理,提高辦事效率,需要對不同應用系統的各種業務數據進行集成。然而,不同數據源的數據在語義上往往存在較大的異構性,造成數據難以集成。本體既能準確地描述概念的含義又能描述概念之間的內在關聯,并通過邏輯推理獲取概念之間蘊涵的關系,具有很強的表達概念語義和獲取知識的能力,因此逐漸應用于各種數據集成系統中。
研究基于本體的數據集成首先要研究本體的構建,本體構建質量的好壞決定集成系統的運行效果。本文在研究各領域本體構建的基礎上,通過了解環保領域知識,提出一種環保領域本體的構建思路與方法,并且嘗試構建建設項目環評審批基本信息本體,為環保領域本體的構建及以后基于本體的數據集成奠定基礎。
1 本體理論概述
1.1 本體
本體起源于哲學,是對世界上客觀存在物的系統描述,后來,本體在人工智能、知識工程、信息系統等諸多領域得到了發展和應用。不同領域的研究者對本體的定義不同,引用比較廣泛的是STUDER R等人提出的“本體是共享概念模型的明確形式化規范說明”[1]。
1.2 本體構建
本體構建是一項龐大的系統工程,需要按照一定的構建準則,在合理方法論的指導下,采用合適的本體描述語言和便捷的本體開發工具加以實現[2]。
1.2.1 領域本體構建方法
領域本體是用于描述指定領域知識的一種本體,是對領域實體概念、概念間的相互關系以及領域特征或規律的一種形式化的描述[3]。常見的領域本體構建方法有:KACTUS法、TOVE法、SENSUS法、METHONTOLOGY法、IDEF-5法、骨架法、七步法等[4]。其中,比較成熟的是七步法,該方法由美國斯坦福大學醫學院提出,主要應用于領域本體的構建,采用7個步驟來構建本體:(1)確定本體的專業領域和范疇;(2)考查復用現有本體的可能性;(3)列出本體中的重要術語;(4)定義類和類的等級體系;(5)定義類的屬性;(6)定義類的分面;(7)創建實例。
1.2.2 本體描述語言及開發工具
現有的本體描述語言有多種,此次選用比較常用的OWL(Web Ontology Language)來對領域本體進行描述。本體的開發工具有OntoEdit、Protégé等。其中protégé本體構建工具的界面友好,容易上手,另外具有可擴展性,可以根據需要添加自定義的模塊,自定義屬性,成為大多數本體構建的首選工具。因此,本文選用的本體構建工具是protégé4.0。
1.2.3 本體構建原則
目前沒有一個標準的本體構造方法,研究人員提出了不少本體創建的標準,最有影響的是GRUBER T R[5]提出的指導本體建立的5個準則:清晰性、一致性、可擴展性、編碼偏好程度最小、本體約定最小。目前大家公認在構建領域本體的過程中需要領域專家的參與。
2 環保領域本體的構建方法
目前,國內外關于環保領域本體的研究較少,可供借鑒參考的先例不多,對于環保領域的本體構建是一種嘗試。環保領域本體構建是在相關項目的支持下,由環保領域專家對本體的概念體系和邏輯結構進行指導與評價。因此,此次構建本體,在七步法的基礎上進行改進,不考慮對現有本體的復用,同時加入本體評價這一步驟。最終,根據此次領域本體構建的實際情況,提出一種環保領域本體構建方法,如圖1所示。
3 環保領域本體構建流程
3.1 明確本體構建目的和范疇
本體的構建不是無的放矢,明確領域本體的應用目的,對于限定其范圍、增強針對性,進而降低構建難度、縮短構建時間,具有重要意義[6]。環保領域本體的構建目的是為了實現語義檢索,即為數據集成系統提供一個共享的詞匯庫,在數據集成中主要起三大作用:概念定義、查詢模型和推理基礎。通過本體的基礎推理作用,在異構、分布環境下的數據集成中,可以提高數據的查全率和查準率[7]。此次構建的本體包含構建對象范疇內需要集成的數據涉及的概念和關系。
環保領域范圍非常廣泛和復雜,為減少難度,僅對福建省環境保護部門關于建設項目環評審批的基本信息數據進行本體建模。本體模型采用的詞匯取自國家環境保護行業標準HJ/T416-2007《環境信息術語》、《福建省建設項目環境影響評價文件分級審批管理規定》、《建設項目環境影響評價分類管理名錄》、項目資料以及被大多數專業人士認可的環保領域專業性詞匯。
3.2 領域知識的收集和獲取
確定范圍之后,收集本體所涉及的知識并列出重要的術語。知識的收集和獲取是一個復雜的過程,可以通過網絡、書籍、文獻、專家、項目等渠道獲取相關知識。本次對領域知識的收集,除上述渠道外,還按照構建業務對象模型的思路對領域知識進行解讀。業務對象模型將結構的概念與行為的概念結合起來,它探索業務領域知識的本質,在建設數據架構時起著重要的作用,主要體現在數據來源分析方面,即“有什么數據”。確定業務對象定義、對象間關系、對象名稱和對象間關系名稱的流程,使得能夠以一種被業務領域專家理解和驗證的精確方式來表達業務領域知識,對提取領域內的概念及關系,進而構建本體有極大的幫助。業務對象模型概念及關系如圖2所示。
3.3 列舉概念
在相關業務人員的幫助下,通過對領域知識的了解,提取領域內的概念和術語。列出一份盡量全的術語清單,而暫時不考慮概念間的關系。
在確定術語過程中需要注意兩點:(1)此次本體構建的對象是建設項目環評審批基本信息,只包含建設項目環評審批工作進行之前需要登記填寫的信息,并不包括審批批文等信息;(2)建設項目的行業作為建設項目的一個特征,經常作為數據分類的依據,同時在數據表單、數據庫中作為一個重要的字段、數據項出現,因此列舉的概念中需包含建設項目的行業及其分類。
參考相關文獻資料,通過與環保部門業務人員和領域專家的交流,歸納總結出78個領域概念,行業及其分類詳見《建設項目環境影響評價分類管理名錄》,其余包括:項目名稱、建設地點、建設內容、建設規模、總投資、環保投資、建設性質、聯系人、聯系電話、通信地址、郵政編碼、單位名稱、法人代表、評價經費、證書編號、甲級報告書評價范圍、乙級報告書評價范圍、報告表評價范圍、有效期、基本情況、污染物名稱、實際排放總量、核定排放總量、實際排放濃度、允許排放濃度、環境要素名稱、保護目標、質量等級、涉及敏感區名稱。
3.4 確定類和類的層次
類的層次的定義有3種方法,即自上向下法、自下向上法和混合法[8]。混合法將自上向下法與自下向上法相結合,先建立那些顯而易見的概念,然后分別向上與向下進行泛化與細化。一般來說,混合法比較適合大部分人員。
運用混合法,在領域專家的幫助下,經過識別、分析和統計,最終確定了行業、組織機構、建設項目、環評類型、主要污染物、區域環境現狀作為核心概念。核心概念作為整個本體概念模型的頂級概念,可以有子概念,即核心類可以有子類,例如組織機構分為建設單位和環評機構。本體類層次如圖3所示。
3.5 定義類的屬性
類的屬性包括數據屬性(DataType property)和對象屬性(Object property)。數據屬性的屬性值為基本類型值,即非領域中概念,對象屬性的屬性值為領域中概念。本體概念間的關系主要有4類:屬性關系、繼承關系、整體和部分關系、類和實例關系。上一步所定義的類的層次就是繼承關系。除上述4種常見的關系外,還可以根據領域知識自定義屬性,如建設項目和行業之間的具有關系,建設單位和環評機構之間的委托關系等。自定義關系通過對屬性的定義和約束予以實現,約束包括屬性的定義域、值域的約束。對于不同的類,在約束時將相同屬性特征的定義域設置為其父類,根據子類繼承父類的特性,子類不用定義就會獲得這些特征,減少了冗余。類的屬性可以有多個,并不需要對每個屬性都進行定義,而是要結合領域范圍和本體構建目的,進行適當的取舍。此次自定義36個屬性,部分屬性如表1所示。
當屬性特征確立之后,借助Protégé4.0將屬性進行編輯并存儲,圖4是部分對象屬性的編輯,圖5是部分數值屬性的編輯。
3.6 創建實例
支撐項目從福建省各級環保部門收集了許多建設項目環評數據,這些可以作為本體實例的重要來源。建設項目環評審批基本信息本體實例的數量非常巨大,鑒于文章篇幅,也為了便于實驗測試,只列舉少數實例。
通過領域專家對所建本體的審核和評價,發現本體概念體系及邏輯結構的不足,返回前面第三步進行修改。在領域專家的幫助下,經過反復修改,最終構建一個簡單的建設項目環評審批基本信息本體模型。部分本體模型結構在Protégé4.0中的視圖如圖6所示。
4 結論
建設項目環評審批基本信息本體只是環保本體的一部分,也是基于本體的環保業務數據集成的開端與基礎,最終目的是為了更好地實現環保業務數據的集成。本文結合本體的應用目的,設計了一種該領域本體的構建方法,提出了基于業務對象模型分析領域知識的思路,嘗試性地構建了建設項目環評審批基本信息本體,為基于本體的相關應用奠定了基礎,也在一定程度上促進了環保領域知識管理的發展。
鑒于作者水平所限以及對領域知識了解不夠,本文構建的本體在規模、深度上都比較簡單,本體的領域范圍和深度都有待擴展。另外,本文無論是概念、關系的獲取,還是本體編碼都是純手工完成,當領域范圍較廣,本體比較復雜時,純手工完成費時又費力,因此,如何半自動、自動化地實現本體的構建也有待繼續研究。
參考文獻
[1] STUDER R, RICHARD B, DIETER F. Knowledge engineering: principles and methods[J]. Data and Knowledge Engineering,1998,25(1-2):161-197.
[2] 蘭春秋,李櫻.音樂領域本體的研究與構建[J].計算機光盤軟件與應用,2014(3):76-79.
[3] 李勇,張志剛.領域本體構建方法研究[J].計算機工程與科學,2008,30(5):129-131.
[4] 李恒杰,李軍權,李明.領域本體建模方法研究[J].計算機工程與設計,2008,29(2):381-384.
[5] GRUBER T R. Towards principles for the design of ontologies used for knowledge sharing[J]. International Journal of Human-Computer Studies 1995,43(5/6):907-928.
[6] 劉紫玉,黃磊.高速鐵路領域本體構建方法研究[J].情報學報,2009,28(2):195-200.
[7] 李星毅,高文浩,施化吉.基于本體的異構數據集成方法[J].計算機工程與設計,2009,30(8):1931-1933.
[8] 甘健侯,姜躍,夏幼明.本體方法及其應用[M].北京:科學出版社,2011.