《電子技術應用》
您所在的位置:首頁 > 通信與網絡 > 設計應用 > 基于Web Services和插件架構的新聞中心平臺的設計
基于Web Services和插件架構的新聞中心平臺的設計
來源:微型機與應用2012年第23期
李 劍1,陳海建2,3
(1.江蘇廣播電視大學,江蘇 南京 210036; 2.上海電視大學 信息與工程系,上海 20043
摘要: 設計并實現了一個網頁插件形式的半自動化的網頁新聞信息搜集中間件,該中間件能將關注網站的信息搜集并集中。此外,基于該中間件,還設計了一個新聞信息的匯集平臺,并以江蘇城市職業學院網站作為應用實例展示了校園新聞中心。
Abstract:
Key words :

摘  要: 設計并實現了一個網頁插件形式的半自動化的網頁新聞信息搜集中間件,該中間件能將關注網站的信息搜集并集中。此外,基于該中間件,還設計了一個新聞信息的匯集平臺,并以江蘇城市職業學院網站作為應用實例展示了校園新聞中心
關鍵詞: Web Services架構;新聞中心

    隨著網絡技術的迅猛發展,以網頁形式發布的信息、數據爆炸性地增長,人們期望能夠及時有效地關注、獲取、管理和分析對比特定行業的熱點信息和數據。尤其在金融和傳媒領域,信息和數據變化特別快,能及時收集來自不同網站上發布的信息和數據變得尤其重要。但是,絕大多數網頁基于HTML格式,其松散的特性使得現有的頁面提取算法不能較好地與特定領域的業務相結合,分析出信息的語義。例如,對單個頁面而言,如果完全進行自動化分析,較難在分析結果中對與新聞這一特定領域相關的新聞標題、鏈接、發表時間和正文等內容元素加以區分;對于新聞標題列表和新聞正文分別位于不同網頁這一典型的多頁面結構,需要聯合分析多個網頁的內容,如果沒有一套完善的提取和分析這些信息的軟件平臺,也難以得到完整信息。
本文針對Internet上新聞網站的信息,設計并實現了一個網頁插件形式的半自動化的網頁信息搜集中間件,對于不同版式的新聞網站,只需編寫少量相關代碼實現中間件,即可完成對新聞標題、鏈接、發表時間和正文等信息的提取。新聞生成器插件加入到新聞中心平臺中,由Web Services提供同構的新聞獲取接口,前臺通過調用Web Services即可構建匯集各種新聞和通知公告的新聞中心。此外,本平臺還提供將新聞轉換為RSS(Really Simple Syndication)種子的功能,以方便用戶使用RSS閱讀器訂閱新聞。
 基于此種新聞中心平臺架構,完全不需要改變現有的新聞網站布局,即可自動匯聚多方面的新聞,創建新聞門戶網站。此外,本平臺還具有高擴展性,當有新的網站需要關注時,只需編寫擴展插件,即可實現將關注的網站加入到視野中。
1 網頁信息提取技術
 對Web信息提取的研究早在20世紀80年代就已開始,根據參考文獻[1],現有的對Web信息提取分析的方法可以分為多種類型:從自動化程度上可劃分為手工、半自動和全自動提取分析方法;從原理上可劃分為基于自然語言理解、基于本體、基于HTML(HyperText Markup Language)和基于隱馬爾可夫模型等提取分析方法。本文設計并實現的新聞中心平臺,在對單個頁面進行分析時所采用的是基于HTML的半自動提取分析方法,也即:在信息提取之前通過解析器將Web文檔解析成語法樹,通過半自動的方式產生提取規則,將信息提取轉換成對語法樹的操作實現信息提取”。
在Web中,信息是以半結構化和無結構文檔的形式組織存儲的,參考文獻[2]中指出:“這些數據沒有統一的模式,數據的內容和表示相互交織,數據內容基本上沒有語義信息進行描述,僅僅依靠HTML語法對數據進行描述”。
 當前,對Web信息提取的研究主要有兩個方向[3]:一種是研究怎樣把網頁中無結構或半結構化數據轉換為結構化數據,這類研究的主要目的在于提取細粒度的數據;另一種研究則是希望通過信息提取技術,提取標題、正文等主題內容或興趣區域。本文設計并實現的新聞中心平臺,主要注重的是對新聞標題、鏈接、發表時間和正文等內容元素的提取。
 由于現實中Web頁面種類繁多,形式各異,在國內外的研究工作中,學者們提出了多種Web信息提取方式,例如:Finn[4]等人將HTML文檔看作字符和標簽組成的序列,在字符集中的區域提取文字。這種方式適用于以文字為主要內容的文檔,而不便于提取文檔中的圖片、鏈接等內容;胡國平等[5]人針對新聞網站提取了基于統計的正文的抽取方法,但卻只適合所有正文只有一個TABLE標簽中的文檔;而楊成[6]提出了一種面向由XML描述的Web文檔的、基于用戶主題信息的模式和數據提取方法。該方法利用學習算法從樣本文檔中提取規則,然后使用匹配算法從目標文檔中訓練出模式。
 考慮到新聞領域相關的內容元素較為簡單(包括標題、正文等),本文認為針對某個具體的新聞網站,可以由人工編碼完成少量差異化的提取和分析工作,以插件形式加入到整個新聞提取和分析過程中,實現對各類新聞網站內容的準確高效提取。
2 新聞中心平臺的設計
2.1 新聞生成器插件的設計

 中間件是新聞中心平臺的核心,是進行半自動化信息提取的部分。中間件主要類的UML類圖如圖1所示。

 圖中,IGenerator接口對提取新聞的主要方法(獲得標題及正文等)進行了定義,凡是具有實現了IGenerator接口的類的插件均可以加入到平臺中作為針對某個新聞網站的生成器,為平臺提供來自某一特定網站的新聞。考慮到流行的新聞網站的架構具有一些相似之處,本新聞平臺事先設計了一些實現IGenerator接口的基類,使用戶在開發某些類型的新聞網站生成器插件時,無需從頭開始編碼工作,只需由這些基類派生,并實現一些差異化的工作即可。例如,TitleListNewsGenerator基類對如圖2所示類型的新聞網站提供了支持。

 TitleListNewsGenerator基類對提取這類新聞網站信息的功能做了進一步的封裝和優化(例如并行分析多個新聞正文頁),如需從某個具體的、如圖2所示的新聞網站提取信息,只需編寫派生自TitleListNewsGenerator基類的實例,再對特定網頁的少量特殊內容進行人工編碼實現(例如若新聞鏈接地址是通過JavaScript事件生成的,則需要對這種鏈接進行轉換)即可。提取這類新聞網站的信息的流程如圖3所示。

 針對不同類型的新聞網站,新聞生成器插件平臺可以開發多種不同的基類,將其中可以自動化完成的工作預先實現,而插件制作人員只需對所針對的網站的特殊部分(例如與網頁版面美化有關的少量特殊內容可能需要過濾)加以處理即可。
 新聞生成器插件中包括至少一個直接或間接實現IGenerator接口的類,該接口定義新聞生成器必須實現的功能,包括獲得新聞標題和新聞描述等。新聞生成器插件針對不同的新聞網站,采取不同的分析頁面源代碼和抓取分析策略,最終實現在IGenerator接口中規定必須實現的功能。
    新聞生成器插件在分析頁面源代碼的過程中,需要注意的是將頁面圖片、附件所使用的相對路徑或由JavaScript在事件中生成的路徑均轉換為絕對路徑,使其在從新聞網站獨立出來后仍能正常使用。此外,在處理過程中若發生錯誤,應將異常交由日志記錄模塊進行記錄,并由異常處理模塊做相應處理。
2.2 新聞中心平臺的設計
 基于半自動化提取新聞的設計思想,為江蘇城市職業學院實現了一套可擴展的新聞中心平臺。其平臺由歸檔數據庫、新聞生成器插件平臺、服務層、RSS種子生成模塊、日志記錄和異常管理模塊以及多種類型的新聞中心表示層(客戶端、網站、RIA等)組成,其整體架構如圖4所示。

 

 

2.2.1 新聞生成器插件平臺
 基于2.1節插件的設計思想,新聞生成器插件平臺負責將各插件集成到新聞中心平臺中,為新聞中心平臺提供來自不同網站的新聞信息。插件加載引擎通過讀取插件配置文件定位插件并加載。插件配置文件是一個XML文件,該文件定義了各新聞生成器插件所屬的新聞類別、插件文件路徑和生成器類的完整路徑,其格式如下所示:
<?xml version="1.0" encoding="utf-8"?>
 <categories>
   <category name="c1" title="t1" description="d1">
     <generator>
        <name>g1</name>
        <path>g1.dll</path>
        <class>G1</class>
    </generator>
    <generator>
    …
    </generator>
    …
 </category>
 <category name=”c2” title=”t2” description=”d2”>
 …
 </category>
    …
 </categories>
 要為新聞中心平臺增加新的新聞生成器插件,只需在插件配置文件中增加該插件的配置信息以及插件加載引擎即可定位到該插件,并通過調用相關方法,向新聞中心平臺提供來自新來源的新聞信息。
2.2.2 歸檔數據庫
 歸檔數據庫負責存放保留由各新聞生成器通過分析新聞所在網站源代碼而抓取生成的新聞內容。
2.2.3 RSS種子生成模塊
 在新聞生成器插件平臺的基礎上,RSS種子生成模塊能夠為每個新聞來源生成一個RSS種子,以便用戶使用RSS閱讀器訂閱新聞。
由于RSS文件是XML格式的,因此在生成RSS種子時,需要轉換或過濾與XML文檔不兼容的字符。另外,根據RSS標準的規范定義,需要將日期時間轉換為RFC822規定的格式。
2.3 服務層
 在新聞生成器插件平臺的基礎上,服務層進一步將功能抽象為一個個平臺無關的Web Services方法,以適合為多種類型的表示層提供功能。
服務層主要提供以下服務:獲得新聞類別列表、獲得新聞頻道列表、獲得新聞標題列表和獲得新聞正文等。
2.4 日志記錄模塊和異常管理模塊
    日志記錄和異常管理模塊貫穿整個新聞中心平臺的服務周期,用以記錄平臺的工作狀況,并在發生異常時及時采取措施。
2.5 多種類型的新聞中心表示層
 通過調用服務層提供的Web Services,新聞中心的表示層可以使用不同技術,并設計成為多種不同的表現形式,從而滿足不同用戶的需要。
3 新聞中心平臺的實現和運用
3.1 運行環境與實現

 新聞中心平臺基于.NET Framework 4.0構建,除表示層因具體技術不同而有所區分外,新聞中心平臺的其余部分最終均部署于Dell PowerEdge R900服務機上使用VMWare ESX 3i劃分的一臺安裝有Windows Server 2008操作系統的虛擬機上。
新聞中心平臺的客戶端可以多種不同形式(網站、PC或手機應用程序等)向用戶提供新聞。圖5是江蘇城市職業學院新聞中心客戶端的運行效果圖。圖中的新聞均由新聞中心平臺通過提取與分析江蘇城市職業學院網站的內容自動整理生成,并與網站更新保持同步,用戶通過使用新聞中心平臺,能夠便捷地集中瀏覽原本散落于網站各個頁面學院的新聞。
3.2 新聞中心平臺的優勢
 除使用本文實現的新聞中心平臺的方式外,還可通過設計門戶網站或設計搜索引擎的方式方便對信息的獲得,與此二種方式相比,新聞中心平臺有其特有的優勢。
3.2.1 與門戶網站相比的優勢
 新聞門戶網站能夠分類發布和整理新聞,但重新架構一套門戶網站,意味著需要完全放棄現有的所有新聞網站,重新組織來自眾多院系部門的新聞維護人員,成本極高。此外,各院系部門并非完全不需要一個展示自身的網站平臺,完全廢棄這些網站而統一使用門戶網站將使各院系部門的形象千篇一律,流程僵化,而保留這些網站并同時使用門戶網站又將造成信息的冗余。
 而新聞中心平臺是利用插件半自動化地從各院系部門現有網站中提取新聞,避免了重復建設,并只由歸檔數據庫做適當緩存,隨時可以刪除,不存在大量冗余。與建設門戶網站相比,使用新聞中心平臺能有效降低成本投入,且更加靈活。
3.2.2 與搜索引擎相比的優勢
 可以使用搜索引擎,通過關鍵詞檢索新聞。然而檢索的范圍和粒度都難以控制,也不能滿足一般的新聞瀏覽需要。而新聞中心平臺將新聞分門別類,在方便統一瀏覽的同時,可以足夠快速地找到所需的新聞,在必要的時候還可以加入搜索功能作為輔助。
 本文設計并實現了一套基于插件架構的新聞中心平臺,該平臺在新聞中心網站和客戶端的設計中進行了實踐,通過插件提取新聞網站的內容進行分析匯總,解決了新聞來源混亂而不易于獲得的問題,且具有較好的擴展性。今后將進一步分析新聞網站的特點,有針對性地提高信息提取的自動化程度。
參考文獻
[1] 王宇寧.隱馬爾可夫模型在信息抽取中的應用研究[D].大連:大連理工學院,2007.
[2] 袁宇麗.基于HTML網頁的Web信息提取研究[D].成都:電子科技大學,2005.
[3] 謝德輝.面向刑偵網頁的信息抽取與主題爬蟲應用研究[D].大連:大連理工學院,2007.
[4] FINN A, KUSHMERICK A, SMYTH B. Fact or fiction: content classification for digital libraries[C]. The 2nd DELOS Network of Excellence Workshop on Personalisation and Recommender Systems in Digital Libraries, Dublin, Ireland, 2001: 110-115
[5] 胡國平,張巍,王仁華.基于雙層決策的新聞網頁正文精確抽取[J].中文信息學報,2006,20(6):1-10.
[6] 楊成.基于XML的網頁信息提取系統的研究與設計[J]. 電腦知識與技術,2009,5(25):7327-7329.

此內容為AET網站原創,未經授權禁止轉載。
亚洲一区二区欧美_亚洲丝袜一区_99re亚洲国产精品_日韩亚洲一区二区
久久精品国产99国产精品澳门| 六月婷婷一区| 亚洲福利视频一区二区| 亚洲一区二区三区影院| 一区二区三区免费在线观看| 亚洲精选国产| 亚洲三级观看| 亚洲国产精品国自产拍av秋霞| 狠狠久久亚洲欧美专区| 国语自产精品视频在线看一大j8 | 欧美激情第三页| 免费看亚洲片| 欧美成人午夜剧场免费观看| 裸体素人女欧美日韩| 久久伊人精品天天| 欧美99久久| 欧美剧在线免费观看网站| 欧美精品在线一区二区| 欧美日韩1区2区| 欧美日韩一区二区视频在线| 欧美午夜在线一二页| 国产精品久久波多野结衣| 国产精品久久久久影院亚瑟| 国产精品日韩欧美| 国产精品自拍视频| 国产综合av| 亚洲国产精品久久久久婷婷老年 | 午夜国产不卡在线观看视频| 欧美一区二区三区视频免费| 欧美在线免费视屏| 久久久久久电影| 免费美女久久99| 欧美久久久久久久久| 欧美新色视频| 国产免费成人av| 一区二区三区在线视频播放| 亚洲欧洲在线看| 一区二区三区高清视频在线观看| 亚洲中午字幕| 亚洲国产成人av好男人在线观看| 亚洲精品视频免费在线观看| 亚洲一区二区精品视频| 欧美在线日韩精品| 免费成人性网站| 欧美日韩直播| 国产日韩欧美日韩| 亚洲国产日韩一区二区| 亚洲午夜羞羞片| 久久精品论坛| 在线亚洲欧美| 久久av免费一区| 欧美成人免费在线| 欧美性猛交xxxx免费看久久久 | 国产日韩欧美一区二区三区在线观看 | 久久精品国产亚洲高清剧情介绍| 美女黄网久久| 国产精品裸体一区二区三区| 狠狠干成人综合网| 一本色道久久加勒比精品| 欧美一区=区| 99re6这里只有精品| 欧美中文在线观看| 欧美日本中文字幕| 黄色日韩精品| 国产精品99久久久久久www| 久久经典综合| 亚洲欧美日韩爽爽影院| 欧美sm视频| 国产偷国产偷精品高清尤物| 亚洲麻豆视频| 久久精品亚洲精品| 午夜精品一区二区三区四区 | 欧美激情 亚洲a∨综合| 国产午夜久久| 一区二区av在线| 91久久久亚洲精品| 欧美有码视频| 欧美性做爰猛烈叫床潮| 亚洲国产欧美一区二区三区久久| 香蕉久久夜色精品| 亚洲综合日韩在线| 欧美激情中文不卡| 好看的亚洲午夜视频在线| 亚洲一区国产视频| 一区二区三区毛片| 免费亚洲婷婷| 国产主播在线一区| 亚洲欧美国产毛片在线| 亚洲一区二区三区视频播放| 欧美黄色一级视频| 激情一区二区三区| 欧美在线播放| 小黄鸭精品aⅴ导航网站入口| 欧美日韩国产一区二区| 亚洲国产欧美一区二区三区久久 | 亚洲视频精选在线| 一本大道久久精品懂色aⅴ| 鲁大师影院一区二区三区| 国产日韩欧美综合一区| 亚洲欧美经典视频| 亚洲女女女同性video| 欧美日韩免费观看一区| 亚洲第一黄网| 亚洲国产美女精品久久久久∴| 久久精品日韩| 国产三级精品三级| 性欧美8khd高清极品| 欧美在线免费播放| 国产日韩精品在线播放| 亚洲欧美日韩在线高清直播| 性欧美1819sex性高清| 欧美亚一区二区| 一区二区动漫| 亚洲午夜一区二区| 国产精品白丝jk黑袜喷水| 一区二区国产日产| 亚洲午夜日本在线观看| 欧美四级在线观看| 在线视频日韩| 亚洲欧美激情一区二区| 国产精品一卡二卡| 亚洲欧美一区二区精品久久久| 香港久久久电影| 国产欧美日韩麻豆91| 午夜精品久久久久久久久久久| 久久av一区二区三区| 国产自产2019最新不卡| 亚洲福利视频网| 欧美大秀在线观看| 亚洲黄色有码视频| 中文日韩欧美| 国产精品美女久久福利网站| 亚洲一区高清| 久久久久久久综合| 狠狠色丁香久久婷婷综合_中| 亚洲电影免费观看高清| 久久香蕉国产线看观看网| 亚洲第一成人在线| 一区二区三区av| 欧美日韩中字| 亚洲欧美一区二区在线观看| 久久嫩草精品久久久精品| 在线观看国产成人av片| 99伊人成综合| 国产精品男女猛烈高潮激情| 午夜精品久久久久久99热| 裸体素人女欧美日韩| 亚洲日本成人| 亚洲欧美另类久久久精品2019| 国产日韩av一区二区| 亚洲国产日韩一区二区| 欧美激情在线| 亚洲欧美激情视频| 久久综合久久久久88| 亚洲免费av片| 午夜精品久久久久久久男人的天堂 | 一区二区精品国产| 欧美在线一二三区| 在线免费观看欧美| 亚洲午夜久久久| 国产在线视频欧美一区二区三区| 亚洲精品欧美激情| 国产精品你懂的在线欣赏| 亚洲夫妻自拍| 欧美日韩一区在线观看视频| 欧美一区二区高清在线观看| 欧美韩日亚洲| 午夜精品国产更新| 欧美欧美午夜aⅴ在线观看| 亚洲欧美日韩国产成人精品影院| 男同欧美伦乱| 亚洲综合精品自拍| 欧美激情1区| 欧美亚洲日本国产| 欧美日本在线一区| 久久精品女人| 国产精品大片免费观看| 久久成人资源| 国产精品成人免费视频| 亚洲国产成人高清精品| 国产精品久久久久久久久久ktv| 亚洲国产精品一区二区尤物区| 国产精品a级| 亚洲国产日韩在线一区模特| 国产精品日本欧美一区二区三区| 亚洲国产欧美在线| 国产乱码精品1区2区3区| 亚洲毛片一区| 韩日欧美一区| 午夜精彩国产免费不卡不顿大片| 亚洲国产另类久久精品| 久久精品国产亚洲一区二区| 日韩午夜一区| 欧美第十八页| 久久国产欧美精品| 国产精品尤物| 亚洲性图久久| 亚洲韩国精品一区| 久久免费精品视频| 亚洲免费视频在线观看|