《電子技術應用》
您所在的位置:首頁 > 通信與網絡 > 設計應用 > 基于網頁分割的Web信息提取算法
基于網頁分割的Web信息提取算法
來源:微型機與應用2011年第5期
侯明燕,楊天奇
(暨南大學 計算機科學系,廣東 廣州 510632)
摘要: 針對網頁非結構化信息抽取復雜度高的問題,提出了一種基于網頁分割的Web信息提取算法。對網頁噪音進行預處理,根據網頁的文檔對象模型樹結構進行標簽路徑聚類,通過自動訓練的閾值和網頁分割算法快速判定網頁的關鍵部分,根據數據塊中的嵌套結構獲取網頁文本提取模板。對不同類型網站的實驗結果表明,該算法運行速度快、準確度高。
Abstract:
Key words :

摘  要: 針對網頁非結構化信息抽取復雜度高的問題,提出了一種基于網頁分割的Web信息提取算法。對網頁噪音進行預處理,根據網頁的文檔對象模型樹結構進行標簽路徑聚類,通過自動訓練的閾值和網頁分割算法快速判定網頁的關鍵部分,根據數據塊中的嵌套結構獲取網頁文本提取模板。對不同類型網站的實驗結果表明,該算法運行速度快、準確度高。
關鍵詞: 網頁分割;信息提取;聚類;閾值

 信息抽取IE(Information Extraction)是一種直接從自然語言文本中抽取事實信息,并以結構化的形式描述信息的過程。通常被抽取出的信息以結構化的形式存入數據庫中,可進一步用于信息查詢、文本深層挖掘、Web數據分析、自動問題回答等。Web頁面所表達的主要信息通常隱藏在大量無關的結構和文字中,這使得對Web文檔進行信息抽取十分困難。一般的網頁內容包括兩部分,一部分是網頁的主題信息,如一張新聞網頁的新聞標題、新聞正文、發布時間、新聞來源;另一部分是與主題無關的內容,如廣告信息、導航條,也稱為噪聲信息。如何有效地消除網頁噪聲,提取有價值的主題信息已成為當前信息抽取領域的一個重要課題[1]。參考文獻[2]提出一種依靠統計信息,從中文新聞類網頁中抽取正文內容的方法,有一定實用性,但適用范圍有限。參考文獻[3]針對Deep Web信息抽取設計了一種新的模板檢測方法,并利用檢測出的模板自動從實例網頁中抽取數據,但只能用于電子商務網站。參考文獻[4]從網頁中刪除無關部分,通過逐步消除噪音尋找源網頁的結構和內容,但提取結果不完整。
 考慮以上方法的優缺點,本文首先對網頁噪音進行預處理,通過自動訓練的閾值和網頁分割算法快速判定網頁的關鍵部分,根據數據塊中的嵌套結構獲取網頁文本抽取模板。
1 網頁預處理及區域噪音處理
1.1 網頁預處理

 可以通過以下3個預處理規則來過濾網頁中的不可見噪聲和部分可見噪聲:(1)僅刪除標簽;(2)刪除標簽及起始與結束標簽包含的HTML文本;(3)對HTML標簽進行修正和配對,刪除源碼中的亂碼。
1.2 區域噪音的處理
 為了實現網頁的導航,顯示用戶閱讀的相關信息,并幫助用戶實現快速跳轉到其他頁面,網頁中一般要設計列表信息,在處理此類信息時,本文設計了兩個噪音識別參數。
Length=Length(content)為<tag>…</tag>標簽內純文本信息的長度,設定字符的ASCII code>255?length+2:length+1。


3 算法描述
3.1 Xpath聚類算法

 將一個目標頁面表示為DOM樹結構,采用深度優先遍歷策略,提取DOM樹中的每個葉節點。對于每次遍歷的葉節點,通過比較其Xpath,將其序號添加到具有最大相似度的Xpath聚類中。具體算法描述如下:
Input DOMTree
Output XpathCluster
Cluster(DOM Tree)
{ XpathCluster =?準;
for each xpath of leaf node
{
if (XpathCluster.xpath.Find(xpath))
{XpathCluster.xpath.Insert(node);}
else
{XpathCluster.Insert(xpath);
XpathCluster.xpath.Insert(node);
}
}  
Return XpathCluster;
}
 由于在聚類過程中,可能將非正文信息聚類到正文信息類中,因此先分析其方差。若一個聚類中的方差很大,則利用式(5)定位到分割點,將目標正文信息塊與其周圍的分隔噪音塊分割開。另外,利用文本信息塊的聚類平均周期、信息長度和HUB判別等統計參數,幫助定位分割信息條。當第1個滿足全部啟發式規則和統計信息的聚類出現時,可以認為已經找到了正文信息塊,完成分割任務。分割算法描述如下:
Input XpathCluster //Xapth聚類
Output SegBoundary //分割邊界
Variables:Integer:Length_Threshold;
//正文長度的最小閾值
Float:Bn_Threshold;//Bn列表噪音判定系數的閾值
WebPageSeg
{  SegBoundary =?覬;
Count=0;
While(Count!=XpathCluster.size())
{
If(XpathCluster.at(count).var0 is within threshold)
If(xpathCluster.at(count).size()>
//MAXSIZE&&xpathCluster.at(cou
nt).length> Length_Threshold
&& xpathCluster.at(count).Bn>Bn_Threshold && ?駐 T>  
PreD ) //check
{SegBoundary.insert(each node within XpathCluster.at(count))
Break;
}
else Count++;
}
}else{//利用啟發式規則(1)進行分割
Detect segment point use(2.3.4)
Sort(new cluser);
Count++;
}
}
Return SegBoundary;
}
3.2 節點集合內的文本抽取算法
 節點集合內的文本抽取算法描述如下:
Input SegBoundary[];//分割出來的符合條件的文本塊
Output TextHashMap<tagpath,table textchunk,document
 //frequency>基于HashMap的文本塊模板映射
Variables Integer: Frequency_Threshold;
//table/div嵌套次數的閾值
StringBuffer: textChunk; //文本塊
For each  chunkp  in  SegBoundary[]
While p has more HTML nodes
nNode=p.nextnode;
ifnNode is not table/div Tag
textChunk=textChunk+extracted text from nNode;
//抽取nNode間的文本信息
else if nNode is table/div Tag
{
if TextHashMap.contains(tagpath)==true
{ documentfrequency++;}
else{
Documentfrequency=1;
}
TextHashMap.put(tagpath,textChunk,documentfrequency);
}
While TextHashMap has more{tagpath,textChunk,document //frequency}
h is TextHashMap’s item
if document frequency of h≥Frequency_Threshold  
Print textChunk of item h
3.3 閾值的確定
 在上述算法中,需要設定3個閾值參數:Length_ Threshold、Bn_Threshold、Frequency_Threshold,它們對算法的時間復雜度和抽取效果具有一定調節作用,處理網頁結構相似的網頁時,可以通過訓練樣本自適應地算出相應的閾值。對于不同類型網頁的閾值,3個參數的數據分布有較大不同,Length、Bn的數據分布絕大多數處于較小范圍內,這些數據也是需要去掉的噪音數據,因此,使用K-means[4]對樣本數據進行聚類處理,而frequency數據相對前兩個參數沒有明顯的分布趨勢,數據量不大,而且也處在{1-10}這樣的一個較窄的局部區間中。實驗表明,聚類分析效果不明顯,因此本文用算數平均值求解。
 (1)單個樣本網頁的閾值訓練


 本文設計一種新的文本抽取算法,該算法采用網頁標簽分割和HTML樹結構,能獲得較高準確度。整個算法簡單實用,前期的去除網頁噪音算法可以讓抽取的網頁正文信息更準確。在未來工作中,可以把該方法與現有中文信息處理技術相結合,如考慮文本信息的相關性以及文本的字體屬性來判斷其重要性。
參考文獻
[1] 歐健文,董守斌,蔡斌.模板化網頁主題信息的提取方法[J].清華大學學報:自然科學版,2005,45(S1):1743-1747.
[2] 孫承杰,關毅.基于統計的網頁正文信息抽取方法的研究[J].中文信息學報,2004,18(5):17-22.
[3] Yang Shaohua, Lin Hailue, Han Yanbo. Automatic data extraction from template-generated Web pages[J]. Journal of Software, 2008,19(2): 209-223.
[4] GUPTA S, KAISER G, NEISTADT D, et al. DOM-based content extraction of HTML documents[C]. Proceedings of the 12th Word Wide Web Conference New York, USA: [s. n.], 2003.
[5] PELLEG D, BARAS D. K-means with large and noisy constraint sets[C]. Proceedings of the 18th European Conference on Machine Learning. Warsaw, Poland: [s. n.], 2007.
[6] 于琨,蔡智,糜仲春,等.基于路徑學習的信息自動抽取方法[J].小型微型計算機系統,2003,24(12):2147-2149.
[7] 周順先.文本信息抽取模型及算法研究[D].長沙:湖南大學,2007.

此內容為AET網站原創,未經授權禁止轉載。
亚洲一区二区欧美_亚洲丝袜一区_99re亚洲国产精品_日韩亚洲一区二区
好看的亚洲午夜视频在线| 亚洲高清一区二| 久久久999国产| 亚洲人被黑人高潮完整版| 国产精品99久久久久久久女警 | 国产亚洲福利一区| 欧美成人中文| 久久精品国产久精国产一老狼| 一本色道久久综合亚洲精品不卡| 欧美在线亚洲一区| 亚洲制服欧美中文字幕中文字幕| 91久久久一线二线三线品牌| 红桃av永久久久| 国产亚洲成年网址在线观看| 国产精品九九| 欧美三级在线播放| 欧美激情二区三区| 免费观看亚洲视频大全| 久久久久九九九| 亚洲欧美视频在线观看视频| 一本一本大道香蕉久在线精品| 亚洲国产精品悠悠久久琪琪| 久久大逼视频| 欧美在线一区二区| 香蕉久久夜色| 午夜精品视频| 亚洲影院免费观看| 亚洲女ⅴideoshd黑人| 国产欧美一区二区精品性| 国产精品av一区二区| 欧美久久一级| 欧美乱在线观看| 免费观看30秒视频久久| 久久天堂av综合合色| 久久久91精品国产一区二区三区 | 亚洲自拍电影| 亚洲色诱最新| 亚洲一区成人| 一区二区三区久久精品| 在线视频你懂得一区二区三区| 亚洲精选一区| 亚洲经典在线看| 亚洲人成在线影院| 日韩午夜三级在线| 一级日韩一区在线观看| 中日韩视频在线观看| 亚洲午夜国产成人av电影男同| 中文在线资源观看视频网站免费不卡| 中国日韩欧美久久久久久久久| 亚洲毛片一区二区| 一区二区久久| 亚洲免费一级电影| 欧美亚洲一区二区三区| 欧美在线1区| 久久久免费精品| 欧美1区免费| 欧美日韩精品免费观看视频完整 | 欧美激情一区二区三区蜜桃视频| 欧美精品福利| 国产精品v欧美精品v日韩精品| 国产精品日本欧美一区二区三区| 国产精品一区毛片| 国产一区美女| 国内在线观看一区二区三区| 黄色亚洲大片免费在线观看| 欧美日韩国产在线一区| 国产精品丝袜91| 狠狠综合久久av一区二区小说| 亚洲福利国产| 9色国产精品| 欧美中文字幕在线观看| 亚洲伦伦在线| 午夜久久福利| 裸体素人女欧美日韩| 欧美伦理91| 国产精一区二区三区| 伊人婷婷欧美激情| 99精品国产在热久久下载| 亚洲欧美国产精品桃花| 欧美怡红院视频| 一本色道久久加勒比精品| 欧美一区二区免费视频| 久久成人免费日本黄色| 欧美成人在线影院| 国产精品外国| 亚洲国产精品va在线观看黑人| 国产精品久久久久久久app| 在线成人激情视频| 性欧美超级视频| 亚洲欧美一区二区三区久久| 欧美久久精品午夜青青大伊人| 狠狠噜噜久久| 亚洲综合电影一区二区三区| 中文精品视频一区二区在线观看| 女人色偷偷aa久久天堂| 国产一区二区日韩精品欧美精品| 亚洲视频综合在线| 一区二区三区国产盗摄| 欧美成人嫩草网站| 韩日成人av| 久久gogo国模裸体人体| 欧美一级淫片aaaaaaa视频| 欧美午夜寂寞影院| 亚洲久久视频| 夜夜爽www精品| 欧美日本久久| 亚洲欧洲三级电影| 亚洲乱码国产乱码精品精| 免费在线看一区| 在线精品一区二区| 亚洲国产婷婷综合在线精品| 久久激情视频| 国产亚洲精品aa午夜观看| 亚洲欧美一区二区三区久久| 亚洲欧美日韩专区| 国产精品毛片在线| 亚洲图片激情小说| 亚洲欧美日韩国产另类专区| 欧美视频在线观看视频极品 | av成人免费观看| 亚洲午夜激情网站| 欧美午夜精品久久久久免费视 | 亚洲午夜精品久久久久久app| 欧美日韩国产精品一区二区亚洲| 亚洲日韩欧美一区二区在线| 日韩视频专区| 欧美日韩一二区| 一二三四社区欧美黄| 亚洲自拍偷拍麻豆| 国产精品亚洲一区| 欧美影院视频| 老司机午夜精品| 亚洲欧洲日韩在线| 中文国产一区| 国产精品中文字幕欧美| 欧美在线你懂的| 开心色5月久久精品| 亚洲国产老妈| 亚洲一区二区三区久久| 国产精品青草久久久久福利99| 亚洲女性裸体视频| 久久久久久久高潮| 伊人久久大香线蕉av超碰演员| 亚洲国产天堂久久综合| 欧美日韩国产a| 亚洲午夜在线观看视频在线| 久久精品99国产精品日本 | 一区二区三区国产盗摄| 欧美一区二区| 狠狠综合久久av一区二区老牛| 亚洲欧洲美洲综合色网| 欧美日韩在线视频观看| 亚洲视频在线观看三级| 久久久精品日韩| **性色生活片久久毛片| 夜夜嗨av色综合久久久综合网| 国产精品mv在线观看| 欧美亚洲免费电影| 欧美xx69| 在线视频日本亚洲性| 久久久另类综合| 亚洲日本aⅴ片在线观看香蕉| 亚洲在线一区二区三区| 国产一区视频网站| 一本色道久久综合| 国产日韩免费| 亚洲免费观看| 国产日韩欧美二区| 亚洲精品欧美日韩专区| 国产精品女人网站| 亚洲国产成人tv| 国产精品第一页第二页第三页| 久久精品123| 欧美日韩视频在线观看一区二区三区| 亚洲欧美视频一区| 欧美成人伊人久久综合网| 亚洲一区二区高清视频| 老司机一区二区三区| 一本色道久久综合亚洲精品婷婷| 久久天堂精品| 这里是久久伊人| 免费久久精品视频| 亚洲综合久久久久| 欧美精品久久久久久| 欧美一区二区日韩| 欧美日韩在线播放三区四区| 欧美资源在线观看| 国产精品护士白丝一区av| 亚洲国产精品99久久久久久久久| 国产精品福利影院| 亚洲啪啪91| 国产视频在线观看一区 | 午夜伦欧美伦电影理论片| 91久久精品www人人做人人爽| 久久精品国产99国产精品澳门 | 亚洲影院色无极综合| 欧美人与性动交cc0o| 亚洲国产另类 国产精品国产免费| 欧美网站在线观看| 亚洲免费电影在线|