《電子技術應用》
您所在的位置:首頁 > 通信與網絡 > 設計應用 > 基于網頁分割的Web信息提取算法
基于網頁分割的Web信息提取算法
來源:微型機與應用2011年第5期
侯明燕,楊天奇
(暨南大學 計算機科學系,廣東 廣州 510632)
摘要: 針對網頁非結構化信息抽取復雜度高的問題,提出了一種基于網頁分割的Web信息提取算法。對網頁噪音進行預處理,根據網頁的文檔對象模型樹結構進行標簽路徑聚類,通過自動訓練的閾值和網頁分割算法快速判定網頁的關鍵部分,根據數據塊中的嵌套結構獲取網頁文本提取模板。對不同類型網站的實驗結果表明,該算法運行速度快、準確度高。
Abstract:
Key words :

摘  要: 針對網頁非結構化信息抽取復雜度高的問題,提出了一種基于網頁分割的Web信息提取算法。對網頁噪音進行預處理,根據網頁的文檔對象模型樹結構進行標簽路徑聚類,通過自動訓練的閾值和網頁分割算法快速判定網頁的關鍵部分,根據數據塊中的嵌套結構獲取網頁文本提取模板。對不同類型網站的實驗結果表明,該算法運行速度快、準確度高。
關鍵詞: 網頁分割;信息提取;聚類;閾值

 信息抽取IE(Information Extraction)是一種直接從自然語言文本中抽取事實信息,并以結構化的形式描述信息的過程。通常被抽取出的信息以結構化的形式存入數據庫中,可進一步用于信息查詢、文本深層挖掘、Web數據分析、自動問題回答等。Web頁面所表達的主要信息通常隱藏在大量無關的結構和文字中,這使得對Web文檔進行信息抽取十分困難。一般的網頁內容包括兩部分,一部分是網頁的主題信息,如一張新聞網頁的新聞標題、新聞正文、發布時間、新聞來源;另一部分是與主題無關的內容,如廣告信息、導航條,也稱為噪聲信息。如何有效地消除網頁噪聲,提取有價值的主題信息已成為當前信息抽取領域的一個重要課題[1]。參考文獻[2]提出一種依靠統計信息,從中文新聞類網頁中抽取正文內容的方法,有一定實用性,但適用范圍有限。參考文獻[3]針對Deep Web信息抽取設計了一種新的模板檢測方法,并利用檢測出的模板自動從實例網頁中抽取數據,但只能用于電子商務網站。參考文獻[4]從網頁中刪除無關部分,通過逐步消除噪音尋找源網頁的結構和內容,但提取結果不完整。
 考慮以上方法的優缺點,本文首先對網頁噪音進行預處理,通過自動訓練的閾值和網頁分割算法快速判定網頁的關鍵部分,根據數據塊中的嵌套結構獲取網頁文本抽取模板。
1 網頁預處理及區域噪音處理
1.1 網頁預處理

 可以通過以下3個預處理規則來過濾網頁中的不可見噪聲和部分可見噪聲:(1)僅刪除標簽;(2)刪除標簽及起始與結束標簽包含的HTML文本;(3)對HTML標簽進行修正和配對,刪除源碼中的亂碼。
1.2 區域噪音的處理
 為了實現網頁的導航,顯示用戶閱讀的相關信息,并幫助用戶實現快速跳轉到其他頁面,網頁中一般要設計列表信息,在處理此類信息時,本文設計了兩個噪音識別參數。
Length=Length(content)為<tag>…</tag>標簽內純文本信息的長度,設定字符的ASCII code>255?length+2:length+1。


3 算法描述
3.1 Xpath聚類算法

 將一個目標頁面表示為DOM樹結構,采用深度優先遍歷策略,提取DOM樹中的每個葉節點。對于每次遍歷的葉節點,通過比較其Xpath,將其序號添加到具有最大相似度的Xpath聚類中。具體算法描述如下:
Input DOMTree
Output XpathCluster
Cluster(DOM Tree)
{ XpathCluster =?準;
for each xpath of leaf node
{
if (XpathCluster.xpath.Find(xpath))
{XpathCluster.xpath.Insert(node);}
else
{XpathCluster.Insert(xpath);
XpathCluster.xpath.Insert(node);
}
}  
Return XpathCluster;
}
 由于在聚類過程中,可能將非正文信息聚類到正文信息類中,因此先分析其方差。若一個聚類中的方差很大,則利用式(5)定位到分割點,將目標正文信息塊與其周圍的分隔噪音塊分割開。另外,利用文本信息塊的聚類平均周期、信息長度和HUB判別等統計參數,幫助定位分割信息條。當第1個滿足全部啟發式規則和統計信息的聚類出現時,可以認為已經找到了正文信息塊,完成分割任務。分割算法描述如下:
Input XpathCluster //Xapth聚類
Output SegBoundary //分割邊界
Variables:Integer:Length_Threshold;
//正文長度的最小閾值
Float:Bn_Threshold;//Bn列表噪音判定系數的閾值
WebPageSeg
{  SegBoundary =?覬;
Count=0;
While(Count!=XpathCluster.size())
{
If(XpathCluster.at(count).var0 is within threshold)
If(xpathCluster.at(count).size()>
//MAXSIZE&&xpathCluster.at(cou
nt).length> Length_Threshold
&& xpathCluster.at(count).Bn>Bn_Threshold && ?駐 T>  
PreD ) //check
{SegBoundary.insert(each node within XpathCluster.at(count))
Break;
}
else Count++;
}
}else{//利用啟發式規則(1)進行分割
Detect segment point use(2.3.4)
Sort(new cluser);
Count++;
}
}
Return SegBoundary;
}
3.2 節點集合內的文本抽取算法
 節點集合內的文本抽取算法描述如下:
Input SegBoundary[];//分割出來的符合條件的文本塊
Output TextHashMap<tagpath,table textchunk,document
 //frequency>基于HashMap的文本塊模板映射
Variables Integer: Frequency_Threshold;
//table/div嵌套次數的閾值
StringBuffer: textChunk; //文本塊
For each  chunkp  in  SegBoundary[]
While p has more HTML nodes
nNode=p.nextnode;
ifnNode is not table/div Tag
textChunk=textChunk+extracted text from nNode;
//抽取nNode間的文本信息
else if nNode is table/div Tag
{
if TextHashMap.contains(tagpath)==true
{ documentfrequency++;}
else{
Documentfrequency=1;
}
TextHashMap.put(tagpath,textChunk,documentfrequency);
}
While TextHashMap has more{tagpath,textChunk,document //frequency}
h is TextHashMap’s item
if document frequency of h≥Frequency_Threshold  
Print textChunk of item h
3.3 閾值的確定
 在上述算法中,需要設定3個閾值參數:Length_ Threshold、Bn_Threshold、Frequency_Threshold,它們對算法的時間復雜度和抽取效果具有一定調節作用,處理網頁結構相似的網頁時,可以通過訓練樣本自適應地算出相應的閾值。對于不同類型網頁的閾值,3個參數的數據分布有較大不同,Length、Bn的數據分布絕大多數處于較小范圍內,這些數據也是需要去掉的噪音數據,因此,使用K-means[4]對樣本數據進行聚類處理,而frequency數據相對前兩個參數沒有明顯的分布趨勢,數據量不大,而且也處在{1-10}這樣的一個較窄的局部區間中。實驗表明,聚類分析效果不明顯,因此本文用算數平均值求解。
 (1)單個樣本網頁的閾值訓練


 本文設計一種新的文本抽取算法,該算法采用網頁標簽分割和HTML樹結構,能獲得較高準確度。整個算法簡單實用,前期的去除網頁噪音算法可以讓抽取的網頁正文信息更準確。在未來工作中,可以把該方法與現有中文信息處理技術相結合,如考慮文本信息的相關性以及文本的字體屬性來判斷其重要性。
參考文獻
[1] 歐健文,董守斌,蔡斌.模板化網頁主題信息的提取方法[J].清華大學學報:自然科學版,2005,45(S1):1743-1747.
[2] 孫承杰,關毅.基于統計的網頁正文信息抽取方法的研究[J].中文信息學報,2004,18(5):17-22.
[3] Yang Shaohua, Lin Hailue, Han Yanbo. Automatic data extraction from template-generated Web pages[J]. Journal of Software, 2008,19(2): 209-223.
[4] GUPTA S, KAISER G, NEISTADT D, et al. DOM-based content extraction of HTML documents[C]. Proceedings of the 12th Word Wide Web Conference New York, USA: [s. n.], 2003.
[5] PELLEG D, BARAS D. K-means with large and noisy constraint sets[C]. Proceedings of the 18th European Conference on Machine Learning. Warsaw, Poland: [s. n.], 2007.
[6] 于琨,蔡智,糜仲春,等.基于路徑學習的信息自動抽取方法[J].小型微型計算機系統,2003,24(12):2147-2149.
[7] 周順先.文本信息抽取模型及算法研究[D].長沙:湖南大學,2007.

此內容為AET網站原創,未經授權禁止轉載。
亚洲一区二区欧美_亚洲丝袜一区_99re亚洲国产精品_日韩亚洲一区二区
欧美视频在线看| 一色屋精品亚洲香蕉网站| 久久久精品国产99久久精品芒果| 中文欧美日韩| 亚洲毛片在线| 亚洲每日更新| 亚洲伦理在线观看| 亚洲人成网站色ww在线| 亚洲经典三级| 亚洲国产精品精华液网站| 黄色成人av网站| 国产亚洲欧美一区在线观看 | 免费日韩成人| 欧美xx69| 欧美人妖另类| 欧美午夜精品久久久久久超碰| 欧美日韩一区综合| 欧美性猛交99久久久久99按摩 | 欧美无砖砖区免费| 国产精品久久久久久久app| 国产精品美女久久久免费| 国产精品毛片高清在线完整版| 国产精品成人一区二区三区吃奶| 欧美性jizz18性欧美| 国产精品午夜在线| 国产一区清纯| 1000部精品久久久久久久久| 亚洲欧洲日韩综合二区| 亚洲精品激情| 一卡二卡3卡四卡高清精品视频| 亚洲天堂男人| 欧美一区二区免费观在线| 欧美自拍丝袜亚洲| 亚洲国产色一区| 99天天综合性| 亚洲在线观看视频| 久久国产精品99国产| 久久精品人人做人人综合| 亚洲日本va午夜在线电影| 99热这里只有精品8| 亚洲一区久久久| 久久国产精品第一页| 免费不卡视频| 欧美偷拍另类| 国产一区二区主播在线| 亚洲国产精品一区二区尤物区| 最新热久久免费视频| 亚洲特级毛片| 久久er99精品| 亚洲视频综合| 久久精精品视频| 欧美激情小视频| 国产精品久久久久久户外露出| 韩国精品在线观看| 日韩一二三区视频| 久久成人国产精品| 中文一区二区在线观看| 久久精品成人欧美大片古装| 欧美激情在线有限公司| 国产欧美一区二区精品性色| 亚洲国产精品传媒在线观看 | 一区二区三区视频观看| 欧美中文在线观看国产| 亚洲九九九在线观看| 欧美中文字幕| 一本一本a久久| 久久精品日产第一区二区三区| 欧美精品日韩一本| 国产一区二区三区无遮挡| 最新国产拍偷乱拍精品| 香蕉久久久久久久av网站| av不卡在线看| 久久综合激情| 国产精品电影网站| 在线日韩电影| 午夜精品999| av成人福利| 久久免费少妇高潮久久精品99| 欧美日韩国产精品一区| 韩日欧美一区| 亚洲一区在线观看免费观看电影高清| 亚洲国产精品美女| 欧美在线观看视频一区二区三区 | 亚洲欧美在线免费| 欧美成人综合网站| 国产日本欧美一区二区三区| 亚洲精品美女在线| 亚洲电影毛片| 欧美一区二区三区在线| 欧美色大人视频| 亚洲国产精品久久| 久久国产日韩| 欧美亚洲日本国产| 欧美日韩中文字幕在线| 亚洲国产欧美日韩| 亚洲福利视频一区| 久久福利一区| 国产精品亚洲综合| 妖精成人www高清在线观看| 亚洲精品韩国| 欧美a级片网站| 精品69视频一区二区三区| 亚洲专区在线| 亚洲欧美成aⅴ人在线观看| 欧美精品一区二区三区很污很色的| 韩日在线一区| 欧美在线3区| 久久久av网站| 国产一区二区剧情av在线| 亚洲欧美在线x视频| 欧美一区二区三区啪啪| 国产精品美女久久| 亚洲小视频在线| 亚洲欧美国产精品专区久久| 欧美视频一区| av成人激情| 亚洲一区二区在线播放| 欧美日韩国产精品| 日韩视频免费观看高清在线视频| 亚洲美女色禁图| 欧美精选午夜久久久乱码6080| 亚洲国产精品一区| 亚洲欧洲一区二区三区久久| 另类尿喷潮videofree | 亚洲欧美日本另类| 欧美一区二区三区四区在线观看地址 | 欧美精品一区二区三区视频| 91久久夜色精品国产网站| 亚洲美女黄色片| 欧美日韩免费观看一区| 亚洲伦理在线| 制服丝袜激情欧洲亚洲| 欧美视频一区| 亚洲在线中文字幕| 久久国产精品免费一区| 狠狠色狠狠色综合日日91app| 久久激情久久| 欧美国产91| 99国产成+人+综合+亚洲欧美| 在线视频精品一| 国产精品日韩久久久| 香蕉久久夜色精品| 蜜臀91精品一区二区三区| 亚洲国产欧美日韩| 亚洲视频碰碰| 国产乱人伦精品一区二区| 欧美一区二区三区四区视频| 美女精品在线| 99精品国产高清一区二区| 午夜日韩在线| 影院欧美亚洲| 一本一道久久综合狠狠老精东影业 | 久久精品国产96久久久香蕉| 一区三区视频| 一区二区三区日韩欧美精品| 国产精品网站在线观看| 久久精品99无色码中文字幕| 欧美日本在线观看| 亚洲女人天堂av| 免费日韩av片| 国产精品99久久久久久人| 久久精品亚洲精品| 亚洲黄一区二区三区| 亚洲欧美中文日韩在线| 激情欧美一区| 亚洲一区二区三区午夜| 国产一区二区三区四区三区四 | 在线视频你懂得一区| 久久精品一区二区| 亚洲黑丝在线| 欧美一二三区精品| 亚洲国产欧美一区二区三区同亚洲| 亚洲一级黄色片| 韩日成人av| 亚洲一区www| 黄色欧美成人| 亚洲新中文字幕| 在线成人激情黄色| 亚洲综合二区| 亚洲第一久久影院| 新狼窝色av性久久久久久| 亚洲第一色中文字幕| 亚洲欧美卡通另类91av| 影音先锋日韩资源| 午夜久久久久久久久久一区二区| 一区二区亚洲精品国产| 午夜免费久久久久| 亚洲激情影院| 久久九九热re6这里有精品| 亚洲理论在线| 久久一二三四| 亚洲欧美精品suv| 欧美日韩在线精品| 亚洲精品欧洲| 国产亚洲欧美日韩日本| 亚洲欧美成人| 亚洲精品一区二区三区在线观看 | 亚洲日韩中文字幕在线播放| 国产日韩欧美a| 亚洲视频免费|