《電子技術應用》
您所在的位置:首頁 > 嵌入式技術 > 設計應用 > 基于網頁DOM樹節點路徑相似度的正文抽取
基于網頁DOM樹節點路徑相似度的正文抽取
2016年微型機與應用第19期
潘心宇1,陳長福2,劉蓉1,王美清1
1.福州大學 數學與計算機科學學院,福建 福州 350108;2.福建庫易信息科技有限責任公司,福建 福州 350000
摘要: 由于人工抽取網頁信息效率低、成本高,因此根據對大量網頁結構的觀察,提出基于網頁文檔對象模型DOM樹節點路徑相似度的正文抽取方法。依據同網站下的網頁結構相同的特點去除網頁噪聲得到網頁的主題內容,然后結合正文節點在DOM樹中的路徑的相似度抽取正文。通過對不同類型的中文新聞網站上的1 000個網頁進行實驗,結果表明該方法對于97.6%的網頁都能夠去除大部分噪聲并保持正文內容的完整性,正文抽取結果有93.30%的準確率和95.59%的召回率。所提算法對不同類型的網頁都有較好的適應性。
Abstract:
Key words :

  潘心宇1,陳長福2,劉蓉1,王美清1

  (1.福州大學 數學與計算機科學學院,福建 福州 350108;2.福建庫易信息科技有限責任公司,福建 福州 350000)

       摘要:由于人工抽取網頁信息效率低、成本高,因此根據對大量網頁結構的觀察,提出基于網頁文檔對象模型DOM樹節點路徑相似度的正文抽取方法。依據同網站下的網頁結構相同的特點去除網頁噪聲得到網頁的主題內容,然后結合正文節點在DOM樹中的路徑的相似度抽取正文。通過對不同類型的中文新聞網站上的1 000個網頁進行實驗,結果表明該方法對于97.6%的網頁都能夠去除大部分噪聲并保持正文內容的完整性,正文抽取結果有93.30%的準確率和95.59%的召回率。所提算法對不同類型的網頁都有較好的適應性。

  關鍵詞:DOM樹;信息抽取HTML標簽網頁去噪;正文抽取

0引言

  隨著互聯網技術的快速發展,網頁成為人們獲取信息的重要來源之一。然而,網頁上的數據是海量的,單純依靠人工手段獲取網頁信息效率較低,因此需要借助軟件對網頁信息進行全部或部分地自動過濾和分類。目前常用的自動網頁信息獲取方法是正文內容抽取,該類方法是一種被廣泛應用于互聯網數據挖掘的技術,它的目標是從互聯網龐大的數據中提取有意義的和有價值的信息,可以用于信息搜索、Web文檔分類、數據挖掘、機器翻譯、文本摘要等。

  常用的正文抽取方法可以分為以下4類:(1)傳統的歸納總結正文抽取方法:根據一些信息模式,從特定的信息源中提取相關內容[1]。此方法效率較低、需要較多的手動操作,獨立性以及適應性較差。(2)基于網頁布局[2]和視覺[3-4]的正文抽取:該方法很大程度上依賴于網頁的風格或者結構。當涉及到有更復雜的嵌套關系的網頁時會出現偏差。(3)基于語義單元[5]或者數據挖掘、機器學習[6]的正文抽取:通過使用分詞和文本分類,雖然準確率有所提高,但是解決方案比較復雜。(4)基于統計的正文抽取[7]:該方法簡單而且具有更好的通用性,但是較低的精確度限制了它的進一步應用。此外,它不能處理短文本、表格文本以及有較長評論的文本。

  FINN A等[8]提出正文抽取(Body Text Extrac tion,BTE) 算法,將網頁中的文字和標簽作為序列,抽取序列中文字最多和標簽最少的連續的內容。PINTO D等[9]提出文檔斜率曲線(Document Slope Curves,DSC) 算法,在FINN的方法的基礎上使用窗口方法實現多正文抽取。MANTRATZIS C等[10]提出鏈接定額過濾(Link Quota Filters,LQE) 算法,通過網頁結構分析,分離正文和導航目錄等超鏈接。DEBNATH S等[11]提出特征提取器(Feature Extractor,FE)算法,選擇包含有一定特征的文本、圖像而且重復出現次數較少的內容塊。GOTTRON T等[12]提出正文代碼模糊(Content Code Blurring,CCB)算法,選擇相同格式的長文本作為網頁的正文。劉利等[13]提出基于多特征融合的網頁正文信息抽取,從網頁的多個特征和設計習慣入手定位正文位置。王利等[14]提出基于內容相似度的正文抽取,根據樹節點中文本內容與各級標題的相似度判定小塊文本信息的有效性,由此進行網頁清洗和正文抽取。

  分析網頁信息會發現,網頁中包含大量與網頁主題無關的噪聲內容,如廣告鏈接、導航欄、版權信息等。在正文抽取過程中,這些網頁噪聲會影響抽取效果,因此需要通過去噪方式對網頁進行預處理。常用的網頁去噪方法有:

  YI L等[15]提出用風格樹(Style Tree,ST)來表達網頁的結構和內容特征,出現相同特征次數多的部分更有可能是噪聲數據。GIBSON D等[16]提出Shingle和模板Hash方法。這兩種算法的缺點是計算量較大。WANG J Y等[17]提出的主題數據提取(Datarich Section Extraction,DSE)算法,該算法通過從上到下比較兩棵相同模板的文檔對象模型 (Document Object Model,DOM)樹,去除樹中相同的部分,剩下的部分作為網頁的主題內容。

  根據對現有方法的總結以及對網頁特征的分析,本文提出基于DOM樹節點路徑相似度的正文抽取方法,對于不同結構的網頁都有較好的適應性,對來源于新浪、網易、搜狐、騰訊等大型門戶網站以及多家各類型網站的1 000個網頁進行了抽取實驗,實驗結果表明本文方法有較好的抽取準確度。

1網頁去噪

  目前,大部分網頁的源代碼是以超文本標記語言 (Hyper Text Markup Language,HTML)的形式存在的。對于同一網站下的不同網頁,它們由同一個模板生成,因此這些網頁具有相似的結構,而這些網頁中相同的部分就是噪聲內容,它們與網頁所要表達的主題沒有關系。本文在DSE算法的基礎上,首先將與網頁無關的標簽及相關代碼刪除,然后通過將某個網頁與同一網站下的2個或多個網頁進行對比去除相同部分,從而達到去除噪聲的目的。

  1.1刪除無關的標簽

  網頁源代碼包含了以不同的標簽括起來的各段代碼。例如,網頁標題和一些修飾性代碼主要嵌在標簽<head>和</head>的內部,網頁主題內容包含在<body>和</body>標簽之間,客戶端腳本則包含在<script>和</script>標簽之間。通過對大量HTML文本的研究和分析,發現以下幾類標簽與網頁主題內容的相關性很低,在對比網頁之前可以將這部分內容過濾掉以提高后續的對比速度。

  <head>與</head>標簽以及它們之間的內容。

  <script></script>標簽。該標簽中內容的主要功能是定義客戶端腳本,與網頁所要表達的內容關系不大,也可以將其刪除,類似地,<noScript></noScript>也可刪除。

  大部分網頁通過層疊樣式表(Cascading Style Sheets,CSS)來調整頁面的布局,<style></style>標簽用于定義HTML文檔的樣式信息,同樣可以刪除。

  注釋標簽<!--注釋內容-->、<!注釋內容>只是為網站編輯提供說明,并不會在瀏覽器中顯示,也可刪除。

  在預處理過程中利用正則表達式刪除以上噪聲代碼。正則表達式通過使用單個字符串來描述、匹配一系列符合某個句法規則的網頁源代碼。符合匹配規則的源代碼將被刪除。

  刪除完無關標簽后,再刪除空白行,這樣完成了去噪的第一步。

  1.2通過網頁對比去除噪聲

  網頁對比可以通過對比它們的 DOM樹來實現。DOM是文檔中數據和結構的一個樹形表示, 它定義了表示和修改文檔所需的對象、這些對象的行為和屬性以及這些對象之間的關系。DOM實際上是以面向對象方式描述的文檔模型。它可以以一種獨立于平臺和語言的方式訪問和修改一個文檔的內容和結構。圖1給出了一個文檔的DOM樹的結構圖。

圖像 001.png

  通過HTML解析(如使用解析器htmlcxx)可以將HTML文檔轉換為DOM樹結構。假設要處理的是某網站的網頁URL1,隨機選取該網站下的另外兩個網頁URL2和URL3,獲得它們的DOM樹。然后分別對比DOM1\\DOM2以及DOM1\\DOM3, 輸出不同的節點。

  對比算法的基本思路是:按深度遍歷3棵樹的節點,為每個節點設置深度、路徑、文本內容、是否為tag(HTML標簽)。以第1個網頁作為目標與另外兩個網頁進行對比,如果3個節點深度相同,則判斷節點的文本內容是否相同,相同的加入模板集合中,不同的加入網頁內容集合中;如果3個節點深度不同,則根據不同情況對相應的節點進行處理,其中網頁1的節點加入到網頁內容集合中。直到3個網頁都遍歷到end節點為止。最后得到的就是網頁1的主題內容, 過濾了噪聲部分。

  算法偽代碼如下:

  for(i = begin1 : end1; j = begin2 : end2; k = begin3 : end3)

  {

  if(depth1 == depth2 == depth3)

  if(i->text() == j->text() == k->text())

  i加入模板集合;

  else

  i加入內容集合;

  else

  {

  while(depth1 > depth2 || depth1 > depth3)

  {

  i加入內容集合;

  i++;

  }

  while(depth1 < depth2)

  j++;

  while(depth1 < depth3)

  k++;

  }

  }

2正文抽取

  HTML文檔轉換成DOM樹以后,每個節點都有唯一確定的路徑。網頁中不同內容塊的節點在DOM樹中的公共路徑較少,而同一內容塊的節點的公共路徑很長。本文以這些路徑之間的相似度作為不同節點是否屬于同一內容塊的依據。所有的主題內容都在葉子節點上,記所有葉子節點的路徑為:

  QQ圖片20161215125429.png

  其中TAi為文本節點內容。

  例如:

  <html>

  <body>

  <div>

  <p>This is the first block.</p>

  <p>This is the second block.</p>

  <p>This is the third block.</p>

  </div>

  <div>

  <p>test1</p>

  </div>

  </body>

  </html>

  這段網頁源代碼中的 “This is the first block”節點的路徑為:

  QQ圖片20161215125444.png

  “This is the second block”節點的路徑為:

  QQ圖片20161215125448.png

  記深度相同的節點A、B的相似度為QQ圖片20161215125437.pngQQ圖片20161215125440.png

  0TA≠TB,depth為節點的深度,則任意兩個節點A、B的路徑的相似度可以定義為:QQ圖片20161215130025.png

      QQ圖片20161215125433.png

  其中nA、nB分別表示節點A、B的深度。

  通過對大量網頁的研究發現,正文內容節點大都擁有共同的父節點或者祖父節點,取閾值Th=1-12depth(maxl)-2,其中,maxl為P中字符最多的節點;depth為節點深度,即路徑Pi中的元素個數。記集合P中字符最多的節點為L,與P中其他節點計算相似度,大于閾值的作為正文內容。

3實驗結果分析

  本文從新浪、網易、搜狐、騰訊等大型門戶網站以及多家各類型網站中抽取了1 000個網頁作為測試數據,采用基于網頁DOM樹節點路徑相似度的正文抽取方法進行實驗,去噪結果和正文抽取結果如表1所示。

圖像 002.png

  從表1的統計結果可以看出,有97.6%的網頁清洗掉了大部分的噪聲并且完整保留了網頁中的有效信息;對于新浪、網易等門戶網站的抽取結果較好,都有90%以上的準確率和95%以上的召回率;對于其他不同結構的網站,本文的正文抽取方法也都能適用,很好地實現了網頁正文抽取的工作,并且有著較高的準確率和召回率。

  為了驗證本文方法的有效性,以上述的1 000個網頁作為樣本,將本文方法與BTE、DSC、FE、LQF、CCB等算法進行對比實驗,實驗結果如表2所示。

圖像 003.png

  由表2可以看出,本文提出的方法相對于現有的統計方法有更好的準確率和召回率。

  互聯網的發展為用戶帶來了一個包含豐富信息的巨型數據庫,但是如何識別其中的有效數據是應用的關鍵。本文的正文抽取方法利用網頁DOM樹節點路徑相似的特點實現正文抽取,為之后的數據分類、分析等工作奠定了基礎。

4結論

  本文根據新聞正文內容在網頁中相對集中且同網站的新聞頁面有相同模板的特點,提出基于網頁DOM樹節點路徑相似度的正文抽取方法,先用正則表達式刪除網頁源代碼中與正文內容無關的代碼,然后將得到的網頁轉換為DOM樹,再將目標網頁的DOM樹與另外兩個網頁的DOM樹進行對比去除噪聲,最后,根據節點路徑相似度來抽取正文內容。該方法對來自不同網站的數據能夠快速、準確地抽取正文內容,適用于結構變化不大的網頁,但是對正文內容較少的網頁抽取效果仍有待提高。下一步主要工作是加入內容節點與標題節點的路徑之間的距離判斷節點是否為正文,以提高算法的準確度。

  參考文獻

  [1] KUSHMERICK N, WELD D S, DOORENBOS R. Wrapper induction for information extraction[C].IJCAI 1997: Proceedings of the 1997 International Joint Conference on Artificial Intelligence,1997:729-737.

  [2] FU L, MENG Y, XIA Y J, et al. Web content extraction based on webpage layout analysis[C]. ITCS 2010: Proceedings of the 2010 Second International Conference on Information Technology and Computer Science, 2010: 40-43.

  [3] CAI D, YU S P, WEN J R, et al. VIPS: a vision based on page segmentation algorithm[R].Microsoft Co., Tech. Report, 2003.

  [4] WANG J Q, CHEN Q C, WANG X L, et al. Basic semantic units based web page content extraction[C]. SMC 2008: Proceedings of the 2008 IEEE International Conference on Systems, Man and Cybernetics, Piscataway,NJ: IEEE Press, 2008:1489-1494.

  [5] UZUN E, AGUN H V, YERLIKAYA T. Web content extraction by using decision tree learning[C]. SIU 2012: Signal Processing and Communications Applications Conference, 2012: 1-4.

  [6] PAN D H, QIUS G, YIN D W. Web page content extraction method based on link density and statistic[C]. WiCOM 2008: Wireless Communications, Networking and Mobile Computing, Dalian, China, IEEE Press, 2008:1-4.

  [7] REIS D C, GOLGHER P B. Automatic web news extraction using tree edit distance[C]. Proc. WWW 2004: The 13th International Conference on World Wide Web, New York: ACM, 2004: 502-511.

  [8] FINN A, KUSHMERICK N, SMYTH B. Fact or fiction: Con tent classification for digital libraries[C]. Proc of the 2nd DELOS Network of Excellence Workshop on Personalization and Recommender Systems in Digital Libraries. Dublin, Ireland, 2001: 1-6.

  [9] PINTO D, BRANSTEIN M, COLEMAN R, et al. QuASM: A system for question answering using semistructured data[C]. Proc of the 2nd ACM/ IEEECS Joint Conference on Digital Libraries. Portland, USA, 2002: 46-55.

  [10] MANTRATZIS C, ORGUN M, CASSIDY S. Separating XHTML content from navigation clutter using DOMstructure block analysis[C]. Proc of the 16th ACM Conference on Hypertext and Hypermedia, Salzburg, Austria, 2005: 145-147.

  [11] DEBNATH S, MITRA P, GILES C L. Automatic extraction of informative blocks from webpages[C]. Proc of the ACM Symposium on Applied Computing, SantaFe, USA, 2005: 1722-1726.

  [12] GOTTRON T. Content code blurring: A new approach to content extraction[C]. Proc of the 19th International Conference on Database and Expert Systems Applications, Turin, Italy, 2008: 29-33.

  [13] 劉利, 戴齊, 尹紅風,等. 基于多特征融合的網頁正文信息抽取[J]. 計算機應用與軟件, 2014, 31(7):47-49.

  [14] 王利, 劉宗田, 王燕華,等. 基于內容相似度的網頁正文提取[J]. 計算機工程, 2010, 36(6):102-104.

  [15] YI L,LIU B,LI X. Eliminating noise information in web pages for data mining[C]. SIGKDD 2003: Proceedings of the 9th ACM SIGKDD International Conference on Knowledge Discovery and Data Mining, New York: ACM, 2003:296-305.

  [16] GIBSON D,PUNERA K,TOMKINS A. The volume and evolution of web page templates[C]. Proc. WWW 2005: Special Interest Tracks and Posters of the 14th International Conference on World Wide Web, New York: ACM, 2005:830-839.

  [17] WANG J Y, LOCHOVSKY F H. Datarich section extraction from HTML pages[C]. WISE 2002: Proceedings of the 3rd International Conference on Web Information Systems Engineering (Workshops), Los Alamitos, CA: IEEE Computer Society, 2002: 313-322.

  

此內容為AET網站原創,未經授權禁止轉載。
亚洲一区二区欧美_亚洲丝袜一区_99re亚洲国产精品_日韩亚洲一区二区
夜夜嗨av一区二区三区网站四季av| 久久一区二区三区超碰国产精品 | 久久国产天堂福利天堂| 久久综合免费视频影院| 亚洲人成7777| 久久久噜噜噜久久人人看| 亚洲国产精品精华液网站| 小嫩嫩精品导航| 亚洲国产精品久久久久秋霞影院| 亚洲欧美成人一区二区三区| 国产资源精品在线观看| 亚洲一区二区少妇| 亚洲综合色丁香婷婷六月图片| 久久久噜久噜久久综合| 亚洲一区二区三区免费视频| 欧美日韩国内自拍| 亚洲理论在线| 亚洲高清色综合| 久久综合伊人77777蜜臀| 亚洲一区亚洲| 国产精品狠色婷| 亚洲伊人伊色伊影伊综合网| 91久久久在线| 欧美精品 日韩| 亚洲日本中文字幕区| 91久久综合亚洲鲁鲁五月天| 欧美国产日韩亚洲一区| 亚洲精品免费一区二区三区| 在线观看91精品国产麻豆| 美女黄毛**国产精品啪啪| 久久精品动漫| 尹人成人综合网| 久久综合色8888| 亚洲人成艺术| 亚洲美女免费精品视频在线观看| 欧美日韩国产精品一区二区亚洲| 一本大道久久a久久精品综合 | 午夜精品国产更新| 亚洲欧美日本在线| 国产私拍一区| 欧美成人高清| 日韩一级在线| 亚洲一区二区在线免费观看| 国产亚洲精品久| 欧美激情视频一区二区三区免费| 一区二区三区高清视频在线观看| 夜夜嗨av一区二区三区四季av| 中文av字幕一区| 国产婷婷色综合av蜜臀av| 欧美成人网在线| 亚洲欧美激情诱惑| 亚洲高清毛片| 亚洲无亚洲人成网站77777| 国产亚洲成人一区| 欧美日韩精品免费在线观看视频| 欧美一区二区三区在线视频| 亚洲国产精品www| 在线视频亚洲欧美| 永久久久久久| 国产精品视频| 欧美伦理在线观看| 久久精品视频在线看| 亚洲视频综合| 亚洲精品久久久久久下一站| 亚洲一区二区在线视频| 亚洲精品一区二区网址 | 亚洲深爱激情| 亚洲全部视频| 亚洲国产精品女人久久久| 国产日韩亚洲欧美综合| 国产精品久久久久久久久久久久久久| 免费观看一级特黄欧美大片| 亚洲少妇自拍| 一区精品久久| 欧美成人免费va影院高清| 久久精品国产成人| 午夜视频在线观看一区| 亚洲午夜黄色| 亚洲一区在线观看视频| a91a精品视频在线观看| 亚洲国产欧美日韩精品| 欧美中文字幕视频在线观看| 午夜精品久久久久久久99水蜜桃| 夜夜爽99久久国产综合精品女不卡| 亚洲欧洲日产国产综合网| 在线观看精品视频| 亚洲第一黄网| 亚洲日本欧美在线| 日韩视频在线一区二区| 在线中文字幕日韩| 亚洲一区二区在线| 欧美一区二区三区四区在线观看| 亚洲女人av| 欧美一区二区三区另类 | 性欧美暴力猛交69hd| 久久不射网站| 欧美a一区二区| 欧美日韩成人精品| 国产精品一区二区三区成人| 国产三级精品三级| 伊人成人在线视频| 99re66热这里只有精品4| 亚洲一区二区在线看| 久久9热精品视频| 夜夜嗨一区二区| 先锋影音久久久| 久久日韩精品| 欧美日韩亚洲综合| 国产偷久久久精品专区| 亚洲高清在线观看| 亚洲一区二区在线免费观看| 亚洲成色最大综合在线| 在线亚洲欧美视频| 欧美在线观看网址综合| 欧美激情精品久久久久久黑人| 国产精品成人一区二区艾草| 国内精品久久久久久| 99在线视频精品| 91久久久久久久久| 欧美在线免费播放| 欧美日韩三区| 尤物99国产成人精品视频| 亚洲婷婷免费| 亚洲天堂av图片| 欧美成人a视频| 国产一区亚洲| 亚洲欧美日韩视频二区| 亚洲图片欧洲图片av| 欧美国产大片| 亚洲第一区在线观看| 欧美一级夜夜爽| 欧美一区激情视频在线观看| 欧美日韩美女一区二区| 亚洲激情成人网| 亚洲精品国产无天堂网2021| 久久一日本道色综合久久| 国产综合在线视频| 欧美在线国产| 久久一区二区三区四区五区| 国产日本欧美在线观看| 亚洲综合色丁香婷婷六月图片| 亚洲欧美国产高清| 国产精品久久久久一区| 中文精品视频| 亚洲精品一区二区三区99| 欧美一区二区三区在| 亚洲欧美成人综合| 国产精品欧美在线| 亚洲在线一区二区三区| 亚洲免费一区二区| 国产精品亚洲综合| 欧美一区二区三区免费看| 久热精品视频在线观看| 亚洲国产岛国毛片在线| 日韩天天综合| 国产精品超碰97尤物18| 午夜精品久久久久久99热| 久久久亚洲精品一区二区三区| 国内精品美女av在线播放| 亚洲国产日韩欧美在线图片| 欧美美女喷水视频| 亚洲欧美国产不卡| 麻豆精品在线视频| 日韩手机在线导航| 久久精品观看| 亚洲欧洲精品一区二区三区不卡 | 亚洲日本va在线观看| 欧美午夜精品一区| 久久激情一区| 欧美性做爰毛片| 亚洲国产精品99久久久久久久久| 欧美日韩免费在线| 亚洲福利视频二区| 欧美午夜精品| 亚洲精品久久久久久久久久久久久| 欧美三级免费| 亚洲国产另类精品专区| 欧美性一区二区| 性欧美video另类hd性玩具| 欧美精品一区三区| 先锋亚洲精品| 欧美吻胸吃奶大尺度电影| 亚洲国产精品va| 国产曰批免费观看久久久| 亚洲一区二区三区国产| 亚洲第一搞黄网站| 久久av一区二区三区亚洲| 一本大道久久a久久综合婷婷 | 欧美在线看片| 午夜精品久久久99热福利| 欧美日韩一区二区视频在线 | 在线观看久久av| 久久久999国产| 亚洲欧美视频一区二区三区| 欧美日韩国产精品一区| 亚洲人成小说网站色在线| 禁久久精品乱码| 久久全球大尺度高清视频| 亚洲欧美日韩成人| 国产欧美精品在线播放|