《電子技術應用》
您所在的位置:首頁 > 通信與網絡 > 設計應用 > 網頁去重的改進算法
網頁去重的改進算法
來源:微型機與應用2011年第12期
王 靜1, 劉觀寧2,張鈺輝1
(1. 西安電子科技大學 計算機學院, 陜西 西安 710071; 2. 安徽省技術創新服務中心,
摘要: 針對網頁內容相似重復的特點,提出了一種改進算法對網頁進行去重處理。該方法能夠有效地對網頁進行去重,并能對網頁信息進行冗余識別處理。實驗結果表明,與原有網頁去重算法相比,該算法的執行效果提高了14.3%,對網頁去重有了很明顯的改善。
Abstract:
Key words :

摘  要: 針對網頁內容相似重復的特點,提出了一種改進算法對網頁進行去重處理。該方法能夠有效地對網頁進行去重,并能對網頁信息進行冗余識別處理。實驗結果表明,與原有網頁去重算法相比,該算法的執行效果提高了14.3%,對網頁去重有了很明顯的改善。
關鍵詞: 網頁去重; 特征提取; 特征表示

    隨著互聯網的高速發展,Web已經成為最大的信息來源。但是如何獲取這些Web信息為我所用則是大家面臨的共同問題。網頁去重是Web網頁信息處理的重要環節,只有在對網頁的去重基礎上才可以準確處理網頁中的信息。本文介紹網頁的去重算法。
    提取出來的網頁,有些內容可能很相似,對于這些內容相似的網頁沒必要保存。針對系統中的人才招聘網頁更是必要:一個公司的招聘信息很可能會在數十家招聘網站以及自己公司主頁同時發布,所以有必要對這些網頁去重。

 對于網頁,ti就表示特征詞條,wi(d)就是文本d中ti的權值。用這個特征矢量來表示網頁文本。在網頁表示中,對任一特征而言有兩個因素影響特征的權值。一是詞在HTML文檔中出現的詞頻,另一個是該詞在該文檔中出現的位置。詞頻指的是某一詞條在文檔中出現的頻率, 頻率越高(當然不包括那些停用詞)則說明該詞越重要,越能代表該網頁的內容。對于網頁的主題包含在<title>和</title>之間的詞組比在<body>和</body>之間的詞組更具有代表性。因此本文提出了一種把該詞出現的頻率以及該詞出現的位置相結合的權重計算方法,能夠更有效地表示網頁。公式如下:



 (3) 聯合特征提取方法
 雖然X2統計量法是目前常用的特征提取方法之一,但該方法仍存在一些缺點,如它提高了在指定類中
  
    在網絡訓練過程開始時,定義獲勝節點的鄰域節點是為了能使二維輸出平面上相鄰輸出節點對相近的輸入模式類做出特別反應。假設本次獲勝節點為Nj,它在t時刻的鄰域節點用NEj表示,NEj(t)是包含以Nj中心而距離不超過某一半徑的所有節點。隨著訓練過程的進行,NEj(t)的半徑逐漸減小,最后只包含獲勝節點Nj本身,也就是說在訓練的起始階段不僅對獲勝節點做權值調整,而且也對其較大范圍內的幾何鄰節點做相應的調整,隨著訓練過程的繼續進行,與輸出節點相連的權向量也越來越接近其代表的模式類。這時,在對獲勝節點的權值進行比較細微的調整時,只對其幾何鄰節點比較近的節點進行相應的調整,直到最后只對獲勝節點本身做細微的調整。在訓練過程結束后,幾何上相近的輸出節點所連接的權向量既有聯系又有區別,這樣,保證了對某一類輸入模式獲勝節點能夠做出最大“響應”,而相鄰節點做出“較大”響應。幾何上相鄰節點代表特征上相近的模式類別。
 自組織特征映射學習過程包括描述最佳匹配神經元的選擇和描述權矢量的自適應變化過程兩部分。SOM輸出層通常由兩維m×m的網格節點組成,從輸入向量到網絡輸出層的每個節點j的權值向量定義為w,w和xi的維數是相同的,設為d,影射節點的數量從數十個到數千個決定SOM正確性和概化能力。

4 實驗結果
 采用以上介紹的算法,對一批數量在50~100之間的網頁集合進行去重處理,集合中包含了一與此內容完全相同或部分相同的網頁,將實驗結果與人工判別的結果進了比較,發現重復網頁的正確率達到95%以上,出現錯誤的判斷的是由于網頁轉載時出現錯碼等現象,有的是兩個重復網頁的段落排列差異太大。測試結果如圖1所示。


    本文將SOM的思想和方法引入中文Web文檔的聚類問題.探索向用戶提供高質量的網頁信息具有很強的理論意義和實際價值。但是,這種方法的不足之處是當網絡的連接過多、節點數目龐大時其計算量大,需要較長的學習時間。所以對于上述問題,筆者正在研究通過網絡剪枝技術,在不增加聚類錯誤的前提下,剪去多余的連接和節點,降低特征向量空間的維數從而減少計算工作量。
參考文獻
[1] LINSKER R. An application of the principle of maximum  information preservation to linear systems[Z]. Adv. Neural Inform. Process Systems, 1989,1.
[2] JUTTEN C, HERAULT J. Blind separation of sources,Part1:An adaptive algorithm based on neuromimetic architecture [J]. Signal Processing, 1991,24:10.
[3] COMMON P. Independent component analysis,a new concept[J]. Signal Processing, 1994,36:287-314.
[4] TONAZZINI A, BEDINI L, KURUOGLU E E. Blind separation of auto-correlated images from noisy images using  mrf models,. in 4th Int. Symp. on ICA and Blind Source Separation, Nara, Japan, 2003.
[5] SHULMAN D, HERVE J Y. Regularization of discontinuous  flow fields. in Proc. Workshop on Visual Motion, 1989:81-86.
[6] BOUMAN C, SAUER K. A generalised gaussian image model for edge-preserving MAP estimation,. IEEE Trans. Image Processing, vol. 2, pp. 296-310,1993.2704.
 

此內容為AET網站原創,未經授權禁止轉載。
亚洲一区二区欧美_亚洲丝袜一区_99re亚洲国产精品_日韩亚洲一区二区
欧美另类一区| 亚洲图色在线| 欧美色精品天天在线观看视频| 亚洲精选成人| 9色精品在线| 国产精品亚洲美女av网站| 欧美综合国产| 亚洲精品一区二区三| 久久精品夜色噜噜亚洲aⅴ | 欧美日韩无遮挡| 校园春色综合网| 亚洲国产婷婷香蕉久久久久久| 亚洲精品久久在线| 国产婷婷精品| 欧美日韩高清不卡| 久久久国产91| 亚洲深夜福利| 久久精品国产综合精品| 欧美在线综合视频| 一本久道综合久久精品| 日韩性生活视频| 一色屋精品视频在线观看网站| 欧美三级视频在线观看| 欧美日本三区| 国产精品国产自产拍高清av王其| 久久亚洲高清| 亚洲一区二区高清| 亚洲综合色自拍一区| 亚洲精品黄网在线观看| 亚洲欧美日本在线| 亚洲日本成人网| 狠狠干成人综合网| 国产精品入口福利| 国产欧美一区二区三区久久| 欧美美女视频| 欧美香蕉大胸在线视频观看| 欧美91视频| 久久精品论坛| 亚洲一区二区三区777| 亚洲黄色性网站| 99re在线精品| 亚洲欧洲日本专区| 久久aⅴ国产紧身牛仔裤| 久久国产精品一区二区三区| 亚洲国产老妈| 国产精品99久久不卡二区| 欧美亚洲免费在线| 久久米奇亚洲| 欧美一区二区三区久久精品| 一本色道久久综合亚洲二区三区| 亚洲福利视频网| 亚洲欧美怡红院| 亚洲线精品一区二区三区八戒| 亚洲人成人一区二区三区| 一道本一区二区| 午夜精品福利在线观看| 亚洲欧洲一二三| 亚洲欧美日韩国产成人| 久久综合色婷婷| 久久精品亚洲热| 欧美—级a级欧美特级ar全黄| 久久深夜福利| 欧美日韩国产二区| 国产欧美一区二区三区久久人妖| 亚洲国产一区二区三区高清| 尤物九九久久国产精品的特点| 国产小视频国产精品| 亚洲国产精品视频一区| 亚洲成在人线av| 在线免费日韩片| 亚洲素人在线| 亚洲特级毛片| 亚洲高清视频一区二区| 亚洲私人影院在线观看| 久热re这里精品视频在线6| 欧美性猛交xxxx免费看久久久 | 韩国精品在线观看| 亚洲图片激情小说| 亚洲人成绝费网站色www| 欧美一级在线亚洲天堂| 欧美理论电影网| 激情一区二区三区| 亚洲一区二区精品在线观看| 亚洲人成网站色ww在线| 欧美综合二区| 国产精品日韩欧美一区| 亚洲精品影院在线观看| 欧美影院久久久| 久久精品国产欧美激情| 亚洲一区二区在| 欧美精品在线播放| 伊人成年综合电影网| 欧美一级午夜免费电影| 亚洲欧美日韩精品久久久| 日韩视频永久免费| 免费的成人av| 欧美日韩精品福利| 激情六月婷婷久久| 欧美一区二区视频网站| 性亚洲最疯狂xxxx高清| 欧美日韩激情网| 最新精品在线| 亚洲精品偷拍| 欧美96在线丨欧| 亚洲福利视频一区| 亚洲国产女人aaa毛片在线| 久久久久国产精品一区| 国产欧美一区二区三区久久人妖 | 欧美午夜宅男影院在线观看| 亚洲精品国产精品国自产在线| 亚洲国产精品悠悠久久琪琪| 久久五月婷婷丁香社区| 国产午夜久久久久| 亚欧成人在线| 久久精品天堂| 国内精品久久久久久久97牛牛| 在线观看视频一区二区| 欧美与黑人午夜性猛交久久久| 欧美在线影院| 国产色产综合色产在线视频| 亚洲自拍电影| 亚洲福利国产精品| 久久久久久久久久久成人| 国产一区二区丝袜高跟鞋图片| 亚洲国产另类久久久精品极度| 久久精品麻豆| 男人天堂欧美日韩| 亚洲国产高清aⅴ视频| 亚洲精品乱码久久久久久日本蜜臀 | 欧美一级久久久| 国产麻豆综合| 亚洲国产欧美不卡在线观看| 亚洲国产天堂久久综合| 免费试看一区| 亚洲美女电影在线| 久久精品噜噜噜成人av农村| 鲁大师成人一区二区三区| 亚洲国产精品久久久久久女王| 日韩一区二区高清| 欧美三日本三级三级在线播放| 亚洲视频第一页| 欧美在线不卡| 在线电影院国产精品| 日韩一二三区视频| 国产精品国产三级国产专区53| 亚洲欧美另类久久久精品2019| 久久精品视频网| 亚洲韩国青草视频| 亚洲在线黄色| 好看的日韩视频| 一本色道久久88综合亚洲精品ⅰ| 久久精品国产99国产精品澳门 | 欧美一区二区黄| 久久久久青草大香线综合精品| 影音先锋国产精品| 亚洲私人黄色宅男| 国产日韩亚洲欧美| 亚洲七七久久综合桃花剧情介绍| 欧美日韩日本网| 午夜亚洲伦理| 欧美国产日韩二区| 黄色成人免费网站| 91久久在线观看| 国产精品成人免费精品自在线观看| 亚洲欧美在线磁力| 免费看亚洲片| 亚洲一区二区三区免费视频| 久久五月天婷婷| 夜夜爽www精品| 久久亚洲欧美国产精品乐播| 亚洲麻豆一区| 久久精品女人天堂| 亚洲狼人综合| 久久久水蜜桃| 一区二区三区鲁丝不卡| 亚洲精品中文字幕女同| 国产精品jizz在线观看美国| 久久精品国产亚洲精品 | 欧美日韩中文精品| 小黄鸭精品aⅴ导航网站入口| 欧美激情综合色综合啪啪| 亚洲欧美文学| 欧美日韩国产综合新一区| 欧美一区二区三区久久精品茉莉花| 欧美日韩123| 久久精品国产999大香线蕉| 欧美天堂亚洲电影院在线播放| 亚洲国产精品久久久久| 国产精品试看| a91a精品视频在线观看| 韩国三级电影一区二区| 亚洲在线中文字幕| 91久久精品一区二区别| 久久久精品动漫| 亚洲午夜黄色| 欧美日韩国产二区| 亚洲人久久久| 黑人巨大精品欧美一区二区小视频| 午夜精品久久| 国产欧美韩日|