《電子技術應用》
您所在的位置:首頁 > 人工智能 > 設計應用 > 基于單頁語義特征的垃圾網頁檢測
基于單頁語義特征的垃圾網頁檢測
電子技術應用
陳木生1,2,高斐1,吳俊華1
(1.江西理工大學 軟件工程學院,江西 南昌 330013;2.南昌市虛擬數字工程與文化傳播重點實驗室,江西 南昌 330013)
摘要: 為解決垃圾網頁檢測中特征提取難度高、計算量大的問題,提出一種僅基于當前網頁的HTML腳本提取語義特征的方法。首先使用深度優先搜索和動態規劃相結合的記憶化搜索算法對域名進行單詞切割,采用隱含狄利克雷分布提取主題詞,基于Word2Vec詞向量和詞移距離計算3個單頁語義相似度特征;然后將單頁語義相似度特征融合單頁統計特征,使用隨機森林等分類算法構建分類模型進行垃圾網頁檢測。實驗結果表明,基于單頁內容提取語義特征融合單頁統計特征進行分類的AUC值達到88.0%,比對照方法提高4%左右。
中圖分類號:TP391.6
文獻標志碼:A
DOI: 10.16157/j.issn.0258-7998.223376
中文引用格式: 陳木生,高斐,吳俊華. 基于單頁語義特征的垃圾網頁檢測[J]. 電子技術應用,2023,49(6):24-29.
英文引用格式: Chen Musheng,Gao Fei,Wu Junhua. Web spam detection based on semantic features from current page[J]. Application of Electronic Technique,2023,49(6):24-29.
Web spam detection based on semantic features from current page
Chen Musheng1,2,Gao Fei1,Wu Junhua1
(1.School of Software Engineering, Jiangxi University of Science and Technology, Nanchang 330013, China; 2.Nanchang Key Laboratory of Virtual Digital Engineering and Cultural Communication, Nanchang 330013, China)
Abstract: In order to solve the problem of high difficulty and large amount of computation in feature extraction for web spam detection, a method for extracting semantic features only based on the HTML script of the current page is proposed. Firstly, the domain name is segmented by a memorization search algorithm combining depth-first search and dynamic programming. Secondly, The latent Dirichlet distribution is used to extract subject words of the web page. Lastly, three single-page semantic similarity features are calculated based on Word2Vec and word mover distance. Combining the single-page semantic similarity features with single-page statistical features, classification algorithms such as random forest are used to build classification models for web spam detection. The experimental results show that the AUC value of single-page content extraction based on semantic and statistical features for classification reaches 88.0%, which is about 4% higher than that of the control method.
Key words : web spam detection;feature extraction;memory search;latent Dirichlet distribution;Word2Vec;word mover distance;random forest

0 引言

如今,隨著互聯網信息的快速增長,搜索引擎被認為是訪問網站的關鍵工具,其用戶占到網絡用戶的80%以上[1]。但是有研究表明,大約60%的用戶只查看第一頁中最初的5個結果[2]。可以看出,在搜索結果中排名靠前的網頁會擁有更多的訪問者,由此帶來更多的收入。由于通過正常手段提高網頁排名非常困難,于是某些網站便通過非正常手段和技術欺騙搜索引擎提高網頁排名,這些網頁被稱為垃圾網頁[3]。垃圾網頁會降低搜索結果的質量,浪費用戶的時間,侵占搜索引擎公司和其他內容網站的合法利益[4]。盡管搜索引擎公司已經使用了各種方法來應對垃圾網頁,但至今為止,垃圾網頁檢測依然是搜索引擎需要重點突破的難題,也是學術領域的一個前沿課題。因此,高效、準確地檢測垃圾網頁具有重要意義。



本文詳細內容請下載:http://m.jysgc.com/resource/share/2000005343




作者信息:

陳木生1,2,高斐1,吳俊華1

(1.江西理工大學 軟件工程學院,江西 南昌 330013;2.南昌市虛擬數字工程與文化傳播重點實驗室,江西 南昌 330013)


微信圖片_20210517164139.jpg

此內容為AET網站原創,未經授權禁止轉載。
主站蜘蛛池模板: www视频在线观看| 久久综合久久鬼| 窝窝免费午夜视频一区二区| 国产乱理伦片在线观看| 亚洲色图第一页| 国产美女被遭强高潮免费网站| juy639黑人教练君岛美绪| 成人欧美日韩高清不卡| 久久久久亚洲av综合波多野结衣| 香蕉国产综合久久猫咪| 国产精品扒开腿做爽爽爽视频| 丰满少妇人妻久久久久久| 日韩精品福利在线| 亚洲人成网国产最新在线| 欧美美女视频网站| 人妻互换一二三区激情视频| 精品国产国产综合精品| 国产欧美一区二区三区免费| wwwxxx亚洲| 性欧美视频在线观看| 亚洲AV无码潮喷在线观看| 欧美成人午夜片一一在线观看| 午夜视频在线观看一区| 永久免费视频网站在线观看| 国内精品伊人久久久久妇| aaa免费毛片| 天天操综合视频| ol丝袜高跟秘书在线观看视频| 强3d不知火舞视频无掩挡网站| 九月婷婷人人澡人人添人人爽 | 好爽好深好猛好舒服视频上| 一级网站在线观看| 成人在线手机视频| 中国国产aa一级毛片| 成人国产在线观看高清不卡| 中文字幕无码毛片免费看| 故意打开双腿让翁公看| 丰满人妻一区二区三区视频| 无码人妻精品一区二区三18禁| 丰满人妻一区二区三区视频| 成年女性特黄午夜视频免费看|