深夜福利亚洲,亚洲一区二区三区中文字幕,中文字幕中文字幕中文字幕亚洲无线

一種基于網(wǎng)絡(luò)表示學(xué)習(xí)的網(wǎng)絡(luò)安全用戶發(fā)現(xiàn)方法

網(wǎng)絡(luò)安全與數(shù)據(jù)治理 2022年第1期

劉向宇，燕瑋，孟星妤，侯開(kāi)茂

(華北計(jì)算機(jī)系統(tǒng)工程研究所，北京100083)

摘要： 發(fā)現(xiàn)社交媒體中的網(wǎng)絡(luò)安全用戶對(duì)于追蹤網(wǎng)絡(luò)安全動(dòng)態(tài)有重要意義，針對(duì)這一特定領(lǐng)域用戶的發(fā)現(xiàn)，提出了一種新的發(fā)現(xiàn)方法。首先利用社交媒體節(jié)點(diǎn)間的相互關(guān)注關(guān)系建立有向關(guān)系網(wǎng)絡(luò)，然后用網(wǎng)絡(luò)表示學(xué)習(xí)模型Node2vec生成節(jié)點(diǎn)的向量表示，并將收集到的網(wǎng)絡(luò)安全關(guān)鍵字轉(zhuǎn)化為特征向量，拼接后輸入分類(lèi)算法進(jìn)行預(yù)測(cè)。實(shí)驗(yàn)結(jié)果表明，在社交媒體網(wǎng)絡(luò)安全數(shù)據(jù)集上，所提方法的預(yù)測(cè)準(zhǔn)確率優(yōu)于現(xiàn)有的其他特定領(lǐng)域用戶發(fā)現(xiàn)算法。

關(guān)鍵詞： 網(wǎng)絡(luò)安全 Node2vec 社交媒體二分類(lèi) 自訓(xùn)練

中圖分類(lèi)號(hào)： TP181
文獻(xiàn)標(biāo)識(shí)碼： A
DOI： 10.20044/j.csdg.2097-1788.2022.01.012
引用格式：劉向宇，燕瑋，孟星妤，等. 一種基于網(wǎng)絡(luò)表示學(xué)習(xí)的網(wǎng)絡(luò)安全用戶發(fā)現(xiàn)方法[J].網(wǎng)絡(luò)安全與數(shù)據(jù)治理，2022，41(1)：78-82.

A method of finding cyber security user based on network representation learning

Liu Xiangyu，Yan Wei, Meng Xingyu，Hou Kaimao

(National Computer System Engineering Research Institute of China，Beijing 100083，China)

Abstract： Finding cyber security users in social media is quite important to track network security trends. This paper proposes a method to find users of specific areas. Firstly, a directed network is established by using the mutual attention relationship between social media nodes. Then network representation learning model Node2vec is used to generate the feature vectors of social network nodes. We change the key words collected from blogs and profiles into cyber security feature vectors . Finally, the concatenated two vectors are input into binary classifier to find the cyber security users. Experimental results show that the prediction precision of the proposed method is better than other existing domain specific user discovery algorithms on social media network security data sets.

Key words : cyber security；Node2vec；social media；binary classification；self training

0 引言

發(fā)現(xiàn)社交媒體中的網(wǎng)絡(luò)安全用戶可以有效追蹤網(wǎng)絡(luò)安全動(dòng)態(tài)，對(duì)網(wǎng)絡(luò)安全防護(hù)具有重要意義。實(shí)際上，識(shí)別社交網(wǎng)絡(luò)中的網(wǎng)絡(luò)安全用戶也是對(duì)社交網(wǎng)絡(luò)節(jié)點(diǎn)進(jìn)行分類(lèi)發(fā)現(xiàn)。

現(xiàn)實(shí)生活中，人們傾向于與類(lèi)似的人發(fā)展社會(huì)關(guān)系，所以社交用戶的好友會(huì)分享更多的屬性，如種族、民族、宗教和職業(yè)——這就是所謂的“同質(zhì)性原則”[1]。這導(dǎo)致了在Twitter上相互關(guān)注的人通常有共同的話題興趣，可以通過(guò)相互關(guān)注關(guān)系來(lái)推斷社交媒體用戶的屬性。另外，社交用戶還具備其他可以獲取的數(shù)據(jù)，如社交文本和用戶資料，這些資料構(gòu)成新的用戶屬性，也有助于推斷用戶的興趣或者職業(yè)，與用戶的社交關(guān)系形成互補(bǔ)。

當(dāng)前已經(jīng)有大量的用戶分類(lèi)工作都是基于網(wǎng)絡(luò)拓?fù)浣Y(jié)構(gòu)進(jìn)行節(jié)點(diǎn)的分類(lèi)。比如，網(wǎng)絡(luò)表示學(xué)習(xí)方法直接對(duì)網(wǎng)絡(luò)結(jié)構(gòu)特征進(jìn)行學(xué)習(xí)提取，將得到的特征用于分類(lèi)可以取得不錯(cuò)的效果。然而，現(xiàn)有的網(wǎng)絡(luò)表示學(xué)習(xí)方法缺乏對(duì)社交文本和社交基本資料特征的學(xué)習(xí)，極大地限制了其分類(lèi)效果。相對(duì)于單純利用社交網(wǎng)絡(luò)結(jié)構(gòu)對(duì)用戶進(jìn)行分類(lèi)，當(dāng)前主流的圖神經(jīng)網(wǎng)絡(luò)算法創(chuàng)新性地融入了網(wǎng)絡(luò)節(jié)點(diǎn)的其他屬性特征，獲得了更高的分類(lèi)準(zhǔn)確率。本文針對(duì)網(wǎng)絡(luò)表示學(xué)習(xí)方法缺乏社交文本特征的問(wèn)題，通過(guò)改進(jìn)Node2vec[2]方法，使其融合多種網(wǎng)絡(luò)屬性特征而更加有利于分類(lèi)，從而識(shí)別出社交媒體中的網(wǎng)絡(luò)安全用戶。

本文的創(chuàng)新性工作包括：

(1)利用網(wǎng)絡(luò)表示學(xué)習(xí)模型Node2vec來(lái)進(jìn)行網(wǎng)絡(luò)節(jié)點(diǎn)的特征表示，將結(jié)構(gòu)特征向量和相應(yīng)用戶節(jié)點(diǎn)的文本特征向量進(jìn)行拼接，形成社交用戶節(jié)點(diǎn)的向量表示。

(2)標(biāo)注了部分網(wǎng)絡(luò)安全用戶，初步形成網(wǎng)絡(luò)安全用戶資料庫(kù)。對(duì)于每個(gè)用戶節(jié)點(diǎn)，生成其網(wǎng)絡(luò)安全文本特征。

(3)利用自監(jiān)督學(xué)習(xí)方法進(jìn)行分類(lèi)模型的訓(xùn)練樣本擴(kuò)充，提升了分類(lèi)效果。

結(jié)果表明，在已經(jīng)收集的Twitter數(shù)據(jù)集上，所提方法的平均識(shí)別準(zhǔn)確率為96.37%，比現(xiàn)有常用的算法平均高出0.48%～3.67%。

本文詳細(xì)內(nèi)容請(qǐng)下載：http://m.jysgc.com/resource/share/2000004615

作者信息：

劉向宇，燕瑋，孟星妤，侯開(kāi)茂

(華北計(jì)算機(jī)系統(tǒng)工程研究所，北京100083)

原創(chuàng)聲明：此內(nèi)容為AET網(wǎng)站原創(chuàng)，未經(jīng)授權(quán)禁止轉(zhuǎn)載。

相關(guān)內(nèi)容