《電子技術應用》
您所在的位置:首頁 > 嵌入式技術 > 設計應用 > 基于大樣本的隨機森林惡意代碼檢測與分類算法
基于大樣本的隨機森林惡意代碼檢測與分類算法
李雪虎,王發明,戰凱
(北京江民新科技術有限公司,北京 100097)
摘要: 隨著互聯網的快速發展,計算機安全問題已經提高到國家安全的戰略角度。但是在互聯網上傳播的惡意代碼數量、種類等都在增加。針對惡意代碼數量龐大、傳統特征檢測覆蓋面不夠廣、準確度不高的問題,提出了在大樣本下基于隨機森林的惡意代碼檢測算法。大樣本下,將PE文件結構特征和敏感API作為輸入特征,采用隨機森林算法對惡意代碼進行檢測。實驗結果表明,大樣本下,隨機森林算法是一種優秀的用于惡意代碼檢測的算法,即使在惡意代碼樣本量龐大的情況下,仍然具有良好的分類效果,其在現實應用中具有重要的價值。
中圖分類號:TP393
文獻標識碼:A
DOI: 10.19358/j.issn.2096-5133.2018.07.001
中文引用格式:李雪虎,王發明,戰凱.基于大樣本的隨機森林惡意代碼檢測與分類算法[J].信息技術與網絡安全,2018,37(7):3-5,21.
Large sample-based random forest malicious code detection and classification algorithm
Li Xuehu, Wang Faming, Zhan Kai
(Beijing Jiangmin New Technology Co., Ltd.,Beijing 100097, China)
Abstract: With the rapid development of Internet, computer security has been raised to the strategic perspective of national security. However, the number and types of malicious code that spread on Internet are increasing. Due to large number of malicious code, insufficient coverage of traditional feature detection, and low accuracy, this paper proposes a malicious code detection algorithm based on random forest under large samples. Under large samples, the structural characteristics of the PE file and the sensitive API are used as input features. The random forest algorithm is used to detect the malicious code. Experimental results show that under large samples, random forest algorithm is an excellent algorithm for malicious code detection. Even if the amount of malicious code is large, it still has a good classification effect. It is of great value in practical application.
Key words : PE file structure features; sensitive API; random forest; malicious code detection and classification

0  引言


隨著互聯網的快速發展,計算機安全問題已經提高到國家安全的戰略角度,但是在互聯網上傳播的惡意代碼的數量、種類等都在增加。根據江民病毒疫情監測預警中心提供的數據顯示[1]:2018年5月,新增病毒1 140種,感染計算機13 569臺。北京、上海、廣州是主要的被感染和受攻擊地區。雖然惡意代碼一直在持續的增長,但是大部分惡意代碼在編寫過程中都是關鍵模塊重利用,其特征行為具有高度的相似性[2]

首先,惡意代碼為了偽裝自身,會對自身代碼結構進行修改,而修改自身代碼結構的方法則具有規律性;其次,惡意代碼為了實現獲取計算機相關權限、修改計算機重要文件等敏感操作,就需要調用系統相關的API函數來達到目的。所以本文根據以上惡意代碼的特點通過機器學習的方法實現對惡意代碼的辨別與分類。

1  惡意代碼分類算法相關研究

1.1  基于API調用的特征提取

應用程序編程接口(Application Programming Interface, API)是可以作為惡意代碼分類特征使用的,惡意程序通過調用一些API(主要是系統底層API),達到竊取用戶敏感信息或者獲取本計相操作權限等,而這些API在大部分的惡意代碼中均被大量使用,本文將這些API稱為敏感API。在文獻[3]中已經證實在同一種分類算法中,使用敏感API得到的分類結果準確度要優于不使用敏感API得到的分類結果準確度,故本文將敏感API作為惡意代碼分類的特征向量。

一般提取惡意代碼特征主要有兩種方法:靜態分析方法和動態分析方法。靜態分析主要使用IDA[4]、JEB等反匯編工具,主要特征有PE文件結構信息和敏感API調用等。動態分析方法主要是使用沙箱[5](例如布谷鳥)等程序模擬操作系統環境,監測其中未知程序的行為并與已知的惡意代碼行為進行匹配,如果匹配成功,則可判定未知程序為惡意程序。但是在具體的應用過程中發現,由于系統API層次較低,沙箱進行行為監控時,難以獲得行為的準確含義,并且沙箱分析出結果的速度緩慢,耗時較長。由于這些缺點的存在,故本文采用靜態特征分析的方法。

得到特征數據以后,就可以使用機器學習的相關模型進行惡意代碼的分類識別。分類算法有很多,常見的算法有K近鄰(K-Nearest Neighbor, KNN)[6]、支持向量機(Support Vector Machine, SVM)[7]、邏輯回歸(Logistic Regression)[8]、卷積神經網絡(Convolutional Neural Network, CNN)[9]等。本文主要是使用隨機森林進行惡意代碼分類。

1.2  隨機森林

隨機森林可以解釋為若干自變量(X1,X2,…,Xi,…,Xn) 對因變量Y的作用。如果因變量Y有m個觀測值,有n個自變量與之相關(并且大多數情況下,m是遠遠小于n的);在構建決策分類樹的時候,隨機森林會隨機地在原數據中重新選擇m個觀測值,其中有的觀測值可能被多次選擇,有的可能一次都沒有被選到。根據選擇的樣本進行決策樹建模,然后組合多棵決策樹的預測,通過投票得出最終的預測結果。

1.3  隨機森林算法實現

本文的隨機森林算法是在Spark下實現的,采用的是Python第三方庫Pyspark。實驗分為兩個,第一個實驗的輸入為樣本文件的文件特征,包括文件類型、文件大小、文件導入表、文件基地址、文件版本等50個特征作為輸入;第二個實驗的輸入為敏感API特征,其中調節的參數為:numTrees=150,maxDepth=30,labelCol=“indexed”,featuresCol='features',seed=42,其余參數保持不變。本文將總數據集的80%用于訓練,20%用于測試。

2  實驗分析

2.1  實驗數據集

惡意代碼數據集是進行惡意代碼分析的基礎,機器學習算法只有結合相關的數據集對樣本進行訓練,才能更好地實現檢測功能。

本文采用的數據集是江民新科技術有限公司病毒庫中的數據集。本次采用的數據集總量為90萬,其中45萬白樣本,45萬病毒樣本。并且在45萬病毒樣本中,Downloader、Trojan、Backdoor三類樣本樣本量分別是15萬、15萬、15萬。

2.2  實驗環境

實驗環境:CPU:Intel(R) Xeon(R) CPU E5645 @ 2.40 GHz,操作系統CentOS Linux release 7.3.1611,內存32 GB。

Hadoop和Spark的版本為:Hadoop版本2.7.1,Spark版本2.2.1。

2.3  實驗評判標準

用查準率(Precision)、查全率(Recall)和F1度量評估本文算法,通常以關注的類為正類,其他類為負類,指標的取值為0~1。這些度量的計算公式如下:

微信截圖_20181022144401.png

其中,TP(True Positive)是指將正類預測為正類數,FP(False Positive)是指將負類預測為正類數,FN(False Negative)是指正類預測為負類數。

2.4  結果分析

在所選擇的數據集(江民新科技術有限公司病毒庫中的數據集)上將本文的隨機森林算法與支持向量機算法、邏輯回歸算法做比較。

首先進行黑白樣本分類的實驗,查看實驗的查準率、查全率和F1值,從實驗結果可以看出當樣本總量在10萬左右的時候,隨機森林在辨識黑白樣本的效果上與支持向量機算法、邏輯回歸算法相比較,結果并不理想。但是隨著樣本數量增大到90萬,隨機森林模型在辨識黑白樣本的查準率、查全率、F1值從原來的0.732、0.711、0.721提升到0.973、0.973、0.973,都達到了三種分類中的最好,其中在500 000到700 000樣本的時候,查準率、查全率和F1值出現了下降,是因為隨著病毒樣本的增加,其中部分白樣本經過編譯器編譯得到的PE結構信息與部分病毒樣本的結構信息相似,使得隨機森林算法出現了一定的誤差。但是隨著樣本量的繼續增大,這一小部分的樣本對于整體的分類影響逐漸變小。實驗結果如圖1、圖2、圖3所示。

微信截圖_20181022144730.png


其次,再進行基于Downloader、Trojan、Backdoor這三種病毒分類的實驗,本次實驗的惡意代碼數據是總數據集中的45萬病毒樣本。從實驗結果可以看出隨機森林在對Downloader、Trojan、Backdoor三種病毒分類時,與支持向量機分類算法和邏輯回歸分類算法相比較,實驗效果是比較好的。隨著惡意代碼的樣本量從9萬增長到45萬時,查準率、查全率、F1值從原來的0.924、0.918、0.921提升到0.935、0.932、0.934,評判標準都有提升。其實驗結果如圖4、圖5、圖6所示。

微信截圖_20181022144759.png

從以上結果可知,隨機森林在分類的泛化能力上要優于SVM和邏輯回歸。

3  結束語

本文聚焦在大樣本下利用機器學習算法對惡意代碼進行識別和分類檢測,選擇PE文件結構和敏感API作為輸入,實驗數據表明隨機森林的評價效果比支持向量機、邏輯回歸模型的效果優秀。在進行三種病毒分類上,雖然隨機森林的效果最好,但是隨機森林對于某些白樣本使用和病毒樣本相同的編譯器時,容易將其劃分為病毒樣本。其次,準確率仍然不是很高,只有0.935左右,在基于大樣本的前提下,模型的分類效果仍然需要提升,以上兩個問題是本文今后工作的重點。


參考文獻

[1] 江民病毒疫情監測預警中心.江民病毒疫情歷史數據統計[EB/OL].[2018-05-30].http://virusinfo.jiangmin.com/virinfo/virusDataStat.aspx.

[2] SIKORSKI M, HONIG A.惡意代碼分析實戰[M].諸葛建偉,姜輝,張光凱,譯.北京:電子工業出版社,2014.

[3] 盛超,魏盛娜. 基于權限與敏感API的惡意程序檢測方法[J]. 電腦知識與技術, 2017, 13(33):67-69.

[4] HEX-RAYS SA. IDA pro introduction[EB/OL]. [2018-05-30].http://www.hex-rays. com/products.shtml/.

[5] BABU A J,RAVEENDRANATH R,RAJAMANJ V,et al,Dissecting SMS malwares in Android[C] //Proceedings of International Conference on Contemporary Computing and Informatics,2014:1065-1069.

[6] ABOU-ASSALEH T, CERCONE N, KESELJ V, et al. N-gram-based detection of new malicious code[C]//The 28th Annual International Computer Software and Applications Conference (COMPSAC), 2004:41-42.

[7] ANDERSON B, QUIST D, NEIL J, et al. Graph-based malware detection using dynamic analysis[J]. Journal in Computer Virology,2011, 7(4): 247-258.

[8] 郭尚瓚. 基于流量行為特征的僵尸網絡研究與檢測[D]. 北京:北京郵電大學, 2016.

[9] 楊曄. 基于行為的惡意代碼檢測方法研究[D]. 西安:西安電子科技大學, 2015.

(收稿日期:2018-06-26)

作者簡介:

李雪虎(1990-),男,學士,工程師,主要研究方向:反病毒、逆向分析、網絡攻防。

王發明(1993-),男,學士,工程師,主要研究方向:大數據、分布式、機器學習。

戰凱(1990-),男,碩士研究生,主要研究方向:推薦系統、反病毒。


此內容為AET網站原創,未經授權禁止轉載。
亚洲一区二区欧美_亚洲丝袜一区_99re亚洲国产精品_日韩亚洲一区二区
国产精品久久久久久久久久妞妞 | 亚洲综合色视频| 欧美精品自拍| 99视频在线观看一区三区| 宅男噜噜噜66一区二区| 欧美国产日韩一区二区在线观看 | 国产一区二区三区日韩| 亚洲色无码播放| 亚洲高清视频在线观看| 久久精品二区| 一区二区三区国产盗摄| 蜜桃久久av一区| 羞羞视频在线观看欧美| 欧美日韩免费高清| 99riav久久精品riav| 亚洲第一网站免费视频| 久久精品国产清高在天天线| 亚洲理伦在线| 欧美绝品在线观看成人午夜影视 | 欧美亚洲在线视频| 夜夜爽www精品| 欧美日本在线观看| 日韩午夜免费| 亚洲第一综合天堂另类专| 久久超碰97中文字幕| 午夜精品三级视频福利| 国产精品永久免费在线| 亚洲欧美日韩久久精品| 亚洲一区二区三区视频播放| 欧美特黄一区| 性做久久久久久久免费看| 亚洲自拍偷拍福利| 国产精品一二一区| 久久精品成人欧美大片古装| 亚洲欧美亚洲| 影音欧美亚洲| 欧美日韩一区综合| 亚洲自拍偷拍色片视频| 亚洲素人一区二区| 国产日韩欧美亚洲| 久久夜色精品国产| 日韩一二在线观看| 99riav1国产精品视频| 欧美午夜一区二区三区免费大片| 一区二区日韩精品| 亚洲香蕉网站| 亚洲高清不卡av| 国产精品久久激情| 免费成人小视频| 夜夜嗨av一区二区三区四季av| 夜夜嗨av色一区二区不卡| 欧美午夜寂寞影院| 久久国产精品第一页| 久久精品人人做人人综合| 亚洲欧洲三级| 国产三级欧美三级日产三级99| 欧美14一18处毛片| 亚洲欧洲av一区二区| 亚洲国产成人久久综合一区| 亚洲人成网站在线观看播放| 国产精品一区二区在线观看网站| 久久亚洲私人国产精品va媚药| 一区二区精品在线| 亚洲电影免费| 午夜精品婷婷| 一区二区三区精密机械公司| 韩国精品主播一区二区在线观看| 欧美日韩播放| 蜜臀av性久久久久蜜臀aⅴ| 亚洲一区二区三区中文字幕在线 | 欧美美女bbbb| 免费观看日韩av| 欧美亚洲日本网站| 亚洲视频在线看| 亚洲国产精品久久久久久女王| 宅男噜噜噜66一区二区66| 亚洲丶国产丶欧美一区二区三区 | 欧美日韩在线一区二区| 久久综合色播五月| 欧美在线观看日本一区| 日韩午夜在线| 亚洲人体1000| 亚洲欧洲一区二区三区在线观看| 久久国产精品黑丝| 久久精品日韩| 亚洲国产精品va在看黑人| 久久精品视频在线观看| 亚洲高清自拍| 亚洲精品日韩在线观看| 亚洲日本理论电影| 99这里只有久久精品视频| 亚洲精品亚洲人成人网| 在线亚洲观看| 欧美亚洲专区| 久久综合久久久| 欧美精品不卡| 国产精品日韩欧美一区二区三区 | 亚洲精品一区二区三区99| 日韩视频免费在线观看| 亚洲婷婷免费| 久久黄色级2电影| 欧美 日韩 国产 一区| 欧美精品一线| 国产免费一区二区三区香蕉精| 国产综合色一区二区三区| 亚洲大片精品永久免费| 一区二区三区蜜桃网| 欧美一区精品| 亚洲一区二区在线视频| 久久久五月婷婷| 欧美日韩亚洲视频| 黄色国产精品一区二区三区| 91久久精品国产91久久性色tv| 一区二区三区日韩精品| 久久精品女人| 亚洲一区制服诱惑| 欧美成黄导航| 国产亚洲精品一区二555| 夜夜嗨一区二区| 亚洲国产裸拍裸体视频在线观看乱了 | 一本色道久久加勒比精品| 久久精品国产91精品亚洲| 欧美日韩国产一级片| 国产综合自拍| 在线视频一区二区| 一区二区三区www| 欧美成年网站| 在线观看中文字幕不卡| 亚洲主播在线观看| 亚洲天堂免费观看| 欧美激情黄色片| 亚洲国产小视频在线观看| 欧美在线观看视频| 欧美一级精品大片| 国产精品日韩久久久| 亚洲性线免费观看视频成熟| 日韩午夜电影在线观看| 欧美精品九九99久久| 亚洲韩国精品一区| 亚洲三级影院| 欧美日韩国产天堂| aa国产精品| 亚洲男人影院| 国产欧美视频一区二区三区| 亚洲欧美日本日韩| 欧美在线观看你懂的| 国产在线播放一区二区三区| 欧美一区视频在线| 久久亚洲私人国产精品va| 极品日韩久久| 夜夜狂射影院欧美极品| 欧美三日本三级少妇三2023| 亚洲综合999| 国产三区精品| 性做久久久久久久免费看| 久久国产精品一区二区| 伊人成人在线| 一区二区三区国产在线| 国产精品视频成人| 久久精品2019中文字幕| 欧美好骚综合网| 亚洲一区二区在线免费观看| 久久精品久久综合| 亚洲电影在线播放| 亚洲制服少妇| 在线观看一区二区精品视频| 亚洲神马久久| 一区二区亚洲精品| 亚洲尤物视频在线| 在线观看亚洲a| 99国产精品私拍| 国产一区二区三区高清| 一区二区三区蜜桃网| 国产视频一区欧美| 在线视频亚洲一区| 伊人久久大香线蕉综合热线| 亚洲嫩草精品久久| 亚洲第一区在线观看| 欧美在线首页| 在线亚洲欧美视频| 免费观看一级特黄欧美大片| 亚洲一区二区三区四区在线观看 | 久久精品在线播放| 亚洲综合成人在线| 欧美视频一区在线| 亚洲精品欧美专区| 国产一区二区三区高清| 先锋资源久久| 一区二区三区精品视频| 欧美裸体一区二区三区| 亚洲日本国产| 亚洲国产99精品国自产| 久久中文精品| 亚洲第一视频| 国产一区二区视频在线观看| 亚洲欧美久久久久一区二区三区| 亚洲精品美女在线| 欧美日韩大片| 亚洲天堂av电影| 亚洲无吗在线|