《電子技術應用》
您所在的位置:首頁 > 嵌入式技術 > 設計應用 > 基于大樣本的隨機森林惡意代碼檢測與分類算法
基于大樣本的隨機森林惡意代碼檢測與分類算法
李雪虎,王發明,戰凱
(北京江民新科技術有限公司,北京 100097)
摘要: 隨著互聯網的快速發展,計算機安全問題已經提高到國家安全的戰略角度。但是在互聯網上傳播的惡意代碼數量、種類等都在增加。針對惡意代碼數量龐大、傳統特征檢測覆蓋面不夠廣、準確度不高的問題,提出了在大樣本下基于隨機森林的惡意代碼檢測算法。大樣本下,將PE文件結構特征和敏感API作為輸入特征,采用隨機森林算法對惡意代碼進行檢測。實驗結果表明,大樣本下,隨機森林算法是一種優秀的用于惡意代碼檢測的算法,即使在惡意代碼樣本量龐大的情況下,仍然具有良好的分類效果,其在現實應用中具有重要的價值。
中圖分類號:TP393
文獻標識碼:A
DOI: 10.19358/j.issn.2096-5133.2018.07.001
中文引用格式:李雪虎,王發明,戰凱.基于大樣本的隨機森林惡意代碼檢測與分類算法[J].信息技術與網絡安全,2018,37(7):3-5,21.
Large sample-based random forest malicious code detection and classification algorithm
Li Xuehu, Wang Faming, Zhan Kai
(Beijing Jiangmin New Technology Co., Ltd.,Beijing 100097, China)
Abstract: With the rapid development of Internet, computer security has been raised to the strategic perspective of national security. However, the number and types of malicious code that spread on Internet are increasing. Due to large number of malicious code, insufficient coverage of traditional feature detection, and low accuracy, this paper proposes a malicious code detection algorithm based on random forest under large samples. Under large samples, the structural characteristics of the PE file and the sensitive API are used as input features. The random forest algorithm is used to detect the malicious code. Experimental results show that under large samples, random forest algorithm is an excellent algorithm for malicious code detection. Even if the amount of malicious code is large, it still has a good classification effect. It is of great value in practical application.
Key words : PE file structure features; sensitive API; random forest; malicious code detection and classification

0  引言


隨著互聯網的快速發展,計算機安全問題已經提高到國家安全的戰略角度,但是在互聯網上傳播的惡意代碼的數量、種類等都在增加。根據江民病毒疫情監測預警中心提供的數據顯示[1]:2018年5月,新增病毒1 140種,感染計算機13 569臺。北京、上海、廣州是主要的被感染和受攻擊地區。雖然惡意代碼一直在持續的增長,但是大部分惡意代碼在編寫過程中都是關鍵模塊重利用,其特征行為具有高度的相似性[2]

首先,惡意代碼為了偽裝自身,會對自身代碼結構進行修改,而修改自身代碼結構的方法則具有規律性;其次,惡意代碼為了實現獲取計算機相關權限、修改計算機重要文件等敏感操作,就需要調用系統相關的API函數來達到目的。所以本文根據以上惡意代碼的特點通過機器學習的方法實現對惡意代碼的辨別與分類。

1  惡意代碼分類算法相關研究

1.1  基于API調用的特征提取

應用程序編程接口(Application Programming Interface, API)是可以作為惡意代碼分類特征使用的,惡意程序通過調用一些API(主要是系統底層API),達到竊取用戶敏感信息或者獲取本計相操作權限等,而這些API在大部分的惡意代碼中均被大量使用,本文將這些API稱為敏感API。在文獻[3]中已經證實在同一種分類算法中,使用敏感API得到的分類結果準確度要優于不使用敏感API得到的分類結果準確度,故本文將敏感API作為惡意代碼分類的特征向量。

一般提取惡意代碼特征主要有兩種方法:靜態分析方法和動態分析方法。靜態分析主要使用IDA[4]、JEB等反匯編工具,主要特征有PE文件結構信息和敏感API調用等。動態分析方法主要是使用沙箱[5](例如布谷鳥)等程序模擬操作系統環境,監測其中未知程序的行為并與已知的惡意代碼行為進行匹配,如果匹配成功,則可判定未知程序為惡意程序。但是在具體的應用過程中發現,由于系統API層次較低,沙箱進行行為監控時,難以獲得行為的準確含義,并且沙箱分析出結果的速度緩慢,耗時較長。由于這些缺點的存在,故本文采用靜態特征分析的方法。

得到特征數據以后,就可以使用機器學習的相關模型進行惡意代碼的分類識別。分類算法有很多,常見的算法有K近鄰(K-Nearest Neighbor, KNN)[6]、支持向量機(Support Vector Machine, SVM)[7]、邏輯回歸(Logistic Regression)[8]、卷積神經網絡(Convolutional Neural Network, CNN)[9]等。本文主要是使用隨機森林進行惡意代碼分類。

1.2  隨機森林

隨機森林可以解釋為若干自變量(X1,X2,…,Xi,…,Xn) 對因變量Y的作用。如果因變量Y有m個觀測值,有n個自變量與之相關(并且大多數情況下,m是遠遠小于n的);在構建決策分類樹的時候,隨機森林會隨機地在原數據中重新選擇m個觀測值,其中有的觀測值可能被多次選擇,有的可能一次都沒有被選到。根據選擇的樣本進行決策樹建模,然后組合多棵決策樹的預測,通過投票得出最終的預測結果。

1.3  隨機森林算法實現

本文的隨機森林算法是在Spark下實現的,采用的是Python第三方庫Pyspark。實驗分為兩個,第一個實驗的輸入為樣本文件的文件特征,包括文件類型、文件大小、文件導入表、文件基地址、文件版本等50個特征作為輸入;第二個實驗的輸入為敏感API特征,其中調節的參數為:numTrees=150,maxDepth=30,labelCol=“indexed”,featuresCol='features',seed=42,其余參數保持不變。本文將總數據集的80%用于訓練,20%用于測試。

2  實驗分析

2.1  實驗數據集

惡意代碼數據集是進行惡意代碼分析的基礎,機器學習算法只有結合相關的數據集對樣本進行訓練,才能更好地實現檢測功能。

本文采用的數據集是江民新科技術有限公司病毒庫中的數據集。本次采用的數據集總量為90萬,其中45萬白樣本,45萬病毒樣本。并且在45萬病毒樣本中,Downloader、Trojan、Backdoor三類樣本樣本量分別是15萬、15萬、15萬。

2.2  實驗環境

實驗環境:CPU:Intel(R) Xeon(R) CPU E5645 @ 2.40 GHz,操作系統CentOS Linux release 7.3.1611,內存32 GB。

Hadoop和Spark的版本為:Hadoop版本2.7.1,Spark版本2.2.1。

2.3  實驗評判標準

用查準率(Precision)、查全率(Recall)和F1度量評估本文算法,通常以關注的類為正類,其他類為負類,指標的取值為0~1。這些度量的計算公式如下:

微信截圖_20181022144401.png

其中,TP(True Positive)是指將正類預測為正類數,FP(False Positive)是指將負類預測為正類數,FN(False Negative)是指正類預測為負類數。

2.4  結果分析

在所選擇的數據集(江民新科技術有限公司病毒庫中的數據集)上將本文的隨機森林算法與支持向量機算法、邏輯回歸算法做比較。

首先進行黑白樣本分類的實驗,查看實驗的查準率、查全率和F1值,從實驗結果可以看出當樣本總量在10萬左右的時候,隨機森林在辨識黑白樣本的效果上與支持向量機算法、邏輯回歸算法相比較,結果并不理想。但是隨著樣本數量增大到90萬,隨機森林模型在辨識黑白樣本的查準率、查全率、F1值從原來的0.732、0.711、0.721提升到0.973、0.973、0.973,都達到了三種分類中的最好,其中在500 000到700 000樣本的時候,查準率、查全率和F1值出現了下降,是因為隨著病毒樣本的增加,其中部分白樣本經過編譯器編譯得到的PE結構信息與部分病毒樣本的結構信息相似,使得隨機森林算法出現了一定的誤差。但是隨著樣本量的繼續增大,這一小部分的樣本對于整體的分類影響逐漸變小。實驗結果如圖1、圖2、圖3所示。

微信截圖_20181022144730.png


其次,再進行基于Downloader、Trojan、Backdoor這三種病毒分類的實驗,本次實驗的惡意代碼數據是總數據集中的45萬病毒樣本。從實驗結果可以看出隨機森林在對Downloader、Trojan、Backdoor三種病毒分類時,與支持向量機分類算法和邏輯回歸分類算法相比較,實驗效果是比較好的。隨著惡意代碼的樣本量從9萬增長到45萬時,查準率、查全率、F1值從原來的0.924、0.918、0.921提升到0.935、0.932、0.934,評判標準都有提升。其實驗結果如圖4、圖5、圖6所示。

微信截圖_20181022144759.png

從以上結果可知,隨機森林在分類的泛化能力上要優于SVM和邏輯回歸。

3  結束語

本文聚焦在大樣本下利用機器學習算法對惡意代碼進行識別和分類檢測,選擇PE文件結構和敏感API作為輸入,實驗數據表明隨機森林的評價效果比支持向量機、邏輯回歸模型的效果優秀。在進行三種病毒分類上,雖然隨機森林的效果最好,但是隨機森林對于某些白樣本使用和病毒樣本相同的編譯器時,容易將其劃分為病毒樣本。其次,準確率仍然不是很高,只有0.935左右,在基于大樣本的前提下,模型的分類效果仍然需要提升,以上兩個問題是本文今后工作的重點。


參考文獻

[1] 江民病毒疫情監測預警中心.江民病毒疫情歷史數據統計[EB/OL].[2018-05-30].http://virusinfo.jiangmin.com/virinfo/virusDataStat.aspx.

[2] SIKORSKI M, HONIG A.惡意代碼分析實戰[M].諸葛建偉,姜輝,張光凱,譯.北京:電子工業出版社,2014.

[3] 盛超,魏盛娜. 基于權限與敏感API的惡意程序檢測方法[J]. 電腦知識與技術, 2017, 13(33):67-69.

[4] HEX-RAYS SA. IDA pro introduction[EB/OL]. [2018-05-30].http://www.hex-rays. com/products.shtml/.

[5] BABU A J,RAVEENDRANATH R,RAJAMANJ V,et al,Dissecting SMS malwares in Android[C] //Proceedings of International Conference on Contemporary Computing and Informatics,2014:1065-1069.

[6] ABOU-ASSALEH T, CERCONE N, KESELJ V, et al. N-gram-based detection of new malicious code[C]//The 28th Annual International Computer Software and Applications Conference (COMPSAC), 2004:41-42.

[7] ANDERSON B, QUIST D, NEIL J, et al. Graph-based malware detection using dynamic analysis[J]. Journal in Computer Virology,2011, 7(4): 247-258.

[8] 郭尚瓚. 基于流量行為特征的僵尸網絡研究與檢測[D]. 北京:北京郵電大學, 2016.

[9] 楊曄. 基于行為的惡意代碼檢測方法研究[D]. 西安:西安電子科技大學, 2015.

(收稿日期:2018-06-26)

作者簡介:

李雪虎(1990-),男,學士,工程師,主要研究方向:反病毒、逆向分析、網絡攻防。

王發明(1993-),男,學士,工程師,主要研究方向:大數據、分布式、機器學習。

戰凱(1990-),男,碩士研究生,主要研究方向:推薦系統、反病毒。


此內容為AET網站原創,未經授權禁止轉載。
亚洲一区二区欧美_亚洲丝袜一区_99re亚洲国产精品_日韩亚洲一区二区
欧美国产国产综合| 国语自产精品视频在线看抢先版结局 | 久久经典综合| 久久99伊人| 久久成人亚洲| 久久不见久久见免费视频1| 欧美在线观看视频在线| 欧美自拍丝袜亚洲| 久久精品视频在线免费观看| 久久精品欧美日韩精品| 久久精品人人做人人爽| 久久国产精品亚洲va麻豆| 久久精品成人欧美大片古装| 亚洲国产成人久久综合一区| 亚洲国产精品免费| 亚洲精品一区二| 9久草视频在线视频精品| 亚洲色诱最新| 午夜精品免费| 久久久久久久久岛国免费| 久久只精品国产| 免费看亚洲片| 欧美日韩第一页| 国产精品欧美日韩久久| 国产午夜精品美女毛片视频| 一区免费视频| 亚洲精品一区二区三区蜜桃久 | 国产精品第2页| 国产精品综合久久久| 国产亚洲精品资源在线26u| 国模一区二区三区| ●精品国产综合乱码久久久久| 在线不卡中文字幕| 亚洲免费av片| 亚洲一级黄色| 亚洲电影免费观看高清完整版在线 | 日韩视频在线免费| 亚洲伊人久久综合| 久久国产精品99国产精| 你懂的网址国产 欧美| 欧美日韩在线播放| 国产一区二区高清不卡| 亚洲国产一区二区三区青草影视 | 欧美激情一区二区三区在线视频观看| 欧美日韩国产小视频在线观看| 国产精品乱人伦一区二区| 狠狠爱成人网| 亚洲免费激情| 午夜精品一区二区三区在线视| 亚洲国产成人在线播放| 亚洲一区激情| 久久天堂精品| 国产精品成人一区二区三区吃奶 | 国产视频一区二区在线观看| 亚洲激情在线视频| 亚洲自拍偷拍网址| 亚洲免费观看高清完整版在线观看| 亚洲欧美清纯在线制服| 美女主播精品视频一二三四| 国产精品久久97| 亚洲国产精品传媒在线观看 | 欧美日韩中文字幕精品| 国产亚洲欧洲| 一区二区激情| 亚洲国产日韩欧美在线动漫 | 久久久噜噜噜久久狠狠50岁| 欧美日本簧片| 韩国美女久久| 亚洲一级影院| 日韩小视频在线观看专区| 久久成人免费网| 欧美视频导航| 亚洲激情网站免费观看| 欧美一区二视频在线免费观看| 亚洲香蕉网站| 欧美国产日韩一区二区| 国语自产精品视频在线看抢先版结局 | 国产精品久久久久77777| 亚洲国产视频一区| 欧美一区二区三区四区在线观看 | 国产午夜精品一区二区三区视频| 亚洲精品中文字幕在线观看| 亚洲国产精品v| 久久精品亚洲一区二区| 国产精品女同互慰在线看| 亚洲精品一二三| 亚洲欧洲精品一区二区三区波多野1战4 | 欧美一区二区三区日韩| 亚洲免费伊人电影在线观看av| 欧美国产国产综合| 一区二区三区在线观看视频| 午夜精品视频在线观看| 亚洲一区精品视频| 欧美日韩日日骚| 亚洲国产老妈| 91久久香蕉国产日韩欧美9色| 久久久五月天| 国产一区二区三区在线观看网站| 亚洲午夜日本在线观看| 在线综合欧美| 欧美精品在线观看| 亚洲国产成人久久综合一区| 久久成人在线| 久久久久成人精品免费播放动漫| 国产精品一区二区在线| 亚洲深夜福利视频| 亚洲永久免费观看| 国产精品超碰97尤物18| 一本色道久久综合| 在线视频一区二区| 欧美日韩精品一区二区三区| 亚洲区中文字幕| 99精品视频网| 欧美日韩国产成人高清视频| 亚洲激情欧美激情| 夜夜爽av福利精品导航| 欧美日韩亚洲免费| 亚洲麻豆国产自偷在线| 亚洲视频免费观看| 欧美色精品天天在线观看视频 | 欧美一区二视频| 国产喷白浆一区二区三区| 亚洲欧美日韩精品一区二区| 欧美一级理论片| 国产欧美在线视频| 久久国产99| 免费在线国产精品| 亚洲精品久久7777| 亚洲香蕉网站| 国产精品一区二区在线观看不卡| 亚洲欧美国产制服动漫| 久久精品亚洲精品| 精品88久久久久88久久久| 亚洲精品1区| 欧美破处大片在线视频| 亚洲小视频在线观看| 欧美在线在线| 韩国av一区二区| 亚洲精品中文字幕在线| 欧美午夜精品伦理| 欧美影院成年免费版| 免费影视亚洲| 日韩一区二区久久| 欧美一二三区精品| 在线看片欧美| 亚洲视频在线一区| 国产精品揄拍500视频| 久久精品夜色噜噜亚洲aⅴ| 欧美国产精品劲爆| 一区二区三区精品在线| 久久av一区二区三区亚洲| 精品二区久久| 亚洲午夜未删减在线观看| 国产日本欧美视频| 91久久午夜| 国产精品久久久久久户外露出| 久久爱91午夜羞羞| 欧美精品在欧美一区二区少妇| 亚洲少妇最新在线视频| 久久久综合免费视频| 亚洲精品偷拍| 久久精品成人一区二区三区| 亚洲第一视频| 午夜精彩国产免费不卡不顿大片| 伊人蜜桃色噜噜激情综合| 亚洲一区二区三区在线| 好吊妞这里只有精品| 一本久久精品一区二区| 国产亚洲一区在线播放| 一区二区三区国产在线观看| 国产一区二区三区自拍 | 欧美一区二区三区精品电影| 在线视频国产日韩| 欧美一区二区三区成人| 亚洲欧洲精品一区| 久久xxxx| 一本色道久久加勒比88综合| 久久视频一区| 亚洲一区二区视频在线| 欧美黄色小视频| 欧美在线一二三四区| 欧美深夜福利| 亚洲娇小video精品| 国产精品自拍一区| 一区二区三区精品国产| 红杏aⅴ成人免费视频| 亚洲一区二区三区午夜| 亚洲国产成人精品久久| 久久国产欧美| 夜夜嗨av色一区二区不卡| 玖玖精品视频| 亚洲欧美激情视频| 欧美视频三区在线播放| 亚洲韩国日本中文字幕| 国产日韩精品一区二区三区| 亚洲婷婷综合久久一本伊一区| 亚洲第一精品夜夜躁人人爽 | 91久久精品美女| 久久在线观看视频| 亚洲欧美日韩成人|