ALDOCX:使用基于新的結構特征提取方法的特定主動學習方法對未知惡意微軟文檔文件的檢測
引用:
Nissim N, Cohen A, Elovici Y. ALDOCX: Detection of Unknown Malicious Microsoft Office Documents using Designated Active Learning Methods Based on New Structural Feature Extraction Methodology[J]. 2016, PP(99):1-1.
研究內容:
基于機器學習及結構特征的未知惡意docx文檔靜態檢測
背景:
1.PDF文檔結構與docx文檔結構不同且攻擊手段也不盡相同,檢測docx需要新的結構特征
2.安全公司已經在使用機器學習和規則算法創建惡意docx文檔的簽名庫,但限于人工甄別,更新緩慢
攻擊手段:
1.宏攻擊
2.可信位置
3.對象嵌入鏈(OLE)
方法:
概述:利用docx文檔及其XML文件的分層結構將其變換為路徑列表,將可用來做識別的路徑提取出來作為特征結合機器學習算法進行未知惡意docx文檔檢測,同時創建新的主動學習方法,將具有有益信息的文檔加標簽返回進行存儲訓練&提交到安全公司的簽名庫,提高和維護檢測系統使其保持可更新性
Structural Feature Extraction Methodology(SFEM):基于結構路徑的新結構特征提取方法,將所有元素的結構路徑描述出來并從中提取具有檢測能力的作為特征路徑
-
可增強檢測能力的檢測框架:
框架示意圖
1.將系統部署在網絡節點已獲得大量文檔樣本
2.使用白名單和簽名庫機制判別已知文檔類型進行過濾
3.未知文檔使用SFEM進行轉換為元素路徑,成為新的文件
4.使用基于SVM和AL(主動學習)的檢測模型檢測,并返回兩個值:SVM的分類碼和分離超平面距離值,據此可分為非惡意文件、惡意文件以及攜帶信息可用來更新訓練器的文件
5.攜帶信息可用來更新訓練器的文件包括兩類:一種為好壞邊界靠近不易分辨的,一種為距離分離超平面很遠的;將這些文件返回給安全公司的人工貼簽專家進行甄別
6.貼簽后的文件被放到訓練器
7.增強檢測器的檢測能力
8.貼簽后的文件被添加到簽名庫中,增強白名單 -
選擇性抽樣和主動學習方法
舉例來和本文的方法對比:Random Selection (Random)、The SVM-Simple-Margin AL Method (SVM-Margin)
本文評估使用的主動學習方法:- Exploitation:基于SVM分類規則并且對選擇那些距離分離超平面遠又很大概率是惡意文檔的樣本進行了線性微調,從而實現了支持通過獲取大量樣本增強安全公司簽名庫的目標
- Combination (A Combined Active Learning Method):將SVM-Margin方法和Exploitation方法進行結合,實現了不同階段的主動學習有不同的表現方式,可以更好地更新訓練集和簽名庫,前期階段使用SVM-Margin,后期轉為Exploitation
- Comb-Ploit (A Combined Active Learning Method):與Combination相反,前期使用Exploitation,后期使用SVM-Margin
創新點:
1.提出基于docx文檔結構路徑的新型特征提取方法
2.使用基于SVM分類器和分離超平面距離公式的雙值檢測進行樣本選取與主動學習
3.為訓練器提供更新機制
4.提出Exploitation、Combination和Comb-Ploit三種主動學習方法