重點: 在項目的過程中,核心關注的應該是整個項目分析的流程,然后才是關注代碼的實現。
分析:垃圾郵件過濾,顯然是一個二分類的問題。而且對于原始數據,我們需要人為得給垃圾郵件打上標簽。
PS: 很多時候當公司開展了一個新的業務方向時,我們想處理的目標沒有明確的標簽。所以日常工作中,會有兩周到三周的時間,在分析數據和打標簽中度過。
https://pan.baidu.com/s/1fzS4gWr2MjJlYpGFIJlu_g
2qfj
一、研究綜述
隨著互聯網的蓬勃發展,電子郵件已經成為互聯網上最普遍的通訊方式之一;據最新調查顯示,2017Q3季度中國是世界最大垃圾郵件產生國和第二大受惡意郵件襲擊的國家。垃圾郵件的內容主要包括欺詐郵件、新聞議程、釣魚攻擊郵件、站點宣傳郵件、病毒郵件等等。
1、垃圾郵件的影響
垃圾郵件主要影響的因素如下:
1、占用網絡帶寬,造成郵件服務器擁塞,進而降低整個網絡的運行效率。
2、騙取錢財,傳播色情內容等。
3、攜帶病毒程序,可能導致接收郵件的機器/服務器感染病毒。
2、垃圾郵件過濾技術方案
正確的識別垃圾郵件的技術難度比較大,常用的垃圾郵件過濾方式有:關鍵詞法、校驗碼法、主題/源Email地址/IP地址/附件審計、白名單/黑名單機制、貝葉斯算法過濾等;
其中貝葉斯算法過濾垃圾郵件是一種基于統計學的過濾器,是建立在已有的統計結果之上的,所以貝葉斯算法過濾垃圾郵件模型屬于一種有監督的分類算法。基于貝葉斯算法的過濾垃圾郵件也屬于一種比較常用的算法模型。
貝葉斯算法對應垃圾郵件項目中的參數:
Bi:先驗條件。某個詞項屬于垃圾郵件還是正常郵件。
A:整片文章中的所有詞項。
P(Bi|A) 給定一篇郵件,郵件屬于正常郵件的概率是多少,郵件屬于垃圾郵件的概率是多少。
P(Bi):先驗概率。垃圾郵件的先驗比例。
P(A|Bi) :似然概率。基于正常情況的詞項,產生一個郵件的概率。
分母是常數,不用管。
二、算法
1、整體思路
1.1、任務:監督學習還是無監督學習?二分類還是多分類?文本分類還是結構化數據分類?短文本分類還是長文本分類?
1.2、數據:樣本如何定義?什么樣的數據作為特征?如果劃分訓練集和測試集?
1.3、特征:如何從原始數據中提取機器學習模型適用的特征?
1.4、模型:選擇合適的模型;根據具體的任務優化模型;模型調優;多模型融合。
2、郵件數據格式分析
屬性 | 描述 |
---|---|
發件人 | 發送郵件的郵箱號碼 |
收件人 | 接受郵件的郵箱號碼 |
郵件發送時間 | 發送郵件的時間點 |
郵件內容 | 郵件具體內容 |
三、分析與設計
1、任務分析
2、模型選擇分析
3、垃圾郵件過濾技術方案
4、數據清洗
從原始數據中,將郵件數據轉換稱為結構化類型的數據,并且去掉其它不需要的字段信息,只需要保留發件人、收件人、發送時間、郵件內容這四部分的內容,對于這四個字段信息,如果這四個字段為空,那么將為空的屬性設置為unknown。
5、特征工程
5.1、發件人和收件人郵箱服務器提取,如果沒有發件人或者收件人的郵件地址的,直接將該字段的值設置為unknown。
5.2、通過對服務器地址字段的分析,可以得出在最終的算法模型中,該特征屬性不需要使用的結論。
5.3、郵件發送時間提取,主要提取出來星期、小時、時間段(上午&下午&晚上&凌晨)等時間的表示字段信息。
5.4、通過對時間提取字段信息的分析,可以得到時間對于垃圾郵件的分類,作用不大,在后續的模型訓練中可以不考慮該字段特征屬性。同時從數據上我們也可以看出如果一個郵件沒有發送時間,那么一定屬于垃圾郵件,所以可以在最終模型中加入這個特征屬性。
5.5、中文分詞。利用開源的分詞工具jeba分詞處理。
5.6、信息量特征
正常郵件的內容長度一般都在一定范圍內,即不會太長也不會太短;但是一般情況下,郵件的內容越短,那么該郵件就越有可能是垃圾郵件。
信號量:值越大,就越有可能是屬于垃圾郵件。
x表示文本長度
? L1和L2為調節因子,在該項目中,分別設置為500和10000。
? B1和B2為信息量平滑因子,在該項目中,全部設置為1。
6、模型效果評估
在進行垃圾郵件過濾的時候,即需要注意垃圾郵件的攔截率(召回率),也需要注意正常郵件被當成垃圾郵件的錯判率(精確率), 在當前項目中,我們主要考慮召回率這個指標。
7、模型選擇
分別選擇KNN、SVM、Bayes、DecisionTree、RandomForest、GBDT這幾種算法,并比較各種不同算法的效果。
四、總結
1、垃圾郵件過濾一般常用的基礎算法有Bayes、KNN、LR等。一般最常用的算法選擇Bayes算法。
2、垃圾郵件過濾系統中一般采用算法過濾+其它過濾統計結合的方式來進行垃圾郵件過濾。
3、在垃圾郵件過濾中主要是需要進行分詞操作,中文郵件一般可以選擇使用jieba(python)、ANSJ(java)等工具進行分詞處理。
4、在垃圾郵件過濾中一般注意召回率,也就是說一般情況下,需要盡可能的提高垃圾郵件過濾的成功率。
五、展望
1、修改jieba分詞部分的實現邏輯,添加自定義分詞詞典。
2、所有代碼整理,封裝成為class或者API的形式。
3、基于上課所將的特征工程提取出來的全部特征信息,使用SVM、GBDT、隨機森林、KNN等分類算法,查看一下效果;最終使用GridSearchCV對任意一個模型進行模型參數優化的過程。
4、使用保存好的模型對完整的原始郵件數據做一個判斷/預測。(代碼)