項目 - 垃圾郵件過濾

重點: 在項目的過程中,核心關注的應該是整個項目分析的流程,然后才是關注代碼的實現。

分析:垃圾郵件過濾,顯然是一個二分類的問題。而且對于原始數據,我們需要人為得給垃圾郵件打上標簽。

PS: 很多時候當公司開展了一個新的業務方向時,我們想處理的目標沒有明確的標簽。所以日常工作中,會有兩周到三周的時間,在分析數據和打標簽中度過。

https://pan.baidu.com/s/1fzS4gWr2MjJlYpGFIJlu_g
2qfj


一、研究綜述

隨著互聯網的蓬勃發展,電子郵件已經成為互聯網上最普遍的通訊方式之一;據最新調查顯示,2017Q3季度中國是世界最大垃圾郵件產生國和第二大受惡意郵件襲擊的國家。垃圾郵件的內容主要包括欺詐郵件、新聞議程、釣魚攻擊郵件、站點宣傳郵件、病毒郵件等等。

2017垃圾郵件來源分布情
2017垃圾郵件_遭惡意郵件襲擊國家情況圖
2017垃圾郵件_網絡釣魚全球分布

1、垃圾郵件的影響

垃圾郵件主要影響的因素如下:
1、占用網絡帶寬,造成郵件服務器擁塞,進而降低整個網絡的運行效率。
2、騙取錢財,傳播色情內容等。
3、攜帶病毒程序,可能導致接收郵件的機器/服務器感染病毒。

2、垃圾郵件過濾技術方案

正確的識別垃圾郵件的技術難度比較大,常用的垃圾郵件過濾方式有:關鍵詞法、校驗碼法、主題/源Email地址/IP地址/附件審計、白名單/黑名單機制、貝葉斯算法過濾等;

其中貝葉斯算法過濾垃圾郵件是一種基于統計學的過濾器,是建立在已有的統計結果之上的,所以貝葉斯算法過濾垃圾郵件模型屬于一種有監督的分類算法。基于貝葉斯算法的過濾垃圾郵件也屬于一種比較常用的算法模型。

貝葉斯算法

貝葉斯算法對應垃圾郵件項目中的參數:

Bi:先驗條件。某個詞項屬于垃圾郵件還是正常郵件。

A:整片文章中的所有詞項

P(Bi|A) 給定一篇郵件,郵件屬于正常郵件的概率是多少,郵件屬于垃圾郵件的概率是多少。

P(Bi):先驗概率。垃圾郵件的先驗比例。

P(A|Bi) :似然概率。基于正常情況的詞項,產生一個郵件的概率。

分母是常數,不用管。


二、算法

1、整體思路

1.1、任務:監督學習還是無監督學習?二分類還是多分類?文本分類還是結構化數據分類?短文本分類還是長文本分類?

1.2、數據:樣本如何定義?什么樣的數據作為特征?如果劃分訓練集和測試集?

1.3、特征:如何從原始數據中提取機器學習模型適用的特征?

1.4、模型:選擇合適的模型;根據具體的任務優化模型;模型調優;多模型融合。

總體思路

2、郵件數據格式分析

屬性 描述
發件人 發送郵件的郵箱號碼
收件人 接受郵件的郵箱號碼
郵件發送時間 發送郵件的時間點
郵件內容 郵件具體內容

郵件格式

三、分析與設計

1、任務分析

任務分析

2、模型選擇分析

模型選擇

3、垃圾郵件過濾技術方案

4、數據清洗

從原始數據中,將郵件數據轉換稱為結構化類型的數據,并且去掉其它不需要的字段信息,只需要保留發件人、收件人、發送時間、郵件內容這四部分的內容,對于這四個字段信息,如果這四個字段為空,那么將為空的屬性設置為unknown。

5、特征工程

5.1、發件人和收件人郵箱服務器提取,如果沒有發件人或者收件人的郵件地址的,直接將該字段的值設置為unknown。

5.2、通過對服務器地址字段的分析,可以得出在最終的算法模型中,該特征屬性不需要使用的結論。

5.3、郵件發送時間提取,主要提取出來星期、小時、時間段(上午&下午&晚上&凌晨)等時間的表示字段信息。

5.4、通過對時間提取字段信息的分析,可以得到時間對于垃圾郵件的分類,作用不大,在后續的模型訓練中可以不考慮該字段特征屬性。同時從數據上我們也可以看出如果一個郵件沒有發送時間,那么一定屬于垃圾郵件,所以可以在最終模型中加入這個特征屬性。

5.5、中文分詞。利用開源的分詞工具jeba分詞處理。

5.6、信息量特征

正常郵件的內容長度一般都在一定范圍內,即不會太長也不會太短;但是一般情況下,郵件的內容越短,那么該郵件就越有可能是垃圾郵件。

信號量:值越大,就越有可能是屬于垃圾郵件。

x表示文本長度
? L1和L2為調節因子,在該項目中,分別設置為500和10000。
? B1和B2為信息量平滑因子,在該項目中,全部設置為1。

6、模型效果評估

在進行垃圾郵件過濾的時候,即需要注意垃圾郵件的攔截率(召回率),也需要注意正常郵件被當成垃圾郵件的錯判率(精確率), 在當前項目中,我們主要考慮召回率這個指標。

7、模型選擇

分別選擇KNN、SVM、Bayes、DecisionTree、RandomForest、GBDT這幾種算法,并比較各種不同算法的效果。


四、總結

1、垃圾郵件過濾一般常用的基礎算法有Bayes、KNN、LR等。一般最常用的算法選擇Bayes算法。

2、垃圾郵件過濾系統中一般采用算法過濾+其它過濾統計結合的方式來進行垃圾郵件過濾。

3、在垃圾郵件過濾中主要是需要進行分詞操作,中文郵件一般可以選擇使用jieba(python)、ANSJ(java)等工具進行分詞處理。

4、在垃圾郵件過濾中一般注意召回率,也就是說一般情況下,需要盡可能的提高垃圾郵件過濾的成功率。

五、展望

1、修改jieba分詞部分的實現邏輯,添加自定義分詞詞典。

2、所有代碼整理,封裝成為class或者API的形式。

3、基于上課所將的特征工程提取出來的全部特征信息,使用SVM、GBDT、隨機森林、KNN等分類算法,查看一下效果;最終使用GridSearchCV對任意一個模型進行模型參數優化的過程。

4、使用保存好的模型對完整的原始郵件數據做一個判斷/預測。(代碼)

最后編輯于
?著作權歸作者所有,轉載或內容合作請聯系作者
平臺聲明:文章內容(如有圖片或視頻亦包括在內)由作者上傳并發布,文章內容僅代表作者本人觀點,簡書系信息發布平臺,僅提供信息存儲服務。
  • 序言:七十年代末,一起剝皮案震驚了整個濱河市,隨后出現的幾起案子,更是在濱河造成了極大的恐慌,老刑警劉巖,帶你破解...
    沈念sama閱讀 229,565評論 6 539
  • 序言:濱河連續發生了三起死亡事件,死亡現場離奇詭異,居然都是意外死亡,警方通過查閱死者的電腦和手機,發現死者居然都...
    沈念sama閱讀 99,115評論 3 423
  • 文/潘曉璐 我一進店門,熙熙樓的掌柜王于貴愁眉苦臉地迎上來,“玉大人,你說我怎么就攤上這事。” “怎么了?”我有些...
    開封第一講書人閱讀 177,577評論 0 382
  • 文/不壞的土叔 我叫張陵,是天一觀的道長。 經常有香客問我,道長,這世上最難降的妖魔是什么? 我笑而不...
    開封第一講書人閱讀 63,514評論 1 316
  • 正文 為了忘掉前任,我火速辦了婚禮,結果婚禮上,老公的妹妹穿的比我還像新娘。我一直安慰自己,他們只是感情好,可當我...
    茶點故事閱讀 72,234評論 6 410
  • 文/花漫 我一把揭開白布。 她就那樣靜靜地躺著,像睡著了一般。 火紅的嫁衣襯著肌膚如雪。 梳的紋絲不亂的頭發上,一...
    開封第一講書人閱讀 55,621評論 1 326
  • 那天,我揣著相機與錄音,去河邊找鬼。 笑死,一個胖子當著我的面吹牛,可吹牛的內容都是我干的。 我是一名探鬼主播,決...
    沈念sama閱讀 43,641評論 3 444
  • 文/蒼蘭香墨 我猛地睜開眼,長吁一口氣:“原來是場噩夢啊……” “哼!你這毒婦竟也來了?” 一聲冷哼從身側響起,我...
    開封第一講書人閱讀 42,822評論 0 289
  • 序言:老撾萬榮一對情侶失蹤,失蹤者是張志新(化名)和其女友劉穎,沒想到半個月后,有當地人在樹林里發現了一具尸體,經...
    沈念sama閱讀 49,380評論 1 335
  • 正文 獨居荒郊野嶺守林人離奇死亡,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內容為張勛視角 年9月15日...
    茶點故事閱讀 41,128評論 3 356
  • 正文 我和宋清朗相戀三年,在試婚紗的時候發現自己被綠了。 大學時的朋友給我發了我未婚夫和他白月光在一起吃飯的照片。...
    茶點故事閱讀 43,319評論 1 371
  • 序言:一個原本活蹦亂跳的男人離奇死亡,死狀恐怖,靈堂內的尸體忽然破棺而出,到底是詐尸還是另有隱情,我是刑警寧澤,帶...
    沈念sama閱讀 38,879評論 5 362
  • 正文 年R本政府宣布,位于F島的核電站,受9級特大地震影響,放射性物質發生泄漏。R本人自食惡果不足惜,卻給世界環境...
    茶點故事閱讀 44,548評論 3 348
  • 文/蒙蒙 一、第九天 我趴在偏房一處隱蔽的房頂上張望。 院中可真熱鬧,春花似錦、人聲如沸。這莊子的主人今日做“春日...
    開封第一講書人閱讀 34,970評論 0 28
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽。三九已至,卻和暖如春,著一層夾襖步出監牢的瞬間,已是汗流浹背。 一陣腳步聲響...
    開封第一講書人閱讀 36,229評論 1 291
  • 我被黑心中介騙來泰國打工, 沒想到剛下飛機就差點兒被人妖公主榨干…… 1. 我叫王不留,地道東北人。 一個月前我還...
    沈念sama閱讀 52,048評論 3 397
  • 正文 我出身青樓,卻偏偏與公主長得像,于是被迫代替她去往敵國和親。 傳聞我的和親對象是個殘疾皇子,可洞房花燭夜當晚...
    茶點故事閱讀 48,285評論 2 376