2019騰訊廣告算法大賽思路~~更新啦~~2019/4/25

2019-4-25 09:13 ~~思路持續更新!!!---作者硬件:內存:8g/ cpu:i5-4代


Attention!!

?作者會不定時更新內容,因為隨著對賽題的理解會發現之前一些理解錯誤的地方,本文僅供參考。

官網昨天在參賽群里出了FAQ~~作者看完之后覺得,應該在構造標簽之前進行數據清洗!!(需要FAQ的可以自行在參賽群里下載。)

本次比賽與以往一般的比賽有一個最大的不同之處就是需要參賽者自己構建 [input & label] 。

因此該比賽的標準作業流程應該如下:

之所以第一步就要數據清洗主要原因是因為如果在統計標簽之后,再進行數據清洗會非常麻煩,作者已經嘗試了,至此不希望廣大朋友再次受害,因此做此更新。

第一步:數據清洗

我們需要先將曝光日志文件轉為csv格式,因此在轉換csv的過程中就可以完成大部分的數據清洗工作。具體操作如下:

pandas讀取原始 totalExposureLog.out 文件時,是逐行分解出各個字段,然后轉為dataframe格式,最終保存為csv格式文件。而我們在逐行分解出各個字段時就可以進行該條記錄是否是異常數據的判斷了,如果是異常數據則扔掉,反之保存。

具體操作知道了,那么什么是異常數據,或者說哪些數據是可以清洗掉的數據呢?根據昨天官方出的FAQ作者大致總結如下:

1. 首先對ad_static_feature 即廣告靜態數據在轉為csv格式的時候進行數據清洗,凡是某個字段存在缺失值 / 創建時間為0 (此處的0與后面的-1請事先用type()函數確認數據類型,在進行判斷,不要把一個str與一個int進行比較哦~~) / 廣告行業id出現多值(用逗號分隔) 都視為異常數據,直接扔掉。?(官方解釋:空值的廣告從出題意圖上來說就沒打算讓選手作為訓練數據,可以清洗掉。)

2. ad_operation 清洗掉 ad_static_feature 中沒有的廣告(原因:廣告只要被創建就會在 ad_static_feature 表內有記錄,因此沒有被記錄在 ad_static_feature 表內的廣告,若出現在了 ad_operation表中則認為該操作是異常操作)

3. user_data 中經觀察暫未發現異常,暫不用清洗

以上3步數據清洗工作是為了后面清洗曝光日志文件的異常數據做準備~~~(2 & 3步沒有實質操作是因為目前并未發現有異常,如果發現還需要清洗)

1. 廣告請求時間出現了 2月30號,這種不符合常理的數據直接扔掉

2. 廣告曝光記錄中任一字段缺失視為異常數據,直接扔掉(因為數據量大,這么操作是沒問題的)

3. 廣告曝光記錄中任一不符合手冊中 [字段取值類型/范圍] 描述的,視為異常數據直接扔掉。(如:id類數據出現小數,廣告位id出現多值,并且用逗號分隔等。

4. 廣告的請求時間是否在廣告有效期內,這個需要關聯到ad_operation表去,如果請求時間是在廣告設置為無效期間內,則扔掉。(這里的具體操作建議先在ad_operation表中把相關廣告id對應的失效期提取成一個單獨的csv,然后進行判斷)(經驗證,這種狀況不存在)

5. 廣告id與ad_static_feature進行關聯,若該廣告id在ad_static_feature中的信息不存在,直接丟掉。因為我們在上面的前三步中已經對?ad_static_feature 數據做了清洗工作,如果曝光日志連廣告靜態屬性都沒有,那說明這個曝光記錄對我們的沒有用的? (因為我們要進行訓練的!!!)?

6. 同一用戶,同一廣告id,同一請求時間,同一請求id,同一廣告位id,同一素材尺寸的記錄視為用戶操作不當,(可能用戶頁面卡頓,連續點擊多次),可以進行去重操作,保留一條。(這一種數據的清洗建議在其他異常數據出完成而且已經保存為csv格式后,再讀取csv格式數據進行操作,因為重復這個事是需要全局數據對比的。)?

以上6步數據清洗是針對?totalExposureLog.out 文件的,對于其他數據的清洗等日后更新~~~

接著,第二步:構造訓練集標簽

首先說明一點,經過第一步之后,有三張表清洗過,totalExposureLog、ad_static_feature、ad_operation,意思就是說,凡是出現在totallExposureLog中的記錄的廣告id,一定必須要同時存在于ad_static_feature、ad_operation!!!下面說說原因。

構建訓練集標簽思路

官方數據給了5張表分別為:

1.????totalExposureLog :總的曝光日志文件(清洗過)

2.????user_data? ? ? ? ? ? ?:用戶屬性文件

3.????ad_static_feature :廣告靜態特征(清洗過)

4.????ad_operation? ? ? ? :廣告操作數據(清洗過)

5.? ? test_sample? ? ? ? ? :測試樣本

因此,label的構建實質上就是統計曝光日志文件同一個廣告的出現次數。

但是這里注意了,同一個廣告到底是如何定義的?什么才叫同一個廣告

先不急,要知道統計標簽的最終目的是干嘛?當然是構建訓練集了,可是如果統計了沒用的標簽最終導致無法訓練該怎么辦呢?

上面的話什么意思呢?我們先看張: 測試樣本數據

test_sample.csv

如上圖,我們可以看到官方給到了測試數據一共有11個字段,

其中C\D\E\G\H\K(對比到圖中字段)是可以根據廣告id關聯到廣告靜態數據表中得到的(這幾個字段不用關心,不用關心的意思就是說我們在統計標簽的時候,如果要考慮該標簽是無用的還是有用的,不用通過這幾個字段去考量)。

樣本id(J)沒有實際意義。

剩下的A\B\I是我們需要關心的。對于出價(B)字段,廣告曝光日志里的記錄本身就有(這里有自動競爭出價人為操作出價兩種模式。)競爭出價時,出價在變,而操作數據里卻沒有記錄,但是這里依然有效,而人為出價操作數據里有記錄,當然也有效(因此出價這個字段暫不討論,都認為有效)。

重點來了接著對于人群定向(A)以及投放時段(I)我們可以觀察到,在操作數據文件中出現過的廣告id才會有這兩個字段的具體取值,我否則們是無法獲取到該字段的具體取值的,或者說無法顯示直接得到,(也許可以通過記錄請求時間之類的推斷出投放時段之類的,這些不在討論范圍之內,因為作者的意圖是丟掉沒有這兩個字段的數據)因此,這就決定了第二步剛開始的一句話:

凡是出現在totallExposureLog中的記錄的廣告id,一定必須要同時存在于ad_static_feature、ad_operation!!!

因為只有這樣,我們構造/統計的訓練集才能有完整的字段從而與測試集保持一致。

下面來一張操作數據圖。

ad_operation.csv

我們可以發現,每個廣告在創建之初都有設置好出價 / 定向人群 / 投放時段 這三個字段,因此也再次驗證了上述的引用。

經過上述所有步驟,已經把臟數據 \ 無效廣告數據(這倆是不同概念)已經處理的差不多了。接著就可以統計標簽,構造訓練集了!!!!!!!!

先上一張數據圖:這是曝光日志文件里的數據:

可以觀察到框中的部分,廣告id都為61,但是出價大部分都不相同,出價是廣告的一種屬性,因此當出價不等時是不能看做同一個廣告的。但是,我們可以看到圖中紅色方框框中的部分,他們的出價是一樣的,因此可以暫時視這兩條記錄為同一個廣告的曝光次數,暫定label=2沒完!!因為官方要求的是預估次日曝光量(這里有兩種理解,第一種:次日0點到24點,第二種:創建/修改之后的24小時,先暫時當做第二種處理),所以這時我們需要考慮兩種情況:

第一種情況:在該廣告創建/修改后24小時內是否又發生了修改?,如果沒有,那好我們只需要判斷上述廣告id=61的廣告請求是否是在24小時內發生的,如果是,Label=2,反之,誰的請求時間沒有在24小時內,誰就是無效廣告!!,如果又發生了修改。。。看第二種情況。

第二種情況:我們需要將統計了2次的廣告請求時間進行歸類,舉個例子:假設在2點創建了廣告,一條廣告請求發生在3點。然后在4點發生了修改,又有一條廣告請求發生在5點,那么放在訓練集里就表現為兩個樣本,Label分別為1.

大致總結以上,肯定有理解錯誤的地方,僅供參考。

最后編輯于
?著作權歸作者所有,轉載或內容合作請聯系作者
平臺聲明:文章內容(如有圖片或視頻亦包括在內)由作者上傳并發布,文章內容僅代表作者本人觀點,簡書系信息發布平臺,僅提供信息存儲服務。
  • 序言:七十年代末,一起剝皮案震驚了整個濱河市,隨后出現的幾起案子,更是在濱河造成了極大的恐慌,老刑警劉巖,帶你破解...
    沈念sama閱讀 230,321評論 6 543
  • 序言:濱河連續發生了三起死亡事件,死亡現場離奇詭異,居然都是意外死亡,警方通過查閱死者的電腦和手機,發現死者居然都...
    沈念sama閱讀 99,559評論 3 429
  • 文/潘曉璐 我一進店門,熙熙樓的掌柜王于貴愁眉苦臉地迎上來,“玉大人,你說我怎么就攤上這事。” “怎么了?”我有些...
    開封第一講書人閱讀 178,442評論 0 383
  • 文/不壞的土叔 我叫張陵,是天一觀的道長。 經常有香客問我,道長,這世上最難降的妖魔是什么? 我笑而不...
    開封第一講書人閱讀 63,835評論 1 317
  • 正文 為了忘掉前任,我火速辦了婚禮,結果婚禮上,老公的妹妹穿的比我還像新娘。我一直安慰自己,他們只是感情好,可當我...
    茶點故事閱讀 72,581評論 6 412
  • 文/花漫 我一把揭開白布。 她就那樣靜靜地躺著,像睡著了一般。 火紅的嫁衣襯著肌膚如雪。 梳的紋絲不亂的頭發上,一...
    開封第一講書人閱讀 55,922評論 1 328
  • 那天,我揣著相機與錄音,去河邊找鬼。 笑死,一個胖子當著我的面吹牛,可吹牛的內容都是我干的。 我是一名探鬼主播,決...
    沈念sama閱讀 43,931評論 3 447
  • 文/蒼蘭香墨 我猛地睜開眼,長吁一口氣:“原來是場噩夢啊……” “哼!你這毒婦竟也來了?” 一聲冷哼從身側響起,我...
    開封第一講書人閱讀 43,096評論 0 290
  • 序言:老撾萬榮一對情侶失蹤,失蹤者是張志新(化名)和其女友劉穎,沒想到半個月后,有當地人在樹林里發現了一具尸體,經...
    沈念sama閱讀 49,639評論 1 336
  • 正文 獨居荒郊野嶺守林人離奇死亡,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內容為張勛視角 年9月15日...
    茶點故事閱讀 41,374評論 3 358
  • 正文 我和宋清朗相戀三年,在試婚紗的時候發現自己被綠了。 大學時的朋友給我發了我未婚夫和他白月光在一起吃飯的照片。...
    茶點故事閱讀 43,591評論 1 374
  • 序言:一個原本活蹦亂跳的男人離奇死亡,死狀恐怖,靈堂內的尸體忽然破棺而出,到底是詐尸還是另有隱情,我是刑警寧澤,帶...
    沈念sama閱讀 39,104評論 5 364
  • 正文 年R本政府宣布,位于F島的核電站,受9級特大地震影響,放射性物質發生泄漏。R本人自食惡果不足惜,卻給世界環境...
    茶點故事閱讀 44,789評論 3 349
  • 文/蒙蒙 一、第九天 我趴在偏房一處隱蔽的房頂上張望。 院中可真熱鬧,春花似錦、人聲如沸。這莊子的主人今日做“春日...
    開封第一講書人閱讀 35,196評論 0 28
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽。三九已至,卻和暖如春,著一層夾襖步出監牢的瞬間,已是汗流浹背。 一陣腳步聲響...
    開封第一講書人閱讀 36,524評論 1 295
  • 我被黑心中介騙來泰國打工, 沒想到剛下飛機就差點兒被人妖公主榨干…… 1. 我叫王不留,地道東北人。 一個月前我還...
    沈念sama閱讀 52,322評論 3 400
  • 正文 我出身青樓,卻偏偏與公主長得像,于是被迫代替她去往敵國和親。 傳聞我的和親對象是個殘疾皇子,可洞房花燭夜當晚...
    茶點故事閱讀 48,554評論 2 379

推薦閱讀更多精彩內容