基于汽車垂直媒體網(wǎng)站和門戶汽車頻道,維護(hù)一個全網(wǎng)汽車行為的行為特征配置庫

這個是去年夏天開始參與的一個任務(wù),斷斷續(xù)續(xù)到年前差不多維護(hù)的比較完善了。

任務(wù)目的是,要做購車人群的目標(biāo)人群定向的時候,怎么從為某一類型行為、或者某一個垂直細(xì)分市場,基于公開的數(shù)據(jù),維護(hù)一個汽車關(guān)注行為特征的配置庫。

比如,我們想比較一下“傾向買10萬左右整車進(jìn)口的潛客”和“傾向買10萬左右國產(chǎn)合資品牌車”的潛客,他們的選車考量因素和購車習(xí)慣有什么不同嗎?

假設(shè)我們可以有這些人群的上網(wǎng)行為信息,我們可以知道哪些cookie在什么時候,訪問的完整的URL,這些網(wǎng)站也包括垂直汽車媒體和門戶的汽車頻道。

那么通過正則表達(dá)式,我們可以識別URL所代表的行為類型,可以是,比如:a0 =品牌\工廠\車系\車型信息列表頁,a1 = 查看品牌/工廠信息,a2 = 查看車系信息,a3 = 查看車型信息,a4 = 查看車型價格,a5 = 查看車型口碑,b0 = 車型圖片列表頁,c2 = 查看測評文章,e2 = 查看試駕活動,e3 = 團(tuán)購,f0 = 對比車型,g0 = 二手車,m2 = 申請車貸,等等。

也可以從URL行為中解析出,車型信息、車系信息、經(jīng)銷商ID等信息。

這樣如果我們能把一個ID在汽車垂直媒體和門戶汽車頻道的所有的URL都解析出來,那么對這個人的購車階段和購車意向無疑會有比較好的了解。

于是,這就是我前面提到的這個任務(wù),就是,我們就需要一個完整的信息庫,不僅有完整的車系和車型信息,還要有商品標(biāo)簽。

問題來了,我怎么能方便的知道,汽車之家對于CS35的車系的代碼比如123,和愛卡汽車隊與CS35的代碼‘a(chǎn)bc456’,其實是同一個車系呢?車型也類似。

比如主流的汽車媒體,汽車之家,愛卡,易車,騰訊汽車頻道,還有很多的汽車團(tuán)購、汽車資訊網(wǎng)站。

所以我們需要一個數(shù)據(jù)庫,里面有各個車型、車系、品牌、廠商,在各個汽車媒體站的ID,對應(yīng)到自己的統(tǒng)一ID上。這樣,無論我得到這些汽車媒體站的任何的URL,我都能解析出來,實際這個行為對應(yīng)的是哪個車系和車型。

所以,我們做的事情就是:

1)爬取這些媒體站的高頻URL,全站的全部URL都爬下來也不可取,可以把主要頻道的URL爬下來。

2)用正則表達(dá)式解析出URL中的業(yè)務(wù)參數(shù),比如,車系,品牌,車廠,車型,等等。

有了車系和車型后,元數(shù)據(jù)的記錄就會有,國別,價格,配置,口碑,等信息。

3)設(shè)計自己的元數(shù)據(jù)體系,比如,第一級,廠商和品牌有交叉關(guān)系,比如,長安馬自達(dá)、一汽馬自達(dá),等等。

下面是車系,再下面是經(jīng)銷商。經(jīng)銷商和車系車型又是網(wǎng)狀關(guān)系。

4)把爬取到的各站參數(shù),統(tǒng)一到自己設(shè)計的車系、車型參數(shù)上來。

5)維護(hù)潛客ID,和行為參數(shù)之間的對應(yīng)關(guān)系。

6)做一些應(yīng)用BI,比如,查看和某車系的潛客交叉最多的車系是哪個車系,競爭交叉最嚴(yán)重的品牌是誰,在同價位競爭的SUV是誰、B級轎車是誰,等等。

又比如,某個車系的潛客,在哪個門戶網(wǎng)站的汽車頻道或者垂直媒體上占比最多?這些信息,對于營銷廣告投放都很有意義。

這樣,通過常規(guī)的維護(hù),以后,當(dāng)需要知道某個車系的潛客,某個價位的潛客行為,某車長某關(guān)鍵配置的國產(chǎn)/進(jìn)口車的人群畫像,的時候,就可以從庫里得到一個初步的數(shù)據(jù)素材了。

前段時間,我花時間比較多的,在第4)步上。

關(guān)于多站的車型車系ID,怎么打通,也有不少的坑。剛開始,想車系的數(shù)量級大概在2000左右,而車型的數(shù)量級在3萬左右,明顯是車系更容易對應(yīng)。

但是,經(jīng)過一研究發(fā)現(xiàn),其實除了車型是汽車廠定義好的之外,車系其實各個站點的劃分方法是可以不同的,比如,朗逸,可以有經(jīng)典朗逸,可以有新朗逸,或者朗逸二代,三代;有的站點,都算一個車系叫朗逸,有的卻劃分成好幾個細(xì)分的車系。所以,看一個新朗逸的人,不一定就是關(guān)注整個朗逸。

所以,想了想,還是先匹配車型比較合理。因為一個車型只可能屬于一個唯一的車系,車型匹配上之后,再根據(jù)車型的匹配,定義自己的車系庫的車系代碼,自己的車系代碼和幾個汽車資訊站的車系的代碼的關(guān)系也就確定了。

車型的比對也不容易,各個站的車型的個數(shù)都是上萬,而且車型的名稱,配置信息常常有錯誤,有的站連廠商指導(dǎo)價、手動還是自動,這樣的信息都會維護(hù)錯,肉眼看都不知道哪個車型應(yīng)該對哪個車型,有程序自動匹配,也只能盡量匹配了。

還要考慮每個月都有會有的新車系、新車型,怎么持續(xù)的加入到自己維護(hù)的信息庫里,也是需要考慮的。

試了幾種方法:

1)根據(jù)名稱、價位、車長、軸距,等參數(shù)給他們的相似度打分,由此判斷汽車之家的車型代碼567和愛卡汽車的車型代碼345是不是同一個車型。

2)后來發(fā)現(xiàn)python有個函數(shù)fuzzywuzzy,直接可以用來判斷兩個字符串的相似度。

3)最后還有一個方法可以檢驗,使用爬蟲,批量的用車系名稱,在汽車媒體和門戶汽車頻道里搜索,這樣批量的得到一個車系名稱在網(wǎng)站對應(yīng)的參數(shù)ID。比如,用‘新朗逸’當(dāng)搜索關(guān)鍵字,在汽車媒體和門戶汽車頻道里搜索,出來的ID,就是新朗逸的車系代碼。不過這個方法還要注意:有的網(wǎng)站搜索引擎不是精準(zhǔn)匹配,即使沒找到這個車系,也會返回一個推薦車系。

最后,再發(fā)動大家人工看一遍車系,大概2000多車系,一個小時也就掃描完了。總比人工查找要靠譜點。

這也是剛開始沒有經(jīng)驗,在積累元數(shù)據(jù)庫的時候遇到的一些問題。其實,現(xiàn)在想想,完全可以去‘乘聯(lián)會’或者什么汽車行業(yè)協(xié)會里找到更多的借鑒的行業(yè)元數(shù)據(jù)庫。

最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
平臺聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點,簡書系信息發(fā)布平臺,僅提供信息存儲服務(wù)。

推薦閱讀更多精彩內(nèi)容