之前為了做房源標簽,單獨讀過這本書的第五章,受益匪淺。
最近隨手翻了下,發現其他章節的內容也干貨十足,堪稱機器學習的實踐范本,索性一口氣讀完。
希望通過閱讀,了解1.在美團的業務場景下,NLP/推薦/搜索落地的應用思路。 2.策略算法的思維框架
6.POI實體鏈接
美團的到店業務,是基于一個個POI實體展開的服務,如何保證POI實體的信息質量穩定、完整、優質,是保證業務流程性的基礎核心點。
6.1 背景與難點
難點:
- 業務規模龐大,業務種類多,在這個背景下,如何保證 POI實體 間1V1、1VN的正確關系
主要思路:
- 通過聚類的方式進行POI聚合
- 通過建立索引的方式縮小比較候選集
問題轉化為,如何計算兩個POI間的相似度;如何確定候選集范圍。
6.2 國內酒店POI實體鏈接解決方案
如何計算兩個POI間的相似度
step1
梳理所有和POI相關的信息維度。
step 2
確認特征維度
從業務角度看,找尋一家酒店,不可或缺的信息是:
名稱、地址、電話、經緯度
step 3
特征生成
- 名稱解析模塊:分詞,解析出<城市+品牌+酒店類型>。
- 地址解析模塊:從酒店地址中,抽取出省、市行政區、接到、所在樓層、對應地標等關鍵信息。
- 電話解析模塊:通過規則與正則匹配的方式,解析出國家碼、區域碼、號碼本體以及分機號碼等組成。
- 經緯度解析模塊:計算兩個經緯度之間的距離,結果做為特征。
通過分詞、字符串相似、規則、正則匹配等方式,解析所需要的信息,生成特征。
6.3 其他場景的策略
景點POI鏈接:因為景點POI和酒店的特點不同,例如多個電話、地址寫法混亂導致解析效果差等,需要調高POI名稱的權重并且增大索引顆粒度。
7.評論挖掘
用戶更傾向于看到或者聽到同類用戶的親身體驗以及自身反饋,例如購買過同類產品的用戶的評價,對比使用過同類用戶的親身體驗及自身反饋。
整體的挖掘可以分為三個步驟:
- 定義挖掘的粒度
- 定義挖掘的維度
- 整合
7.1 挖掘的粒度
對社交網絡或者在線電商,評論描述僅針對單條信息或者單個商品,那么,對于商品粒度的評價體系進行挖掘,理應成為業界的關注焦點。
美團因業務不同,更關注對于POI的描述,及關注對酒店的描述大于對酒店一類房型的描述。
因此,最終評論顆粒度定位在POI粒度。
7.1.2 評論挖掘的維度
在明確了評論挖掘的顆粒度后,我們需要對評論挖掘的維度進行闡述,也就是通常所說的標簽維度。
同樣稱為標簽,評論挖掘的中的標簽與用戶畫像中的標簽卻有很多不同之處。最明顯的差異在于,用戶畫像中的標簽是對C端用戶進行屬性挖掘和行為構建,而評論挖掘中的標簽則是對B端商家進行硬件側面的挖掘和服務層面的判定。
7.1.3 評論挖掘的整合思考
7.2 評論標簽的提取
10.推薦在O2O場景中的應用
10.2 O2O推薦場景的特點
以美團移動端推薦為例,O2O推薦場景與其他推薦的區別具體包括如下三點:
- 地理位置因素,特別是對于美食、酒店、外賣等業務,用戶傾向于使用附近商家的服務。
- 用戶歷史行為,新聞或者資訊推薦,用戶看了一遍就不看了,與新聞推薦不同,一家味道好的店,用戶可能會反復光顧,從具體數據看的,大量用戶會產生重復點擊和重復購買行為。
- 實時推薦,一是地理位置,推薦需要考慮用哪個胡的實時位置,二是O2O場景的即時消費性,例如美食、外賣、電影等都是高頻消費,用戶從考慮到最終下單時間非常短,所以推薦必須要實時,并且根據用戶的實時反饋調整推薦內容。
10.3 美團推薦系統框架圖
10.4 美團推薦實踐-推薦召回
- 基于協同過濾的召回
- 基于位置的召回
- 基于搜索查詢的召回
- 基于圖的召回
- 基于實時用戶行為的召回
- 替補策略,冷啟動,熱銷單、好評單、城市單