
1,TF?IDF算法 TF是指歸一化后的詞頻,IDF是指逆文檔頻率。給定一個文檔集合D,有d1,d2,d3,......,dn∈D。文檔集合總共...
搜索意圖識別: Query分析: 分詞:切詞,pinyin分詞 查詢類目預測: Query改寫: Query改寫本質上是要找到和原始Query相...
在搜索過程中,需要使用同義詞來達到提高召回的目的,例如用戶搜索:口紅,但是商品名稱卻不含口紅關鍵詞,比如商品名為:xxx彩色唇膏。但其實兩個詞是...
從最開始的邏輯回歸到后來的CNN,RNN,我們經常會聽到激活函數這個詞,也經常會聽到sigmod函數會造成神經網絡梯度消失,BN為什么能緩解梯度...
在模型的評估與調整的過程中,經常會遇到過擬合與欠擬合的情況,如何有效的識別過擬合和欠擬合現象,并了解其中原因,有效的對模型進行調整。 什么是過擬...
最近朋友面試有被問到文本聚類問題,總結如下: 聚類分析,又稱群分析,它是研究(樣品或指標)分類問題的一種統計分析方法,以相似性為基礎,在一個聚類...
1.RNN解決了什么問題? RNN主要用來解決序列問題,強調的是先后順序,在NLP中引申出上下文的概念,一個翻譯問題,這個詞的含義可能和前后的單...
Xgboost無論是工業界還是kaggle比賽效果都很好,學習過程中看了很多博客依然理解的不是很好,自己比較菜,看了陳天奇大神PPT清晰了很多,...
最近被問到熱詞挖掘,幾種挖掘場景用到的算法思路都比較接近,特整理思路如下,做以后參考。 幾個熱詞挖掘常見場景: 搜索query熱詞挖掘 輿情長文...