Spark MLlib機器學習開發指南(4)--特征提取--TF-IDF

基于最新2.2.0版本翻譯

本節介紹和特征一起工作的算法，大致分為以下幾類：

提取：從原始數據提取特征
轉換：縮放，轉換，或者修改特征
選擇：從一個大的特征集合里面選擇一個子集
局部敏感哈希(LSH)：這類算法能將特征變換與其他算法相結合

特征提取
- TF-IDF
- Word2Vec
- CountVectorizer
特征轉換
- 標記生成器(Tokenizer)
- 停用詞移除器(StopWordsRemover)
- n-gram
- 二值化
- PCA
- 多項式展開(PolynomialExpansion)
- 離散余弦變換(Discrete Cosine Transform DCT)
- StringIndexer
- IndexToString
- OneHotEncoder
- VectorIndexer
- Interaction
- Normalizer
- StandardScaler
- MinMaxScaler
- MaxAbsScaler
- Bucketizer
- ElementwiseProduct
- SQLTransformer
- VectorAssembler
- QuantileDiscretizer
- Imputer
特征選擇
- VectorSlicer
- RFormula
- ChiSqSelector
局部敏感哈希
- LSH操作
  - 特征轉換
  - 近似相似性join
  - 近似最近鄰搜索
- LSH算法
  - 歐幾里德距離的隨機投影
  - Jaccard距離最小hash

特征提取

TF-IDF
TF-IDF是在文本挖掘中廣泛使用的特征向量化方法，以反映語料庫中文檔的詞語的重要性。用t表示一個詞，d表示一篇文檔，D表示文檔集，詞頻TF(t, d)表示表示文檔d中詞t的個數，文檔頻率DF(t,D)表示在文檔集D中詞t出現的個數。如果我們僅僅用詞頻衡量重要性，非常容易出現那些頻頻繁出現的詞如the,of但表示出很少和文檔有關的信息。如果一個詞語在語料庫中經常出現，這意味著它不攜帶關于特定文檔的特殊信息。逆文檔頻率IDF是一個詞語能提供多少信息的數值化表示。

IDF(t,D)=log((|D|+1)/(DF(t, D) + 1))

在這里，|D|是語料的總文檔數，由于使用對數，如果一個詞出現在所有文檔中，則IDF值為0，應用平滑項以避免分母為0。TF-IDF是度量TF和IDF的產物：

TF-IDF(t,d,D)=TF(t,d)*IDF(t,D)

詞頻和文檔頻率有很多定義的方法。在MLlib，我們分離TF和IDF，使其靈活。
TF：HashingTF和CountVectorizer都可以用來生成詞頻向量。
HashingTF是一個轉換器，它接受詞集合輸入，并將這些集合轉換為固定長度的特征向量。
在文本處理中，一個詞語集合也許是一個詞袋。HashingTF利用哈希技巧。原始特征被映射到索引通過使用Hash函數。Hash函數使用MurmurHash 3,然后根據映射的索引計算詞頻。這個方法避免了在大語料上成本昂貴的全局詞索引map的計算方式，但是會存在潛在的hash沖突，也就是不同的詞特征在hash后被映射成相同的詞。為了減少沖突的機會，我們可以增加目標特征維度，即散列表的桶數。由于使用簡單的模數將散列函數轉換為列索引，建議使用兩個冪作為特征維，否則不會將特征均勻地映射到列。默認的特征維度為2^18=262,144.可選的二進制切換參數控制詞頻計數。當設置為true時，所有非零頻率計數設置為1.對于模擬二進制而不是整數計數的離散概率模型特別有用。
CountVectorizer 將一個文本文檔轉成詞數向量，具體參考CountVectorizer
IDF:IDF是一個估計器，通過擬合數據集產生一個IDFModel。IDFModel輸入特征向量（通過由HashingTF 或者 CountVectorizer創建）并且縮放每列。直觀地說，它減少了在語料庫中頻繁出現的列。
注意：spark.ml 不提供文本分詞，我們參照Stanford NLP Group和scalanlp/chalk.

示例
在下面的代碼段中，我們從一組句子開始。我們用Tokenizer將每個句子分成單詞。
對于每個句子（包的單詞），我們使用HashingTF將該句子哈希成特征向量。我們使用IDF來重新縮放特征向量;這通常在使用文本作為功能時提高性能。然后，我們的特征向量可以被傳遞給學習算法。
參考HashingTF Scala docs和IDF Scala docs獲得更詳細的API

import org.apache.spark.ml.feature.{HashingTF, IDF, Tokenizer}

val sentenceData = spark.createDataFrame(Seq(
  (0.0, "Hi I heard about Spark"),
  (0.0, "I wish Java could use case classes"),
  (1.0, "Logistic regression models are neat")
)).toDF("label", "sentence")

val tokenizer = new Tokenizer().setInputCol("sentence").setOutputCol("words")
val wordsData = tokenizer.transform(sentenceData)

val hashingTF = new HashingTF()
  .setInputCol("words").setOutputCol("rawFeatures").setNumFeatures(20)

val featurizedData = hashingTF.transform(wordsData)
// alternatively, CountVectorizer can also be used to get term frequency vectors

val idf = new IDF().setInputCol("rawFeatures").setOutputCol("features")
val idfModel = idf.fit(featurizedData)

val rescaledData = idfModel.transform(featurizedData)
rescaledData.select("label", "features").show()

完整示例請參考spark倉庫examples/src/main/scala/org/apache/spark/examples/ml/TfIdfExample.scala

最后編輯于：2017.12.10 07:56:53

?著作權歸作者所有,轉載或內容合作請聯系作者
平臺聲明：文章內容（如有圖片或視頻亦包括在內）由作者上傳并發布，文章內容僅代表作者本人觀點，簡書系信息發布平臺，僅提供信息存儲服務。

人面猴
序言：七十年代末，一起剝皮案震驚了整個濱河市，隨后出現的幾起案子，更是在濱河造成了極大的恐慌，老刑警劉巖，帶你破解...
沈念sama閱讀 230,501評論 6贊 544
死咒
序言：濱河連續發生了三起死亡事件，死亡現場離奇詭異，居然都是意外死亡，警方通過查閱死者的電腦和手機，發現死者居然都...
沈念sama閱讀 99,673評論 3贊 429
救了他兩次的神仙讓他今天三更去死
文/潘曉璐我一進店門，熙熙樓的掌柜王于貴愁眉苦臉地迎上來，“玉大人，你說我怎么就攤上這事。” “怎么了？”我有些...
開封第一講書人閱讀 178,610評論 0贊 383
道士緝兇錄：失蹤的賣姜人
文/不壞的土叔我叫張陵，是天一觀的道長。經常有香客問我，道長，這世上最難降的妖魔是什么？我笑而不...
開封第一講書人閱讀 63,939評論 1贊 318
?港島之戀（遺憾婚禮）
正文為了忘掉前任，我火速辦了婚禮，結果婚禮上，老公的妹妹穿的比我還像新娘。我一直安慰自己，他們只是感情好，可當我...
茶點故事閱讀 72,668評論 6贊 412
惡毒庶女頂嫁案：這布局不是一般人想出來的
文/花漫我一把揭開白布。她就那樣靜靜地躺著，像睡著了一般。火紅的嫁衣襯著肌膚如雪。梳的紋絲不亂的頭發上，一...
開封第一講書人閱讀 56,004評論 1贊 329
城市分裂傳說
那天，我揣著相機與錄音，去河邊找鬼。笑死，一個胖子當著我的面吹牛，可吹牛的內容都是我干的。我是一名探鬼主播，決...
沈念sama閱讀 44,001評論 3贊 449
雙鴛鴦連環套：你想象不到人心有多黑
文/蒼蘭香墨我猛地睜開眼，長吁一口氣：“原來是場噩夢啊……” “哼！你這毒婦竟也來了？” 一聲冷哼從身側響起，我...
開封第一講書人閱讀 43,173評論 0贊 290
萬榮殺人案實錄
序言：老撾萬榮一對情侶失蹤，失蹤者是張志新（化名）和其女友劉穎，沒想到半個月后，有當地人在樹林里發現了一具尸體，經...
沈念sama閱讀 49,705評論 1贊 336
?護林員之死
正文獨居荒郊野嶺守林人離奇死亡，尸身上長有42處帶血的膿包…… 初始之章·張勛以下內容為張勛視角年9月15日...
茶點故事閱讀 41,426評論 3贊 359
?白月光啟示錄
正文我和宋清朗相戀三年，在試婚紗的時候發現自己被綠了。大學時的朋友給我發了我未婚夫和他白月光在一起吃飯的照片。...
茶點故事閱讀 43,656評論 1贊 374
活死人
序言：一個原本活蹦亂跳的男人離奇死亡，死狀恐怖，靈堂內的尸體忽然破棺而出，到底是詐尸還是另有隱情，我是刑警寧澤，帶...
沈念sama閱讀 39,139評論 5贊 364
?日本核電站爆炸內幕
正文年R本政府宣布，位于F島的核電站，受9級特大地震影響，放射性物質發生泄漏。R本人自食惡果不足惜，卻給世界環境...
茶點故事閱讀 44,833評論 3贊 350
男人毒藥：我在死后第九天來索命
文/蒙蒙一、第九天我趴在偏房一處隱蔽的房頂上張望。院中可真熱鬧，春花似錦、人聲如沸。這莊子的主人今日做“春日...
開封第一講書人閱讀 35,247評論 0贊 28
一樁弒父案，背后竟有這般陰謀
文/蒼蘭香墨我抬頭看了看天上的太陽。三九已至，卻和暖如春，著一層夾襖步出監牢的瞬間，已是汗流浹背。一陣腳步聲響...
開封第一講書人閱讀 36,580評論 1贊 295
情欲美人皮
我被黑心中介騙來泰國打工，沒想到剛下飛機就差點兒被人妖公主榨干…… 1. 我叫王不留，地道東北人。一個月前我還...
沈念sama閱讀 52,371評論 3贊 400
代替公主和親
正文我出身青樓，卻偏偏與公主長得像，于是被迫代替她去往敵國和親。傳聞我的和親對象是個殘疾皇子，可洞房花燭夜當晚...
茶點故事閱讀 48,621評論 2贊 380

三个男躁一个女,国精产品一区一手机的秘密,麦子交换系列最经典十句话,欧美国产综合欧美视频

Spark MLlib機器學習開發指南(4)--特征提取--TF-IDF

Spark MLlib機器學習開發指南(4)--特征提取--TF-IDF

特征提取

推薦閱讀更多精彩內容

三个男躁一个女,国精产品一区一手机的秘密,麦子交换系列最经典十句话,欧美 国产 综合 欧美 视频

Spark MLlib機器學習開發指南(4)--特征提取--TF-IDF

特征提取

推薦閱讀更多精彩內容

三个男躁一个女,国精产品一区一手机的秘密,麦子交换系列最经典十句话,欧美国产综合欧美视频