我的KDD之行 實體提取+TensorFlow+頻繁模式
了解KDD
ACM SIGKDD 國際會議(簡稱 KDD)是由 ACM 的數據挖掘及知識發現專委會(SIGKDD)主辦的數據挖掘研究領域的頂級年會。它為來自學術界、企業界和政府部門的研究人員和數據挖掘從業者進行學術交流和展示研究成果提供了一個理想場所。本屆KDD涵蓋了特邀主題演講(keynote presentations)、論文展板展示(poster sessions)、研討會(workshops)、短期課程(tutorials)、專題討論會(panels)、展覽(exhibits)、系統演示(demonstrations)、KDD CUP 賽事以及開閉幕式等多項內容。了解加拿大
2017年正直加拿大150周年生日,加拿大的各大景點都開展150周年主題的旅游活動,甚至所有國家公園對所有游人免票,所以今年出國加拿大去班芙國家公園是一個很好的選擇。加拿大的官方語言是英語、法語,主要的旅游城市有多倫多、蒙特利爾、卡爾加里等。在多倫多,有個尼日加拉瀑布城是以尼日加拉瀑布為核心的旅游城市,尼亞加拉瀑布(Niagara Falls)位于加拿大安大略省和美國紐約州的交界處,瀑布源頭為尼亞加拉河,主瀑布位于加拿大境內,是瀑布的最佳觀賞地。了解哈里法克斯
哈利法克斯(Halifax),加拿大新斯科舍省的首府,是加拿大大西洋地區的主要經濟中心。本次KDD選在哈利法克斯的世界貿易和會議中心舉行。我的KDD行程
8.12 Registration
8.13 AM 8:00-12:00
Tutorials:T1 Mining Entity-Relation-Attribute Structures from Massive Text Data
8.13 PM 1:00-5:00
Tutorials:T7 Recent Advances in Feature Selection: A Data Perspective
**8.14 AM 8:00-12:00 **
Workshop:W1 Mining and Learning from Time Series
8.14 PM 1:00-5:00
Workshop:W2: Big Data, IoT Streams and Heterogeneous Source Mining
**8.15 AM 8:00-12:00 **
Keynote:Bin Yu ThreePrinciples of Data Science: Predictability,Stability, and Computability
KDD Exhibit Hall
8.15 PM 1:00-5:00
China Chapter Meeting
8.16 AM 8:00-12:00
KDD Business Lunch
8.16 PM 1:00-5:00
KDD Cup Workshop
RT8: Representations
KDD Panel:The Future of Artificially Intelligent Assistants
8.17 AM 8:30-12:00
Hands On Tutorial: TensorFlow
下面我將選講Tutorials T1 Mining Entity-Relation-Attribute Structures from Massive Text Data、Hands On Tutorial: TensorFlow以及開幕式上裴健博士的演講《Pattern Mining Introspection and Prospective》(模式挖掘的回顧與展望)。
- Tutorials:T1 Mining Entity-Relation-Attribute Structures from Massive Text Data
本次教程是從混合文本數據中,挖掘提取實體、關系和屬性(ERA)結構。該講座主要有四個部分,包括:簡介、通過短語挖掘進行實體提取、類型化實體和關系、元模式驅動的屬性挖掘、從文本中發現結構的應用探索、總結和未來方向。
相關論文:Automatic Entity-Relation-Attribute Structure Mining from Massive Text Data. Jingbo Shang, Xiang Ren, Meng Jiang, Jiawei Han. Computer Science, University of Illinois at Urbana-Champaign. August 11, 2017
5.1 簡介
從大量文本數據中挖掘結構
由于大約80%的數據是非結構化的文本數據,因此需要建立從大量文本數據中挖掘結構的任務。知識圖譜
在知識圖譜中,有三個比較重要的概念,分別是實體、關系和屬性。結構挖掘
一個產品案例:TripAdvisor利用NLP從評論文本中挖掘結構化的因子
一個搜索案例:面向集合和實體感知的生物醫學文獻搜索系統
為什么要把文本結構化
結構化的搜索和探索、圖挖掘和網絡分析、因子分類構造、結構化的特征生成現有技術:利用領域專家知識提取結構
本次課程:從混合文本語料中自動挖掘結構
實現各領域應用的快速開發。
提取復雜的結構,而不引入額外的人力。自動的定義:
自動的就是最小化人工參與
僅僅使用存在的通用知識庫,而沒有任何其他人工參與-
自動化結構挖掘的方法論
屏幕快照 2017-08-23 下午4.04.53.png
接下來的四個部分將會介紹著四個主要的關鍵研究成果。5.2 通過短語挖掘進行實體提取
- 相關論文
- Jingbo Shang, Jialu Liu, Meng Jiang, Xiang Ren, Clare R Voss, Jiawei Han, “Automated Phrase Mining from Massive Text Corpora”, submitted to TKDE, under review.
- Jialu Liu, Jingbo Shang, and Jiawei Han, “Phrase Mining from Massive Text and Its Applications”, Synthesis Lectures on Data Mining and Knowledge Discovery, Morgan & Claypool Publishers, 2017.
- Jialu Liu, Jingbo Shang, Chi Wang, Xiang Ren, Jiawei Han, “Mining Quality Phrases from Massive Text Corpora”, in Proc. of 2015 ACM SIGMOD Int. Conf. on Management of Data (SIGMOD’15), Melbourne, Australia, May 2015 (won Grand Prize in Yelp Dataset Challenge, 2015)
- Ahmed El-Kishky, Yanglei Song, Chi Wang, Clare R. Voss, and Jiawei Han, “Scalable Topical Phrase Mining from Text Corpora”, PVLDB 8(3): 305 - 316, 2015. Also, in Proc. 2015 Int. Conf. on Very Large Data Bases (VLDB’15), Kohala Coast, Hawaii, Sept. 2015.
-
定義:優質的短語挖掘
從大規模文檔集合中按照質量遞減的順序挖掘短語
-
那么什么樣的短語是“優質的”呢
- 頻繁(Popularity)
- 一致(Concordance)
- 有信息的(Informativeness)
- 完整(Completeness)
-
監督學習方法(語言學分析)
語法樹、分塊
-
無監督學習方法(統計信號)
限制1:??應慎重選擇閾值
限制2:只考慮了滿足要求的優質短語的子集
限制3:??以無監督的方式組合不同的信號是困難的 -
半/弱監督學習方法
SegPhrase、AutoPhrase
5.3 類型化實體和關系
- 相關論文
- Liyuan Liu, Xiang Ren, Qi Zhu, Shi Zhi, Huan Gui, Heng Ji and Jiawei Han, “Heterogeneous Supervision for Relation Extraction: A Representation Learning Approach”, in Proc. of 2017 Conf. on Empirical Methods in Natural Language Processing (EMNLP’17), Copenhagen, Denmark, Sept. 2017
- Xiang Ren, Zeqiu Wu, Wenqi He, Meng Qu, Clare Voss, Heng Ji, Tarek Abdelzaher and Jiawei Han, “CoType: Joint Extraction of Typed Entities and Relations with Knowledge Bases”, in Proc. of 2017 World-Wide Web Conf. (WWW’17), Perth, Australia, Apr. 2017.
- Xiang Ren, Wenqi He, Meng Qu, Lifu Huang, Heng Ji, and Jiawei Han, “AFET: Automatic Fine-Grained Entity Typing by Hierarchical Partial-Label Embedding”, in Proc. of 2016 Conf. on Empirical Methods in Natural Language Processing (EMNLP’16), Austin, TX, Nov. 2016
- Xiang Ren, Wenqi He, Meng Qu, Clare R. Voss, Heng Ji, Jiawei Han, “Label Noise Reduction in Entity Typing by Heterogeneous Partial-Label Embedding”, in Proc. of 2016 ACM SIGKDD Conf. on Knowledge Discovery and Data Mining (KDD’16), San Francisco, CA, Aug. 2016
- Xiang Ren, Ahmed El-Kishky, Chi Wang, Fangbo Tao, Clare R. Voss, Heng Ji, Jiawei Han, “ClusType: Effective Entity Recognition and Typing by Relation Phrase-Based Clustering”, in Proc. of 2015 ACM SIGKDD Int. Conf. on Knowledge Discovery and Data Mining (KDD’15), Sydney, Australia, Aug. 2015
限制:1.一個實體對應多個含義;2.不同實體可能對應同一個含義
-
CoType
5.4 元模式驅動的屬性挖掘
- 相關論文
- Meng Jiang, Jingbo Shang, Taylor Cassidy, Xiang Ren, Lance Kaplan, Timothy Hanratty and Jiawei Han, “MetaPAD: Meta Patten Discovery from Massive Text Corpora”, in Proc. of 2017 ACM SIGKDD Int. Conf. on Knowledge Discovery and Data Mining (KDD’17), Halifax, Nova Scotia, Canada, Aug. 2017
-
定義:屬性挖掘
5.5 從文本中發現結構的應用探索
- 相關論文
- Huan Gui, Qi Zhu, Liyuan Liu, Aston Zhang, and Jiawei Han, “Expert Finding in Heterogeneous BibliographicNetworks with Locally-trained Embeddings”, submitted for publication
- Jiaming Shen, Zeqiu Wu, Dongming Lei, Jingbo Shang, Xiang Ren, Jiawei Han, “SetExpan: Corpus-based Set Expansion via Context Feature Selection and Rank Ensemble”, in Proc. of 2017 European Conf. on Machine Learning and Principles and Practice of Knowledge Discovery in Databases (ECMLPKDD’17), Skopje, Macedonia, Sept. 2017
- Meng Qu, Xiang Ren and Jiawei Han, “Automatic Synonym Discovery with Knowledge Bases”, in Proc. of 2017 ACM SIGKDD Int. Conf. on Knowledge Discovery and Data Mining (KDD’17), Halifax, Nova Scotia, Canada, Aug. 2017
- Fangbo Tao, Honglei Zhuang, Chi Wang Yu, Qi Wang, Taylor Cassidy, Lance Kaplan, Clare Voss, Jiawei Han, “Multi-Dimensional, Phrase-Based Summarization in Text Cubes”, Data Eng. Bulletin 39(3), Sept. 2016, pp. 74-84.
- Jialu Liu, Xiang Ren, Jingbo Shang, Taylor Cassidy, Clare Voss and Jiawei Han, “Representing Documents via Latent Keyphrase Inference”, in Proc. of 2016 Int. World-Wide Web Conf. (WWW’16), Montreal, Canada, April 2016
應用1:語義搜索
應用2:反面新聞
應用3:關鍵短語篩選
-
應用4:實體擴展
5.6 總結和未來方向
- Hands On Tutorial: TensorFlow
Github Repository: tensorflow-workshop
在example目錄下,包含本次教程的8個文件。
- 00_test_install.ipynb
測試安裝環境,numpy>=1.12.1,jupyter,matplotlib,pandas,Pillow,tensorflow>=1.3.0 - 01_linear_regression_low_level.ipynb
對模擬數據進行線性回歸,并利用TensorBoard進行可視化計算圖和相關變量。 - 02_logistic_regression_low_level.ipynb
對MNIST數據進行邏輯回歸,準確率大于90% - 03_deep_neural_network_low_level.ipynb
對MNIST數據進行深度全連接網絡訓練,準確率大于97% - 04_canned_estimators.ipynb
對MNIST數據使用Estimators來簡化數據、會話、可視化操作,準確率大于97% - 05_custom_estimators.ipynb
對MNIST數據使用Estimators的tf.layers來自定義網絡結構,準確率大于97.5% - 06_convolutional_neural_network.ipynb
對MNIST數據使用Estimators的tf.layers定義CNN網絡,準確率大于99% - 07_structured_data.ipynb
對UCI的Adult數據使用Datasets API and Estimators,進行DataFrame的結構化數據操作
-
KDD 2017 Opening Session:Pattern Mining Introspection and Prospective
- 前序:啤酒和尿布的故事
什么樣的產品組合是顧客頻繁一起購買的?
頻繁模式:在數據集中頻繁出現的組合
是數據集探索的一個自然的任務 - 頻繁模式的應用
在商店中利用頻繁模式對商品布局優化
在web搜索中對于頻繁的關鍵詞進行推薦
在化工設計中的頻繁子圖
在社交網絡中的頻繁結構
在自然語言處理和理解中的頻繁路徑 - Aprioir算法:候選集的生成和測試
- Apriori算法的提升
主要的觀點:1.減少掃描的次數;2.加速候選集的匹配和計數;3.減少候選集的數量
典型的方法:基于hash的技術,事務約簡,分隔,采樣,動態項目集計數 - 突破:FP-Growth
數據壓縮:聚焦搜索;數據投影:無候選集生成;有約束的頻繁模式挖掘 - 其他的深度優先搜索算法
樹投影(C. Aggarwal),垂直形式TID集合遍歷(M.J. Zaki) - PrefixScan:挖掘序列模式
- 頻繁圖模式
挑戰:如何有效枚舉結構模式?如何有效構建映射數據集?
在圖數據庫中頻繁圖挖掘
在大規模圖中生成頻繁子圖實例 - 關聯圖挖掘 On mining Cross-Graph Quasi-Cliques, KDD, 2004
- 為什么頻繁模式挖掘是重要的?
許多應用:客戶分析、推薦、軟件bug檢測、事件檢測、圖像和多媒體數據挖掘、化學和生物應用
促進了其他主要的數據挖掘任務:分類、聚類、異常值檢測、web挖掘
索引和檢索:頻繁模式作為特征 - 利用頻繁模式進行分類
如果一個頻繁模式X與類C有很強的關聯性,那么X->C提供了一個很強的分類能力
CBA(基于分類的關聯)
CMAR(多分類關聯規則)
DPClass(判別式基于模式的分類) - 利用頻繁模式進行聚類 MaPle, ICDM 2003
- 基于三維模式的聚類
Mining Coherent Gene Clusters from Three-Dimensional Microarray Data, KDD 2004, Best Application Paper Award Runner-up - 在Web搜索中頻繁模式的應用
Context-Aware Query Suggestion by Mining Click-Through and Session Data, KDD 2008, Best Application Paper Award - 顛覆:深度學習
高準確率、高魯棒性、適合大規模高維度數據集 - 存在的挑戰
普遍性:深度學習要求大量的數據來泛化、解釋性、
探索:深度模型擅長回答問題不擅長解決開放性問題 - 基于模式的思考
模式:數據的總結和概況:一個模式是一個局部模型
很好的解釋性;對于探索和思考很好的工具
模式的組合可能生成深度模型:強有力的證據和見解, 深度森林 [Zhi-Hua Zhou et al., IJCAI 2017] - 一個根本的挑戰
想法:深度模型+模式 - 模式挖掘和深度模型的結合
是否能夠同時取得更高的準確率和更好的解釋性?
想法:從深度模型中學習- 將特征空間分為多個局部區域;
- 估計深度模型非線性的決策邊界,通過從一些模式中分段學習線性決策邊界
- 結論
模式和模式挖掘已經被證明是有意義并且實用的
模式挖掘適用于數據
模式挖掘對于數據科學和數據探索是一個基本的工具
- 前序:啤酒和尿布的故事
關于作者:如有問題請聯系 xzhren@pku.edu.cn