[KDD之行] 實體提取+TensorFlow+頻繁模式

我的KDD之行 實體提取+TensorFlow+頻繁模式

  1. 了解KDD
    ACM SIGKDD 國際會議(簡稱 KDD)是由 ACM 的數據挖掘及知識發現專委會(SIGKDD)主辦的數據挖掘研究領域的頂級年會。它為來自學術界、企業界和政府部門的研究人員和數據挖掘從業者進行學術交流和展示研究成果提供了一個理想場所。本屆KDD涵蓋了特邀主題演講(keynote presentations)、論文展板展示(poster sessions)、研討會(workshops)、短期課程(tutorials)、專題討論會(panels)、展覽(exhibits)、系統演示(demonstrations)、KDD CUP 賽事以及開閉幕式等多項內容。

  2. 了解加拿大
    2017年正直加拿大150周年生日,加拿大的各大景點都開展150周年主題的旅游活動,甚至所有國家公園對所有游人免票,所以今年出國加拿大去班芙國家公園是一個很好的選擇。加拿大的官方語言是英語、法語,主要的旅游城市有多倫多、蒙特利爾、卡爾加里等。在多倫多,有個尼日加拉瀑布城是以尼日加拉瀑布為核心的旅游城市,尼亞加拉瀑布(Niagara Falls)位于加拿大安大略省和美國紐約州的交界處,瀑布源頭為尼亞加拉河,主瀑布位于加拿大境內,是瀑布的最佳觀賞地。

  3. 了解哈里法克斯
    哈利法克斯(Halifax),加拿大新斯科舍省的首府,是加拿大大西洋地區的主要經濟中心。本次KDD選在哈利法克斯的世界貿易和會議中心舉行。

  4. 我的KDD行程
    8.12 Registration
    8.13 AM 8:00-12:00
    Tutorials:T1 Mining Entity-Relation-Attribute Structures from Massive Text Data
    8.13 PM 1:00-5:00
    Tutorials:T7 Recent Advances in Feature Selection: A Data Perspective
    **8.14 AM 8:00-12:00 **
    Workshop:W1 Mining and Learning from Time Series
    8.14 PM 1:00-5:00
    Workshop:W2: Big Data, IoT Streams and Heterogeneous Source Mining
    **8.15 AM 8:00-12:00 **
    Keynote:Bin Yu ThreePrinciples of Data Science: Predictability,Stability, and Computability
    KDD Exhibit Hall
    8.15 PM 1:00-5:00
    China Chapter Meeting
    8.16 AM 8:00-12:00
    KDD Business Lunch
    8.16 PM 1:00-5:00
    KDD Cup Workshop
    RT8: Representations
    KDD Panel:The Future of Artificially Intelligent Assistants
    8.17 AM 8:30-12:00
    Hands On Tutorial: TensorFlow

下面我將選講Tutorials T1 Mining Entity-Relation-Attribute Structures from Massive Text Data、Hands On Tutorial: TensorFlow以及開幕式上裴健博士的演講《Pattern Mining Introspection and Prospective》(模式挖掘的回顧與展望)。

  1. Tutorials:T1 Mining Entity-Relation-Attribute Structures from Massive Text Data
本次教程是從混合文本數據中,挖掘提取實體、關系和屬性(ERA)結構。該講座主要有四個部分,包括:簡介、通過短語挖掘進行實體提取、類型化實體和關系、元模式驅動的屬性挖掘、從文本中發現結構的應用探索、總結和未來方向。
相關論文:Automatic Entity-Relation-Attribute Structure Mining from Massive Text Data. Jingbo Shang, Xiang Ren, Meng Jiang, Jiawei Han. Computer Science, University of Illinois at Urbana-Champaign. August 11, 2017 
5.1 簡介
  • 從大量文本數據中挖掘結構
    由于大約80%的數據是非結構化的文本數據,因此需要建立從大量文本數據中挖掘結構的任務。

  • 知識圖譜
    在知識圖譜中,有三個比較重要的概念,分別是實體、關系和屬性。

  • 結構挖掘

  • 一個產品案例:TripAdvisor利用NLP從評論文本中挖掘結構化的因子

  • 一個搜索案例:面向集合和實體感知的生物醫學文獻搜索系統

  • 為什么要把文本結構化
    結構化的搜索和探索、圖挖掘和網絡分析、因子分類構造、結構化的特征生成

  • 現有技術:利用領域專家知識提取結構

  • 本次課程:從混合文本語料中自動挖掘結構
    實現各領域應用的快速開發。
    提取復雜的結構,而不引入額外的人力。

  • 自動的定義:
    自動的就是最小化人工參與
    僅僅使用存在的通用知識庫,而沒有任何其他人工參與

  • 自動化結構挖掘的方法論

    屏幕快照 2017-08-23 下午4.04.53.png
    屏幕快照 2017-08-23 下午4.04.53.png

    接下來的四個部分將會介紹著四個主要的關鍵研究成果。

    5.2 通過短語挖掘進行實體提取

  • 定義:優質的短語挖掘

    從大規模文檔集合中按照質量遞減的順序挖掘短語

  • 那么什么樣的短語是“優質的”呢

    1. 頻繁(Popularity)
    2. 一致(Concordance)
    3. 有信息的(Informativeness)
    4. 完整(Completeness)
  • 監督學習方法(語言學分析)

    語法樹、分塊

  • 無監督學習方法(統計信號)

    限制1:??應慎重選擇閾值
    限制2:只考慮了滿足要求的優質短語的子集
    限制3:??以無監督的方式組合不同的信號是困難的

  • 半/弱監督學習方法

    SegPhrase、AutoPhrase

    5.3 類型化實體和關系

  • 限制:1.一個實體對應多個含義;2.不同實體可能對應同一個含義

  • CoType

    5.4 元模式驅動的屬性挖掘

  • 相關論文
  • Meng Jiang, Jingbo Shang, Taylor Cassidy, Xiang Ren, Lance Kaplan, Timothy Hanratty and Jiawei Han, “MetaPAD: Meta Patten Discovery from Massive Text Corpora”, in Proc. of 2017 ACM SIGKDD Int. Conf. on Knowledge Discovery and Data Mining (KDD’17), Halifax, Nova Scotia, Canada, Aug. 2017
  • 定義:屬性挖掘

    5.5 從文本中發現結構的應用探索

  • 應用1:語義搜索

  • 應用2:反面新聞

  • 應用3:關鍵短語篩選

  • 應用4:實體擴展

    5.6 總結和未來方向

  1. Hands On Tutorial: TensorFlow

Github Repository: tensorflow-workshop

在example目錄下,包含本次教程的8個文件。

  • 00_test_install.ipynb
    測試安裝環境,numpy>=1.12.1,jupyter,matplotlib,pandas,Pillow,tensorflow>=1.3.0
  • 01_linear_regression_low_level.ipynb
    對模擬數據進行線性回歸,并利用TensorBoard進行可視化計算圖和相關變量。
  • 02_logistic_regression_low_level.ipynb
    對MNIST數據進行邏輯回歸,準確率大于90%
  • 03_deep_neural_network_low_level.ipynb
    對MNIST數據進行深度全連接網絡訓練,準確率大于97%
  • 04_canned_estimators.ipynb
    對MNIST數據使用Estimators來簡化數據、會話、可視化操作,準確率大于97%
  • 05_custom_estimators.ipynb
    對MNIST數據使用Estimators的tf.layers來自定義網絡結構,準確率大于97.5%
  • 06_convolutional_neural_network.ipynb
    對MNIST數據使用Estimators的tf.layers定義CNN網絡,準確率大于99%
  • 07_structured_data.ipynb
    對UCI的Adult數據使用Datasets API and Estimators,進行DataFrame的結構化數據操作
  1. KDD 2017 Opening Session:Pattern Mining Introspection and Prospective

    • 前序:啤酒和尿布的故事
      什么樣的產品組合是顧客頻繁一起購買的?
      頻繁模式:在數據集中頻繁出現的組合
      是數據集探索的一個自然的任務
    • 頻繁模式的應用
      在商店中利用頻繁模式對商品布局優化
      在web搜索中對于頻繁的關鍵詞進行推薦
      在化工設計中的頻繁子圖
      在社交網絡中的頻繁結構
      在自然語言處理和理解中的頻繁路徑
    • Aprioir算法:候選集的生成和測試
    • Apriori算法的提升
      主要的觀點:1.減少掃描的次數;2.加速候選集的匹配和計數;3.減少候選集的數量
      典型的方法:基于hash的技術,事務約簡,分隔,采樣,動態項目集計數
    • 突破:FP-Growth
      數據壓縮:聚焦搜索;數據投影:無候選集生成;有約束的頻繁模式挖掘
    • 其他的深度優先搜索算法
      樹投影(C. Aggarwal),垂直形式TID集合遍歷(M.J. Zaki)
    • PrefixScan:挖掘序列模式
    • 頻繁圖模式
      挑戰:如何有效枚舉結構模式?如何有效構建映射數據集?
      在圖數據庫中頻繁圖挖掘
      在大規模圖中生成頻繁子圖實例
    • 關聯圖挖掘 On mining Cross-Graph Quasi-Cliques, KDD, 2004
    • 為什么頻繁模式挖掘是重要的?
      許多應用:客戶分析、推薦、軟件bug檢測、事件檢測、圖像和多媒體數據挖掘、化學和生物應用
      促進了其他主要的數據挖掘任務:分類、聚類、異常值檢測、web挖掘
      索引和檢索:頻繁模式作為特征
    • 利用頻繁模式進行分類
      如果一個頻繁模式X與類C有很強的關聯性,那么X->C提供了一個很強的分類能力
      CBA(基于分類的關聯)
      CMAR(多分類關聯規則)
      DPClass(判別式基于模式的分類)
    • 利用頻繁模式進行聚類 MaPle, ICDM 2003
    • 基于三維模式的聚類
      Mining Coherent Gene Clusters from Three-Dimensional Microarray Data, KDD 2004, Best Application Paper Award Runner-up
    • 在Web搜索中頻繁模式的應用
      Context-Aware Query Suggestion by Mining Click-Through and Session Data, KDD 2008, Best Application Paper Award
    • 顛覆:深度學習
      高準確率、高魯棒性、適合大規模高維度數據集
    • 存在的挑戰
      普遍性:深度學習要求大量的數據來泛化、解釋性、
      探索:深度模型擅長回答問題不擅長解決開放性問題
    • 基于模式的思考
      模式:數據的總結和概況:一個模式是一個局部模型
      很好的解釋性;對于探索和思考很好的工具
      模式的組合可能生成深度模型:強有力的證據和見解, 深度森林 [Zhi-Hua Zhou et al., IJCAI 2017]
    • 一個根本的挑戰
      想法:深度模型+模式
    • 模式挖掘和深度模型的結合
      是否能夠同時取得更高的準確率和更好的解釋性?
      想法:從深度模型中學習
      • 將特征空間分為多個局部區域;
      • 估計深度模型非線性的決策邊界,通過從一些模式中分段學習線性決策邊界
    • 結論
      模式和模式挖掘已經被證明是有意義并且實用的
      模式挖掘適用于數據
      模式挖掘對于數據科學和數據探索是一個基本的工具
關于作者:如有問題請聯系 xzhren@pku.edu.cn
最后編輯于
?著作權歸作者所有,轉載或內容合作請聯系作者
平臺聲明:文章內容(如有圖片或視頻亦包括在內)由作者上傳并發布,文章內容僅代表作者本人觀點,簡書系信息發布平臺,僅提供信息存儲服務。
  • 序言:七十年代末,一起剝皮案震驚了整個濱河市,隨后出現的幾起案子,更是在濱河造成了極大的恐慌,老刑警劉巖,帶你破解...
    沈念sama閱讀 229,406評論 6 538
  • 序言:濱河連續發生了三起死亡事件,死亡現場離奇詭異,居然都是意外死亡,警方通過查閱死者的電腦和手機,發現死者居然都...
    沈念sama閱讀 99,034評論 3 423
  • 文/潘曉璐 我一進店門,熙熙樓的掌柜王于貴愁眉苦臉地迎上來,“玉大人,你說我怎么就攤上這事。” “怎么了?”我有些...
    開封第一講書人閱讀 177,413評論 0 382
  • 文/不壞的土叔 我叫張陵,是天一觀的道長。 經常有香客問我,道長,這世上最難降的妖魔是什么? 我笑而不...
    開封第一講書人閱讀 63,449評論 1 316
  • 正文 為了忘掉前任,我火速辦了婚禮,結果婚禮上,老公的妹妹穿的比我還像新娘。我一直安慰自己,他們只是感情好,可當我...
    茶點故事閱讀 72,165評論 6 410
  • 文/花漫 我一把揭開白布。 她就那樣靜靜地躺著,像睡著了一般。 火紅的嫁衣襯著肌膚如雪。 梳的紋絲不亂的頭發上,一...
    開封第一講書人閱讀 55,559評論 1 325
  • 那天,我揣著相機與錄音,去河邊找鬼。 笑死,一個胖子當著我的面吹牛,可吹牛的內容都是我干的。 我是一名探鬼主播,決...
    沈念sama閱讀 43,606評論 3 444
  • 文/蒼蘭香墨 我猛地睜開眼,長吁一口氣:“原來是場噩夢啊……” “哼!你這毒婦竟也來了?” 一聲冷哼從身側響起,我...
    開封第一講書人閱讀 42,781評論 0 289
  • 序言:老撾萬榮一對情侶失蹤,失蹤者是張志新(化名)和其女友劉穎,沒想到半個月后,有當地人在樹林里發現了一具尸體,經...
    沈念sama閱讀 49,327評論 1 335
  • 正文 獨居荒郊野嶺守林人離奇死亡,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內容為張勛視角 年9月15日...
    茶點故事閱讀 41,084評論 3 356
  • 正文 我和宋清朗相戀三年,在試婚紗的時候發現自己被綠了。 大學時的朋友給我發了我未婚夫和他白月光在一起吃飯的照片。...
    茶點故事閱讀 43,278評論 1 371
  • 序言:一個原本活蹦亂跳的男人離奇死亡,死狀恐怖,靈堂內的尸體忽然破棺而出,到底是詐尸還是另有隱情,我是刑警寧澤,帶...
    沈念sama閱讀 38,849評論 5 362
  • 正文 年R本政府宣布,位于F島的核電站,受9級特大地震影響,放射性物質發生泄漏。R本人自食惡果不足惜,卻給世界環境...
    茶點故事閱讀 44,495評論 3 348
  • 文/蒙蒙 一、第九天 我趴在偏房一處隱蔽的房頂上張望。 院中可真熱鬧,春花似錦、人聲如沸。這莊子的主人今日做“春日...
    開封第一講書人閱讀 34,927評論 0 28
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽。三九已至,卻和暖如春,著一層夾襖步出監牢的瞬間,已是汗流浹背。 一陣腳步聲響...
    開封第一講書人閱讀 36,172評論 1 291
  • 我被黑心中介騙來泰國打工, 沒想到剛下飛機就差點兒被人妖公主榨干…… 1. 我叫王不留,地道東北人。 一個月前我還...
    沈念sama閱讀 52,010評論 3 396
  • 正文 我出身青樓,卻偏偏與公主長得像,于是被迫代替她去往敵國和親。 傳聞我的和親對象是個殘疾皇子,可洞房花燭夜當晚...
    茶點故事閱讀 48,241評論 2 375

推薦閱讀更多精彩內容

  • 看見了嗎?
    合肥小王008閱讀 188評論 0 0
  • 秋 文||與你相識 從遠遠的風中 你已吹進骨骼 那些變色的葉 已經準備好了歸航 所有的莊稼 都已經飽滿 一個輪回的...
    與你相識_40fa閱讀 238評論 1 4
  • 1.冒泡排序算法 1.比較相鄰的元素。如果第一個比第二個大,就交換他們兩個。2.對每一對相鄰的元素作同樣的工作,從...
    夢見君笑閱讀 396評論 0 3
  • 我們大多數人都會有完美主義傾向,在想做一件事情之前,就在心中描繪一個完美的藍圖,然后當自己開始去踐行的時候,就會被...
    刻意練習社區閱讀 684評論 1 1