awesome-knowledge-graph
整理知識圖譜相關學習資料,提供系統化的知識圖譜學習路徑。
目錄
理論及論文
整體概念架構
隨著知識圖譜的發展,與之相關的概念也越來越多,在閱讀論文時先準確的把握該論文所要解決問題處于的層級或者位置對于更好的理解論文也比較有幫助,在此對知識圖譜的概念進行了總結整理,整體概念架構圖如下圖所示,后面的論文分類也按照該整體架構概念圖從頂向下,從整體到細節的方式組織。
綜述綜合
大綜述
- Knowledge Graph Construction Techniques
- Review on Knowledge Graph Techniques (2016)[一篇經典的中文綜述,適合入門。]
- Reviews on Knowledge Graph Research (2017)[清華大學李娟子老師的綜述,十分經典,對知識圖譜走入大眾視野功不可沒。]
- The Research Advances of Knowledge Graph (2017)[東南大學漆桂林老師的綜述,也是2017年發表的,同樣對知識圖譜走入大眾視野起到很大作用。]
- A Survey on Knowledge Graphs: Representation, Acquisition and Applications (2020)
- Knowledge Graphs (2020)[2020年初的一篇作者眾多、內容很全的綜述,適合系統性的建立知識圖譜的知識體系。]
Knowledge-Augmented LMs(知識增強語言模型)
知識圖譜增強語言模型是最近兩年比較流行,主要發生在BERT出來之后,將知識先驗信息融入到語言模型,可以說是知識圖譜助力NLP十分關鍵的一環,將該專題放在比較靠前的位置。
- ERNIE: Enhanced Representation through Knowledge Integration(2019)[百度版本ERNIE,在預訓練階段Mask Token時引入了Entity級別和Phase級別,似的模型在學習時能夠將某些特定知識作為一個整體進行學習。]
- ERNIE: Enhanced Language Representation with Informative Entities(2019)[清華版本ERNIE,將從句子中識別出的Entity的Embedding與原句子Embedding同時K-Encoder新設計的模塊,在該模塊中也采用多頭注意力機制之后融合編碼在分別輸出到下一層。]
- Latent Relation Language Models(2019)[將文本中實體在知識圖譜中的結構作為條件建模到概率語言模型中。]
- K-BERT: Enabling Language Representation with Knowledge Graph
- KG-BERT: BERT for Knowledge Graph Completion(2019)[與ERNIE系列處理的問題正好相反,是將Bert的模型應用到知識圖譜的補全任務中,根據h,r->t,h,r,t->{0,1}的任務特點設計出兩個fine-tuning任務。]
- Enriching BERT with Knowledge Graph Embeddings for Document Classification(2019)[結合Bert和知識圖譜embedding應用到具體的文檔分類任務,將Bert輸出、人工設計的Meta特征、作者的kg embedding進行concat之后輸入mlp進行分類。]
- ERNIE 2.0: A Continual Pre-Training Framework for Language Understanding
- SENSEMBERT: Context-Enhanced Sense Embeddings for Multilingual Word Sense Disambiguation
- Inducing Relational Knowledge from BERT
- Integrating Graph Contextualized Knowledge into Pre-trained Language Models
- Enhancing Pre-Trained Language Representations with Rich Knowledge for Machine Reading Comprehension
- K-ADAPTER- Infusing Knowledge into Pre-Trained Models with Adapters
- Knowledge Enhanced Contextual Word Representations (EMNLP 2019)
- KEPLER: A Unified Model for Knowledge Embedding and Pre-trained Language Representation (2020)
- Pretrained Encyclopedia: Weakly Supervised Knowledge-Pretrained Language Model (ICLR 2020)[在預訓練任務中結合wikepedia知識將句子中的實體替換為同類型的其他實體,使預訓練模型能夠在很少的訓練數據甚至是無訓練數據的情況下在某些特定QA任務取得不錯的效果。]
- Language Models as Knowledge Bases?[設計出一種基于完形填空任務的探測結構LAMA驗證了類BERT預研模型具備一定的知識庫能力]
- A Frame-based Sentence Representation for Machine Reading Comprehension (ACL 2020)[將句子中包含的FrameNet信息自動標注出來之后,平鋪展開填充形成quadruples,再將quadruples采用不同的Aggregation Model表示為句子表示,然后采用BERT等神經網絡進行編碼進行后續的閱讀理解任務。]
常識圖譜(Commonsense)
目前人工智能在很多方面表現的比較智障的原因,很多學者仍為是由于AI缺乏基本常識知識的原因,因此,從感知智能到認知智能常識知識起著很重要的作用,而常識圖譜作為常識知識的一個重要表示手段也越來越受到重視。
- KILT: a Benchmark for Knowledge Intensive Language Tasks(2020)[facebook 針對知識集中型的語言任務設計的baenchmark,其中包括設計常識的任務。]
- TransOMCS: From Linguistic Graphs to Commonsense Knowledge(ICJAI 2020)[基于語言圖譜構建常識知識,采用ConceptNet中子集作為常識種子,從語言圖譜中挖掘滿足種子(h,r,t)的模式,然后再基于這些模式從語言圖譜中找常識,同時為了避免錯誤模式帶來的影響,引入一個打分機制篩選模式,并且對找出來的常識進行可信度排序。]
- ATOMIC: An Atlas of Machine Commonsense for If-Then Reasoning (AAAI 2019)[將常識信息抽象成一系列if then表示的框架,并基于詞框架設計眾包任務獲得數據集,通過encoder(ELMo)+decoder結構的model進行訓練,最后采用BLEU score來評價機器在指定指令下的推斷輸出。]
- COMET: Commonsense Transformers for Automatic Knowledge Graph Construction (ACL 2019)[結合預訓練模型提出了一種常識知識圖譜構建框架,并在ATOMIC和ConceptNet常識知識圖譜上進行實驗,同時也驗證了模型參數采用預訓練之后的參數比隨機初始化效果明顯要好。]
知識應用
對話系統
知識圖譜落地應用最為廣泛的一個方向,研究人數也眾多,個人覺得在工業界可發揮的空間比較大。
- Commonsense Knowledge Aware Conversation Generation with Graph Attention (IJCAI 2018)[先將原始文本中的實體轉化為常識知識圖譜中的子圖片段,再將子圖片段采用圖注意力方式embedding之后的向量同時輸入到encoder和decoder中進行融合。]
- Mem2Seq: Effectively Incorporating Knowledge Bases into End-to-End Task-Oriented Dialog Systems(2018)[提出一種Men2Seq的改進結構來配合copy 機制更好的處理任務型對話系統。]
- Augmenting End-to-End Dialogue Systems with Commonsense Knowledge(2018)[將問句x中的實體所對應的常識概念以及之間的關系作為額外信息a,將x與y,a與y分別使用LSTM打分之后的總和作為回答y的分值。]
知識庫問答-KBQA
- Towards Scalable Multi-Domain Conversational Agents: The Schema-Guided Dialogue Dataset
- Improving Knowledge-aware Dialogue Generation via Knowledge Base Question Answering
- Graph-Based Reasoning over Heterogeneous External Knowledge for Commonsense Question Answering
推薦系統
- Multi-modal Knowledge Graphs for Recommender Systems(CIKM 2020)[將多模態信息引入知識圖譜推薦,整體結構上包括多模態知識圖譜graph embedding和recommendation兩部分,其中graph embedding包括entity encoder和attention,用于綜合表示節點以及其周圍節點信息。]
知識計算
Representation(知識表示)
知識應用的基礎,目前分布式表示或者embedding大有一統江湖的意思,各種花式embedding眼花繚亂。
- Knowledge Representation Learning: A Review
- Interstellar: Searching Recurrent Architecture for Knowledge Graph Embedding(NeurIPS 2020)[基于由三元組組成的關系路徑(relational path)提出 Interstellar 模型,通過搜索一種遞歸神經網絡,來處理關系路徑中的短鏈、長鏈信息,達到根據不同任務,有針對性地對關系路徑進行建模的目的。]
- Holographic embeddings of knowledge graphs
- Context-dependent knowledge graph embedding. EMNLP 2015. Luo, Yuanfei and Wang, Quan and Wang, Bin and Guo, Li.
- GAKE: graph aware knowledge embedding. COLING 2016. Feng, Jun and Huang, Minlie and Yang, Yang and Zhu, Xiaoyan.
- KBGAN: Adversarial Learning for Knowledge Graph Embeddings. Cai, Liwei, and William Yang Wang.(NAACL 2018)
- Bootstrapping Entity Alignment with Knowledge Graph Embedding. Zequn Sun, Wei Hu, Qingheng Zhang and Yuzhong Qu.(IJCAI 2018)
- RotatE: Knowledge Graph Embedding by Relational Rotation in Complex Space(ICLR 2019)[在Tran系列的embedding上進了一步,將三元組(h,r,t)中的關系r建模成復平面的旋轉,使得r更具表示力,能夠很好的表示Symmetry、Antisymmetry以及Inversion關系,使用了自對抗負采樣損失方法。]
- Quaternion Knowledge Graph Embeddings(2019)[相比RotatE更進了一步,通過4元組的Hamilton Product來表示關系變換,比復數具備了更多的自由度。]
- Knowledge Graph Embeddings and Explainable AI(2020)[一篇綜述性質文章,介紹了目前sota的KGE方法,并分析embedding與可解釋性的關系和聯系。]
Reasoning(知識推理)
聽起來高大上的方向,實際落地感覺很不容易,學術界發paper可能還行,但是在工業界容易跪,要推理也盡量離線展開,不要在線推理。
- Reasoning on Knowledge Graphs with Debate Dynamics
- Logic Tensor Networks: Deep Learning and Logical Reasoning from Data and Knowledge(2016)[提出一種通過tenor網絡結構設計實現真值邏輯的框架,嘗試通過深度學習解決邏輯推理問題,比較有創新性。]
- Differentiable Learning of Logical Rules for Knowledge Base Reasoning.(2017)[]
- Query2box: Reasoning over Knowledge Graphs in Vector Space Using Box Embeddings(ICLR 2020)[將問題映射為向量空間中的box,答案實體為向量空間中的向量,回答問題的過程可以建模成Projection、 Intersection和Union,最終獲得問題的box,通過定義好的query和entity距離計算方法計算距離,小于閾值則為答案集合。]
- Conversational Neuro-Symbolic Commonsense Reasoning(2020)
- Neural-Symbolic Reasoning on Knowledge Graphs(2020)[系統的整理了知識圖譜推理中的Symbolic reasoning以及Neural reasoning的方法,并介紹了其不同的優劣勢,對KGC和KBQA問題在統一推力網絡中進行了總結。]
KG Completion(圖譜補全)
- Learning Sequence Encoders for Temporal Knowledge Graph Completion
- Differentiable Reasoning on Large Knowledge Bases and Natural Language
- Diachronic Embedding for Temporal Knowledge Graph Completion
- Commonsense Knowledge Base Completion with Structural and Semantic Context
- KG-BERT: BERT for Knowledge Graph Completion
Coreference Resolution(指代消解)
- Intra-document Coreference Resolution: The state of the art (2007)[指代消解,較全面的介紹了指代消解的發展、分類方法和評測標準,基本都是偏傳統的方法。]
- 指代消解綜述 (2010)[一篇入門級的綜述,介紹了如何標注以及基于句法、基于規則、基于統計、基于分類等相對較為傳統指代消解的方法。]
- Cross-Document Co-Reference Resolution using Sample-Based Clustering with Knowledge Enrichment (EMNLP 2015)[Pipeline方式,首先采用通用工具計算出文檔內的mention組,再采用譜聚類和圖相關算法優化相關度計算并完成跨文檔的mention指代消解。]
- Higher-order Coreference Resolution with Coarse-to-fine Inference (ACL2018)
- BERT for Coreference Resolution: Baselines and Analysis (2019)[將上一篇paper中lstm等encode部分更換為bert的優化方法,套路與其他任務換成bert類似。]
- Deep Reinforcement Learning for Mention-Ranking Coreference Models (ACL2016)
知識獲取
NER(命名實體識別)
也是自然語言處理的基礎任務,十分重要。
Entity aligning(實體對齊)
- A Survey on Entity Alignment of Knowledge Base
- Knowledge Graph Alignment Network with Gated Multi-hop Neighborhood Aggregation
- Coordinated Reasoning for Cross-Lingual Knowledge Graph Alignment
- End-to-End Neural Entity Linking (2018) [將mention的字、詞向量拼接之后過bilstm得到mention embedding,將候選mention的頭尾詞向量和基于attention的soft head拼接得到候選mention embedding,兩個embedding一起通過FFNN打分,從而實現端到端的實體鏈接。]
- Zero-shot Entity Linking with Efficient Long Range Sequence Modeling (2020)
Coreference Resolution(指代消解)
知識建模
Taxonomy(本體構建)
- AutoKnow: Self-Driving Knowledge Collection for Products of Thousands of Types(KDD 2020)[結合商品領域特點將傳統SPO三元組結構的建模方式進行了修改,并提出一種自動進行實體收集的架構]
- A Short Survey on Taxonomy Learning from Text Corpora: Issues, Resources and Recent Advances (ACL2017)[以兩段式流程框架介紹了基于語料構建本體的各種方法,兩段式流程框架是指is-a關系的抽取和基于is-a關系的本體構建。]
其他擴展
Tracing(知識追蹤)
本類別并不是傳統知識圖譜中的任務,而是與教育領域結合的廣義上的知識圖譜任務。
- Context-Aware Attentive Knowledge Tracing(KDD 2020)[]
- Knowledge Query Network for Knowledge Tracing()[將學生外在表現建模成knowledge vetor和skill vetor的點積]
- Knowledge tracing- Modeling the acquisition of procedural knowledge
- Individualized Bayesian Knowledge Tracing Models
- Deep Knowledge Tracing
- Tracking Knowledge Proficiency of Students with Educational Priors
圖譜及數據集
開放知識圖譜
中文開放知識圖譜(OpenKG.CN)
中文開放知識圖譜(簡稱OpenKG.CN)旨在促進中文知識圖譜數據的開放與互聯,促進知識圖譜和語義技術的普及和廣泛應用,包括了眾多的數據集以及工具。
領域知識圖譜
學術知識圖譜AceKG
最新發布的Acemap知識圖譜(AceKG)描述了超過1億個學術實體、22億條三元組信息,涵蓋了全面的學術信息。具體而言,AceKG包含了61,704,089篇paper、52,498,428位學者、50,233個研究領域、19,843個學術研究機構、22,744個學術期刊、1,278個學術會議以及3個學術聯盟(如C9聯盟)。
同時,AceKG也為每個實體提供了豐富的屬性信息,在網絡拓撲結構的基礎上加上語義信息,旨在為眾多學術大數據挖掘項目提供全面支持。
數據集
SQuAD
YAGO
YAGO是由德國馬普研究所研制的鏈接數據庫。YAGO主要集成了Wikipedia、WordNet和GeoNames三個來源的數據。YAGO將WordNet的詞匯定義與Wikipedia的分類體系進行了融合集成,使得YAGO具有更加豐富的實體分類體系。YAGO還考慮了時間和空間知識,為很多知識條目增加了時間和空間維度的屬性描述。目前,YAGO包含1.2億條三元組知識。YAGO是IBM Watson的后端知識庫之一。由于完成的YAGO數據集過于龐大,在使用過程中經常會選取其中一部分進行,比如可以抽取中帶有時間注釋(time annotations)的部分形成YAGO11k數據集。
WikiData
WikiData的目標是構建一個免費開放、多語言、任何人或機器都可以編輯修改的大規模鏈接知識庫。WikiData由維基百科于2012年啟動,早期得到微軟聯合創始人Paul Allen、Gordon Betty Moore基金會以及Google的聯合資助。WikiData繼承了Wikipedia的眾包協作的機制,但與Wikipedia不同,WikiData支持的是以三元組為基礎的知識條目(Items)的自由編輯。一個三元組代表一個關于該條目的陳述(Statements)。
NLPCC 2017 KBQA
該任務來自NLPCC 2017評測任務,開放域問答評價任務主要包括三項子任務,基于知識庫的問答(kbqa),基于文檔的問答(dbqa),和基于表的問答(tbqa)。kbqa的任務是基于知識庫的中文問題回答。dbqa的任務是通過選擇一個或多個句子從一個給定的文檔,作為答案回答中文問題。tbqa的任務是一個全新的QA任務,旨在通過從收集的表格中抽取一個或多個表回答英語問題。
GDELT
GDELT(Global Database of Events, Language, and Tone)是最大的綜合人類社會關系數據庫,以100多種語言監控來自每個國家幾乎每個角落的廣播、印刷和網絡新聞,并確定推動我們全球社會的人、地點、組織、主題、來源、情感、計數、報價、圖像和事件每天的每一秒,它的全球知識圖將世界的人,組織,地點,主題,計數,圖像和情感連接到整個地球上的單一整體網絡。為整個世界的計算創建一個免費的開放平臺。
ICEWS
ICEWS(Integrated Crisis Early Warning System)捕獲和處理來自數字化新聞媒體,社交媒體和其他來源的數百萬條數據,以預測,跟蹤和響應世界各地的事件,主要用于早期預警。該數據集在知識圖譜領域主要用于動態事件預測等動態圖譜方面。
OAG
OAG(Open Academic Graph包含來自MAG的166,192,182篇論文和來自AMiner的154,771,162篇論文,并生成了兩個圖之間的64,639,608個鏈接(匹配)關系。它可以作為研究引文網絡,論文內容等的統一大型學術圖表,也可以用于研究多個學術圖表的整合。
工具
根據知識圖譜的通用基本構建流程為依據,每個階段都整理部分工具。
知識建模
知識抽取
Deepdive
知識推理
知識表示
OpenKE
清華大學NLP實驗室基于TensorFlow開發的知識嵌入平臺,實現了大部分知識表示學習方法。
知識融合
白皮書及報告
機構及人物
本部分介紹在知識圖譜領域前沿研究或者有一定影響力的機構以及個人。
機構
人物
視頻課程
小象學院知識圖譜課程
貪心學院知識圖譜課程
煉數成金知識圖譜課程
CSDN視頻課
專欄合集
知乎集合
簡書集合
評測競賽
- “達觀杯”文本智能信息抽取挑戰賽
- CCKS 2019 公眾公司公告信息抽取
- CCKS 2019 醫療命名實體識別
- CCKS 2019 面向金融領域的事件主體抽取
- CCKS 2019 人物關系抽取
- CCKS 2019 中文短文本的實體鏈指
- CCIR 2019 基于電子病歷的數據查詢類問答
- 瑞金醫院MMC人工智能輔助構建知識圖譜大賽
- CCKS 2018 面向中文電子病歷的命名實體識別
- CCKS 2018 面向音樂領域的命令理解任務
- CCKS 2018 微眾銀行智能客服問句匹配大賽
- CCKS 2018 開放領域的中文問答任務
- CCKS 2017 問題命名實體識別和鏈接任務
- CCKS 2017 面向電子病歷的命名實體識別
會議交流及講座
AICon
BDTC
- BDTC 2018 醫療知識圖譜的構建和應用
- BDTC 2018 從知識圖譜到人工智能:產品演進路徑上的思考
- BDTC 2018 基于cnSchema的大規模金融知識圖譜實戰
- BDTC 2017 Event Extraction from Texts
- BDTC 2017 知性會話:基于知識圖譜的人機對話系統方法與實踐
- BDTC 2017 基于圖的海量知識圖譜數據管理
- CSDN AI 2018 醫療知識圖譜的敏捷構建和實踐
- CSDN AI 2018 知識圖譜的表示和推理
- CSDN AI 2018 大規模通用知識圖譜構建及應用
- CSDN AI 2018 大規模通用知識圖譜構建及應用
其他
項目案例
教育領域知識圖譜
金融領域知識圖譜
利用網絡上公開的數據構建一個小型的證券知識圖譜/知識庫
- https://github.com/lemonhu/stock-knowledge-graph.git
上市公司高管圖譜
- https://github.com/Shuang0420/knowledge_graph_demo
醫療領域知識圖譜
農業領域知識圖譜
使用爬蟲獲取Wikidata數據構建
- https://github.com/CrisJk/Agriculture-KnowledgeGraph-Data.git
知識工程領域知識圖譜
其他知識圖譜
紅樓夢人物關系圖譜
- https://github.com/chizhu/KGQA_HLM
通用領域知識圖譜
- https://github.com/Pelhans/Z_knowledge_graph
免費1.5億實體通用領域知識圖譜
- https://github.com/ownthink/KnowledgeGraph
簡易電影領域知識圖譜及KBQA系統
- https://github.com/SimmerChan/KG-demo-for-movie
推廣技術文章
2020
- 基于知識圖譜的語義理解技術及應用
- 阿里巴巴資深算法專家張偉:百科類知識圖譜構建和應用已到深水區,行業和多模態知識圖譜引關注
- 華為開發者大會 HDC.Cloud 硬核技術解讀:知識圖譜構建流程及方法
- 騰訊云知識圖譜技術與應用實踐之路
- 知識圖譜在小米的落地與挑戰
- 構建行業知識圖譜切勿操之過急,這里有三大前提條件
2019
- 大眾點評搜索基于知識圖譜的深度學習排序實踐
- 知識圖譜已成AI下一風口,但你知道它進展到哪了嗎?
- 下一代 AI 系統基石:知識圖譜將何去何從?
- 阿里巴巴電商認知圖譜揭秘
- 為電商而生的知識圖譜,如何感應用戶需求?
- 阿里小蜜:知識結構化推動智能客服升級
- CCKS 2019:百度CTO王海峰詳解知識圖譜與語義理解
- 反守為攻!從華為知識圖譜窺探AI布局
2018
- 張偉博士:阿里巴巴百億級別的三元組知識圖譜掌舵者
- 知識圖譜在互聯網金融行業的應用
- 上交大發布知識圖譜AceKG,超1億實體,近100G數據量
- 知識圖譜數據構建的“硬骨頭”,阿里工程師如何拿下?
- 這是一份通俗易懂的知識圖譜技術與應用指南
- 一文揭秘!自底向上構建知識圖譜全過程
- 健康知識圖譜,阿里工程師如何實現?
- 為電商而生的知識圖譜,如何感應用戶需求?
- 肖仰華談知識圖譜:知識將比數據更重要,得知識者得天下
- 知識圖譜在旅游領域有哪些應用?攜程度假團隊這樣回答
- 快手結合知識圖譜進行多模態內容理解
- 騰訊互娛劉偉:知識圖譜讓AI更有學識
- 美團大腦:知識圖譜的建模方法及其應用
- 美團餐飲娛樂知識圖譜——美團大腦揭秘
- 人力資源知識圖譜搭建及應用
- 基于概念知識圖譜的短文本理解——王仲遠
2017
2016
本文使用 文章同步助手 同步