1 什么是知識圖譜
- 知識圖譜概念:
- 一種圖模型來描述知識和建模世界萬物之間的關聯關系的技術方法
- 組成:
- 節點:
- 實體:一個人,一本書,主機
- 抽象的概念:人工智能、知識圖譜,進程
- 邊:
- 實體的屬性:姓名、書名
- 實體間的關系:朋友、配偶
- 節點:
- 最初的理想:將基于文本鏈接的萬維網轉化成基于實體鏈接的語義網。
- 1989:相比基于樹的層次化組織方式,以鏈接為中心和基于圖的組織方式更加適合互聯網這種開放的系統,演化成今天的World Wide Web
- 1998:Semantic Web
- 仍然基于圖和鏈接的組織方式,
- 只是圖中的節點代表的不再是網頁,而是客觀世界中的實體,
- 超鏈接也被增加了語義描述,具體標明實體之間的關系。
- 相比于傳統的網頁互聯網,本質是數據的互聯網或事物的互聯網
- 是傳統人工智能與Web融合發展的結果
- 是知識表示與推理在Web中的應用
- 面向Web設計實現的標準化的知識表示語言:
- RDF(Resource Description Framework,資源描述框架)
- OWL(Web Ontology Language,網絡本體語言)
- 知識圖譜可以看作Semantic Web的一種簡化的商業實現
- 作用領域:
- 語義搜索
- 智能問答
- 輔助語言理解
- 輔助大數據分析
- 增加機器學習可解釋性
- 結合圖卷積輔助圖像分類
- 決策分析
- 目標:從數據中識別、發現和推斷事物與概念之間的復雜關系,是事物關系的可計算模型
- 知識圖譜構建過程:
- 知識建模
- 關系抽取
- 圖存儲
- 關系推理
- 實體融合
- 利用好知識圖譜的前提,利用好如下技術:
- 知識表示
- 圖數據庫
- 自然語言處理
- 機器學習
2 發展歷史
- 人工智能
- 符號派:側重于模擬人的心智;知識圖譜 ; 有學識的人工智能
- 思考
- 語言
- 推理
- 連接派:側重于模擬人腦的生理結構;人工神經網絡、深度學習;聰明的人工智能
- 感知
- 識別
- 判斷
- 符號派:側重于模擬人的心智;知識圖譜 ; 有學識的人工智能
- 深度學習:
- 在處理感知、識別和判斷等方面表現突出,
- 模擬人的思考過程、處理常識知識和推理,以及理解人的語言方面仍然舉步維艱;
- 知識定義:
- 合理
- 真實
- 被相信
- 知識通過人類觀察、學習和思考客觀世界的各種現象,總結出:
- 事實(Fact)
- 概念(Concept)
- 規則(Rule)/原則(Principle)
- 描述、表示和傳承知識的技術:
- 自然語言
- 繪畫
- 音樂
- 數學語言
- 物理模型
- 化學公式
- 知識表示是現實世界的可計算模型(Computable Model of Reality)
- 早期的專家系統:
- 基于框架的語言:
- 描述客觀世界的類別、個體、屬性及關系
- 較多地被應用于輔助自然語言理解
- 產生式規則
- 描述類似于IF-THEN的邏輯結構
- 適合刻畫過程性知識
- 基于框架的語言:
- 知識圖譜比傳統專家系統有如下特點:
- 無法單一依靠人工和專家構建
- 傳統專家系統Cyc ,僅包含700萬條事實描述;20萬條語義關系
- 阿里巴巴2017年8月包含核心商品數據的知識圖譜已達百億級別
- 無法單一依靠人工和專家構建
3 知識圖譜價值
? 最早的應用是提升搜索引擎的能力,知識圖譜在輔助智能問答、自然語言理解、大數據分析、推薦計算、物聯網設備互聯、可解釋性人工智能等多個方面展現出豐富的應用價值:
- 輔助搜索:
- 傳統搜索是依靠網頁之間的超鏈接實現網頁的搜索;
- 語義搜索是直接對事物進行搜索,這些事物可能來自文本、圖片、視頻、音頻、Iot設備等各種信息資源;
- 知識圖譜和語義技術提供了關于這些事物的分類、屬性和關系的描述,使得搜索引擎可以直接對事物進行索引和搜索
- 輔助問答
- 基于語義解析
- 基于圖匹配
- 基于模版學習
- 基于表示學習和深度學習
- 基于混合模型
- 輔助大數據分析:輔助進行數據分析與決策
- 通過知識圖譜和語義技術增強數據之間的關聯
- 知識圖譜被廣泛用來做為先驗知識從文本中抽取實體和關系,如遠程監督中的作用
- 輔助實現文本中的實體消岐(Entity Disambiguation)、指代消解和文本理解
- 預先抽取數據的語義,建立數據之間的邏輯,并依靠邏輯推理方法來實現數據分析
- 輔助語言理解:
- 深度語義理解
- 當一個人聽到一句話或看到一段句子的時候,會使用自己所有的知識和智能去理解,不僅包括語法、也包括擁有的詞匯知識、上下文知識,更重要的是對相關事物的理解
- 讓機器能理解人類的語義
- 輔助設備互聯:
- 機器之間的對話,也需要技術手段來表示和處理機器語言的語義;
- 語義技術可以輔助設備之間的語義互聯
- 設備數據的語義和人類語言的語義也需要適配。
- 2012年成立的OneM2M,全球最大物聯網國際標準化組織
4 技術流程
知識圖譜用于表達更加規范的高質量數據。
- 采用更加規范而標準的概念模型、本體術語和語法格式來建模和描述數據
- 通過語義鏈接增強數據之間的關聯
- 表達規范、關聯性強的數據在改進搜索、問答體驗、輔助決策分析和支持推理等多個方面 都能發揮重要作用
知識圖譜的方法論涉及:
- 知識表示
- 知識獲取
- 知識處理
- 知識利用
一般步驟如下:
- 確定知識表示模型
- 根據數據來源選擇不同的知識獲取手段
- 綜合利用知識推理、知識融合、知識挖掘等技術對構建的知識圖譜進行質量提升
- 根據場景需求設計不同的知識訪問與呈現方法,如:
- 語義搜索
- 問答交互
- 圖譜可視化分析
4.1 知識來源
來源可以如下:
- 文本
- 結構化數據庫:
- 已有的結構化數據庫通常不能直接作為知識圖譜使用,而需要將結構化數據定義到本體模型之間的語義映射,再通過編寫語義翻譯工具實現結構化數據到知識圖譜的轉化。
- 還需要綜合采用實體消岐、數據融合、知識鏈接等技術,提升數據的規范化水平,增強數據之間的關聯
- 多媒體數據
- 傳感器數據:
- 對傳感器數據進行語義化
- 定義符合語義標準的數據接口
- 對傳感數據進行語義封裝和對傳感數據增加上下文語義描述
- 人工眾包:打標注
4.2 知識表示與Schema工程
- 知識表示定義:
- 用計算機符號描述和表示人腦中的知識,以支持機器模擬人的心智進行推理的方法與技術。
- 決定了圖譜構建的產出目標
- 語義描述框架(Description Framework)
- Schema與本體(Ontology):定義知識圖譜的類集、屬性集、關系集和詞匯集
- 知識交換語法(Syntax):定義知識實際存在的物理格式,如Turtle、JSON
- 實體命名及ID體系:定義實體的命名原則及唯一標識規范
- 基本描述框架:如萬維網的RDF。
- 數據模型(Data Model)
- 邏輯結構(Structure)
- 按知識類型,知識圖譜可分為:
- 詞(Vocabulary):以詞為中心,并定義詞與詞之間的關系,如WordNet、ConceptNet
- 實體(Entity):以實體為中心,并定義實體之間的關系、描述實體的術語體系
- 關系(Relation)
- 事件(Event):一種復合的實體;
- 術語體系(Taxonomy)
- 規則(Rule)
- W3C的RDF把三元組(Triple)作為基本的數據模型,包含主語(Subject)、謂語(Predicate)、賓語(Object)
4.3 知識抽取
知識抽取任務可以分為:
- 概念抽取
- 實體識別
- 關系抽取
- 事件抽取
- 規則抽取
傳統專家系統主要靠專家手工錄入;現代知識圖譜的構建:
- 通常大多依靠已有的結構化數據資源進行轉化,形成基礎數據集;
- 再依靠自動化知識抽取和知識圖譜補全技術,從多種數據來源進一步擴展知識圖譜;
- 并通過人工眾包進一步提升知識圖譜的質量;
結構化和文本數據是目前主要的知識來源:
- 從結構化數據庫獲取知識一般使用現有的D2R工具,如:
- Triplify
- D2RServer
- OpenLink
- SqarqlMap
- Ontop
- 從文本中獲取知識主要包括實體識別和關系抽取
- 基于特征模版的方法
- 基于核函數的監督學習方法
- 基于遠程監督的方法:
- 利用一個大型的語義數據庫自動獲取關系類型標簽。
- 標簽可能是含有噪聲的,但是大量的訓練數據在一定程度上可以抵消這些噪聲
- 基于深度學習的監督
4.4 知識融合
在構建知識圖譜時,可以從第三方知識庫產品或已有結構化數據中獲取知識輸入。當多個知識庫融合或將外部關系數據庫合并到本地只是庫時,需要處理兩個層面的問題:
通過模式層的融合,將新得到的本體融入已有的本體庫中,以及新舊本體的融合;
-
數據層的融合,包括實體的指標、屬性、關系以及所屬類別,主要是如何避免實例以及關系的沖突問題,造成不必要的冗余
- 實體和關系(包括屬性)元組的融合,主要是實體匹配或者對齊
- 實體對齊包括實體消岐和共指消解,即判斷同名實體是否代表不同的含義以及知識庫中是否存在其他命名實體表示相同的含義。
- 實體消岐專門解決同名實體產生歧義的問題,通常采用聚類法,
- 如何定義實體對象與指稱項之間的相似度,常用方法:
- 空間向量模型
- 語義模型
- 社會網絡模型
- 百科知識模型
- 增量證據模型
- 最新的方式:
- 知識圖譜簽入方法進行實體對齊
- 引入人機協作方式提升實體對齊質量
- 對新增實體和關系進行驗證和評估,以確保知識圖譜的內容一致性和準確性
- 通常采用評估過程中為新加入的知識賦予可信度值,據此進行過濾和融合
- 實體和關系(包括屬性)元組的融合,主要是實體匹配或者對齊
4.5 知識圖譜補全與推理
常用的補全方法包括:
- 基于本體推理的補全,主要針對TBox,及概念層進行推理,也可以用來對實體級的關系進行補全
- 知識補全算法實現基于圖結構和關系路徑特征的方法,如:
- 隨機游走獲取路徑特征的PRA算法
- 基于子圖結構的SFE算法
- 基于層次化隨機游走模型的PRA算法
- 以上算法共同特點是通過兩個實體節點之間的路徑,以及節點周圍圖結構提取特征,并通過隨機游走算法降低特征抽取的復雜圖,然后疊加線性的學習模型進行關系的預測
- 主要依賴圖結構和路徑的豐富程度
- 基于表示學習和知識圖譜嵌入的鏈接預測:
- 簡單的預測模型:一般只能實現單步的推理
- 翻譯模型
- 組合模型
- 神經元模型
- 更為復雜的模型:
- 向量空間引入隨機游走模型:在同一個向量空間中將路徑與實體和關系一起表示出來再進行補全的模型
- 簡單的預測模型:一般只能實現單步的推理
- 文本信息也被用來輔助實現知識圖譜補全:
- 將文本中的實體和結構化圖譜中的實體對齊,然后利用雙方的語義信息輔助實現關系預測或抽取;
- 這類模型一般包括三個部分:
- 三元組解碼器:將知識圖譜中的實體和關系轉化為低維向量
- 文本解碼器:從文本語料庫中學習實體(詞)的向量表示
- 聯合解碼器:保證實體關系和詞的嵌入向量位于相同的空間中,并集成實體向量和詞向量
4.6 知識檢索與知識分析
知識檢索的實現形式主要包括:
- 語義檢索
- 智能問答
5 相關技術
- 知識圖譜是交叉技術,包含如下:
- 人工智能
- 數據庫
- 自然語言處理
- 機器學習
- 分布式系統
5.1 知識圖譜與數據庫系統
- 傳統關系型數據庫無法有效適應知識圖譜的圖數據模型
- 知識圖譜領域形成了RDF數據的三元組庫(Triple Store)
- 數據庫領域開發了管理屬性圖的圖數據庫(Graph DataBase)
- 知識圖譜的主要數據模型:
- RDF圖:
- 遵守W3C標準
- 三元組庫主要是由Semantic Web領域推動開發的數據庫管理系統
- 查詢語言SPARQL,語法上借鑒了SQL,屬于申明式
- 三元組模式(Triple Pattern)
- 基本圖模式(Basic Graph Pattern)
- 屬性路徑(Property Path)
- 屬性圖
- RDF圖:
- 查詢語言:
- 聲明式
- Cypher:開源圖數據庫Neo4j中實現的圖查詢語言
- PGQL:Oracle開發的圖查詢語言
- G-Core:LDBC組織設計的圖查詢語言
- 導航式
- 聲明式
- 基于三元組庫和圖數據庫能夠提供的知識圖譜數據存儲方案:
- 基于關系存儲方案:
- 三元組表存儲方案:
- 主謂賓一行三列的記錄
- 簡單明了,行數與知識圖譜的邊數一樣
- 知識圖譜查詢翻譯為SQL后自連接操作太多,效率慢
- 水平表存儲方案:
- 每行記錄存儲知識圖譜中一個主語的所有謂語和賓語,相當于知識圖譜的鄰接表
- 所需列數目過多,表中產生大量空值,無法存儲多值賓語
- 垂直劃分存儲方案:
- 每種謂語簡歷一張兩列的表(主、賓),
- 支持“主語-主語”作為連接條件的查詢操作的快速執行
- 有效解決了空值問題和多值賓語問題
- 大規模知識圖譜謂語表數目過多
- 復雜查詢表連接過多
- 更新代價大
- 六重索引存儲方案:
- 將三元組全部6種排列對應的建立6張表
- 通過“空間交換時間”有效解決了自連接問題
- 需要個增多存儲空間開銷和索引更新維護代價
- DB2RDF存儲方案:
- 一種較新的基于關系的知識圖譜存儲方案,是以往存儲方案的一種權衡優化
- 三元組的靈活性表現在“行維度”上,無論多少行,只有3列固定不變
- DB2RDF將這種靈活推廣到了“列維度”,列名稱不再和謂語綁定,將同一主語的所有謂語和賓語動態的分配到某列
- 三元組表存儲方案:
- 面型RDF的三元組庫
- RDF4J:Eclipse基金會旗下的開源孵化項目
- 功能:RDF數據的解析、推理和查詢等
- 存儲機制:內存、磁盤
- 支持全部的SPARQL 1.1 查詢和更新語言
- 使用訪問本地RDF庫相同的API訪問遠程RDF庫
- 支持所有主流RDF數據格式
- RDF-3X:為RDF優化設計的物理存儲方案和查詢處理方法,是實現六重索引的典型系統
- gStore:
- 底層存儲使用RDF圖對應的標簽圖
- 建立”VS樹“索引結構以加速查找
- 利用“VS樹”索引提供的摘要圖,大幅消減SPARQL查詢的搜索空間,以加快查詢速度
- Virtuoso:
- 支持關系數據、對象-關系數據、RDF數據、XML數據和文本數據的統一管理
- 支持W3C的Linked Data系列協議
- AllegroGraph:
- 遵循對W3C語義Web相關標準的嚴格支持,包括:RDF、RDFS、OWL和SPARQL
- 對語義推理有較為完善的支持
- 支持動態物化的RDFS++推理機、OWL2 RL推理機、 Prolog規則推理系統
- GrapDB:
- 實現了RDF4J的SAIL層,與RDF4J API無縫對接,即可以使用RDF4J的RDF模型、解析器和查詢引擎直接訪問GraphDB
- 良好支持RDF推理功能,其使用內置的基于規則的“前向鏈”推理機,由顯示知識經過推理得到導出知識,并對導出知識進行優化存儲
- Blazegraph:
- 基于RDF三元組庫的圖數據庫管理系統
- 實現了Blueprints標準及Gremlin語言
-
支持真正意義上的集群分布式存儲和查詢處理
- 分布式動態分片B+樹
- 服務總線技術
- Stardog:
- 支持RDF圖數據模型、SPARQL查詢語言、屬性圖模型、Gremlin圖遍歷語言、OWL2標準、用戶自定義的推理與數據分析規則、虛擬圖、地理空間查詢
- 多用編程語言與網絡接口支持
- 具備全文搜索、GraphQL查詢、路徑查詢、融合機器學習任務等功能
- 支持多種不同編程語言和Web訪問接口
- RDF4J:Eclipse基金會旗下的開源孵化項目
- 原生圖數據庫
- Neo4j:
- 流行度最高的圖數據庫產品
- 不足之處:
- 社區版是單機系統
- 企業版支持高可用集群
- 與分布式圖存儲系統的最大區別在于每個節點上存儲圖數據庫的完整副本,并非將圖數據劃分為子圖進行分布式存儲
- 如果圖數據超過一定規模,系統性能就會因為磁盤、內存等限制而大幅降低
- JanusGraph:
- 存儲后端和查詢引擎是分離的,是一個分布式圖數據庫
- 可使用分布式BigTable存儲庫Cassandra或HBase作為存儲后端
- 主要缺點:
- 分布式查詢功能僅限于基于Cassandra或HBase提供的分布式讀寫實現的簡單導航查詢
- 對于很多稍復雜的查詢類型,目前還不支持真正意義上的分布式查詢處理:子圖匹配查詢、正則路徑查詢
- OrientDB:
- 支持圖、文檔、鍵值、對象、關系等多種數據模型
- 底層實現主要面向圖和文檔數據存儲管理的需求設計
- 數據記錄之間的關聯并非關系數據庫的主外鍵的引用,而是通過記錄之前直接的物理指針
- Cayley:
- 輕量級開源圖數據庫
- 目標是成為開發者管理Linked Data和圖模型數據(語義Web、社會網絡)的有效工具
- Neo4j:
- 基于關系存儲方案:
總結:
- 基于關系的存儲系統繼承了關系數據庫的優勢,成熟度較高,在硬件性能和存儲容量滿足的前提下,通常能夠適應千萬到十億三元組規模的管理。
- Oracle12C配上空間和圖數據擴展組件可以管理的三元組數量可達1.08萬億條
- 稍高配置的單機系統和主流RDF三元組數據庫(Jena、RDF4J、Virtuoso)完全勝任百萬到上億的三元組的管理
- 具備分布式存儲與查詢能力的數據庫系統(商業的GraphDB和BlazeGraph、開源的JanusGraph)可以管理幾億到十幾億以上大規模的RDF三元組;
- 以Neo4j為代表的圖數據庫系統發展迅猛,使用圖數據庫存儲管理RDF三元組也是一種很好的選擇
- 目前大部分圖數據庫還不能直接支持RDF三元組存儲
- 可采用數據轉換方式,先將RDF預處理為圖數據支持的數據格式(如屬性圖模型),再進行后續管理操作
- 還沒有一種數據庫系統被公認為是具有主導地位的知識圖譜數據庫
- 隨著三元組庫和圖數據庫的相互融合發展,知識圖譜的存儲和數據管理手段將愈加豐富和強大
5.2 知識圖譜與智能問答
-
知識問答依托于一個大型知識庫:
- 知識圖譜
- 結構化數據庫
將用戶的自然語言問題轉換成結構化查詢語句(如SPARQL、SQL),直接從知識庫中導出用戶所需的答案
知識問答聚焦于解決事實型問答
-
事實型問題按問題類型:
- 單知識點問題
- 多知識點問題
-
事實型問題按問題領域:
- 垂直領域
- 知識圖譜規模更小
- 精度更高
- 知識問答的質量更容易提升
- 通用領域
- 垂直領域
-
攻克知識問答的關鍵在于:
- 理解并解析用戶提出的自然語言問句
- 自然語言處理
- 信息檢索
- 推理等多個領域的不同技術
-
研究方法可分為三大類:
- 基于語義解析
- 基于信息檢索
- 基于概率模型
單知識點問答已接近人類水平
-
更多的精力是解決復雜的多知識點事實型問答:
- 自然語言現象更豐富,關系詞的詞匯組著性、多關系詞間語序等
- 研究如何將多知識點問題轉化為單知識點問題
-
模型應具備更強的推理能力和更好的可解釋性:
- 更強的推理能力滿足用戶的復雜提問需求
- 更好的解釋性使用戶在“知其然”也能“知其所以然”
5.3 知識圖譜與機器推理
- 推理是指基于已知的事實或知識推理得出未知的事實或知識的過程
- 典型推理包括:
- 演繹推理
- 歸納推理
- 溯因推理
- 類比推理
- 推理主要作用是對知識圖譜進行補全和知識圖譜質量的校驗
- 推理出新的知識
- 識別出錯誤的知識
- 知識圖譜的知識:
- 概念層:概念之間的包含關系推理
- 實體層:主要包括鏈接預測與沖突檢測
- 實體層與概念層之間:主要包括實例檢測
- 推理方法:
- 基于規則的推理:通過定義或學習知識中存在的規則進行推理
- 規則推理在大型知識圖譜上的效率受限于它的離散性
- Cohen提出了一個可微的規則推理機TensorLog
- 硬邏輯規則:
- 每條規則的真值都為1,即絕對正確
- 人工編寫的規則多為硬邏輯規則
- 硬邏輯規則可寫成知識圖譜本地中的SWRL規則,然后通過如:Pellet、Hermit等本體推理機進行推理
- 軟邏輯規則:
- 每條規則的真值區間為0到1之間的概率
- 規則挖掘系統的結果多為軟邏輯規則
- 起學習過程一般是基于規則中結論與條件的共現特征
- 軟邏輯可通過真值重寫轉化為硬邏輯規則
- 主要優點:
- 比較接近人思考問題時的推理過程
- 結論可解釋
- 已經沉淀的規則具有較好的演繹能力
- 基于分布式表示學習的推理
- 核心是將知識圖譜映射到連續的向量空間中,并未知識圖譜中的元素學習分布式表示為低維稠密的向量或矩陣
- 通過分布式表示之間的計算完成隱式的推理
- 多數表示學習方法以單步關系即單個三元組為輸入和學習目標,不同的分布式表示學習方法對三元組的建模基于不同的空間假設
- 基于神經網絡的推理
- 通過神經網絡的設計模擬知識圖譜推理;
- NTN用一個雙線性張量層判斷頭實體和尾實體的關系;
- ConvE等在實體和關系的表示向量排布出的二維矩陣上采用卷積神經網絡進行鏈接預測;
- R-GCN通過圖卷積網絡捕捉實體的相鄰實體信息
- IRN采用記憶矩陣以及以遞歸神經網絡為結構的控制單元模擬多步推理的過程
- 基于神經網絡的知識圖譜推理表達能力強,在鏈接預測等任務上取得了不錯的效果
- 網絡結構的設計多樣,能滿足不同的推理需求
- 混合推理
- 結合了規則、表示學習和神經網絡
- NeuralLP是一種可微的知識圖譜推理方法,融合了關系的表示學習、規則學習以及循環神經網絡,由LSTM生成多步推理中的隱變量,并通過隱變量生成在多步推理中對每種關系的注意力
- DeepPath和MINERVA用強化學習方法學習知識 圖譜多步推理過程中的路徑選擇策略
- RUGE將已有的推理規則輸入知識圖譜表示學習過程中,約束和影響表示學習結果并取得更好的推理效果
- 對抗生成網絡(GAN)提升知識圖譜表示學習過程中的負樣本生產效率
- 混合能將各方法結合實現優勢互補,能夠同時提升推理結果的精確性和可解釋性
- 基于規則的知識圖譜推理
- 研究主要分為兩部分:
- 自動規則挖掘系統
- 基于規則的推理系統
- 目的:提升規則挖掘的效率和準確度
- 用神經網絡的設計代替知識圖譜上的離散搜索和隨機游走是比較值得關注的方向
- 研究主要分為兩部分:
- 基于表示學習的知識圖譜推理
- 研究主要趨勢:
- 一方面提高表示學習結果對知識圖譜中含有的語義信息的捕捉能力,目前就是鏈接預測任務上
- 利用分布式表示為橋梁,將知識圖譜與文本、圖像等異質信息結合,實現信息互補以及更多樣化的綜合推理
- 研究主要趨勢:
- 基于神經網絡的知識表示推理:
- 研究的主要趨勢:更加有效和有意義的神經網絡結構,來實現更加高效且精確的推理
- 通過對神經網絡中間結果的解析實現對推理結果的部分解釋是比較值得關注的方向
- 結合了規則、表示學習和神經網絡
- 基于規則的推理:通過定義或學習知識中存在的規則進行推理
5.4 知識圖譜與推薦系統
- 推薦算法的痛點:
- 啟動階段往往效果不佳,存在冷啟動問題
- 用戶歷史記錄數據往往較為稀疏,使得推薦算法的性能很難讓人滿意
- 知識圖譜作為先驗只是,可以為推薦算法提供語義特征,引入他們可以有效的緩解數據稀疏問題,提升模型性能
- 三類基于知識圖譜的推薦模型:
- 基于知識圖譜中元路徑的推薦模型
- 研究院利用圖上路徑的連通信息計算物品之間的相似度
- 利用元路徑在圖上傳播用戶偏好,并結合傳統的協同過濾模型,最終實現了個性化的推薦模型
- 路徑需人工選擇
- 基于概率邏輯程序的推薦模型
- 將推薦問題形式化為邏輯程序
- 邏輯程序對目標用戶按查詢得分高低輸出推薦物品的結果,最終尋找到目標用戶推薦物品
- 解決了路徑人工選擇的問題
- 無法有效利用物品與物品之間的關系和用戶與用戶之間的關系
- 基于知識圖譜表示學習技術的推薦模型
- 獲得知識圖譜中實體和關系的低維稠密向量,其可以在低維的向量空間中計算實體間的關聯性
- 與傳統的基于符號邏輯在圖上查詢和推理的方法相比,大大降低了計算的復雜度;
- 基于知識圖譜中元路徑的推薦模型
5.5 區塊鏈與去中心化的知識圖譜
語義網早期的理念:
- 知識的互聯:知識圖譜一定程度上實現了該方面
- 去中心化架構:強調知識已分散的方式互聯和相互連接,知識的發布者擁有完整的控制權
- 知識的可信
通過區塊鏈的技術實現去中心化的知識互聯,包含如下內容:
- 去中心化的實體ID管理
- 基于分布式賬本的屬于
- 實體命名管理
- 基于分布式賬本的知識溯源
- 知識簽名
- 權限管理等
知識圖譜數據來源廣泛,且知識的可信度量需要作用到實體和事實級別,如何有效對知識圖譜中的海量事實數據進行管理、追蹤和鑒真
知識圖譜引入智能合約中,幫助解決智能合約內生知識不足的問題,解決傳統智能合約數據不閉環的問題。
5.6 總結
- 知識圖譜是一種新型的信息系統基礎設施
- 知識圖譜要求用更規范的語義提升企業數據的質量
- 知識圖譜用鏈接數據的思想提升企業數據之間的關聯度
- 終極目標:
- 非結構化-》結構化
- 無顯示關聯-》高度關聯
- 粗糙-》高質量
- 技術維度:
- 知識表示
- 關系抽取
- 圖數據存儲
- 數據融合
- 推理補全
- 知識圖譜的構建和利用非單個領域的單一技術,需注重系統思維
- 知識圖譜作為AI的底層支撐從鮮有問津到逐步升溫,是通往未來的必經之路