一、摘要
先引入問題。由于數據的大量增長,采用直觀的途徑獲取信息越來越重要,問答系統是一個既滿足直觀性又滿足表達能力的折衷方案。
然后介紹通用的做法,有什么難點。將問題轉化問rdf三元組,去知識庫中檢索答案,該方式不能很好的表示自然語言問題的語義,很多問題回答不了。
接著介紹本文的方法。對問題進行深層語義解析,產生一個sparql查詢模板,該模板能完整的映射問題的語義結構。利用統計實體識別和謂詞檢測等方法填充模板中的槽。
最后表明本系統的回答問題的能力要優于其他系統。
二、介紹
先介紹通常情況的問答解析思路,把問題轉化為N個三元組來表示,然后去知識庫中檢索。
然后舉了幾個把問題轉換成sparql模板的例子,重點描述了含有more than、most的例子。
三、模板生成
利用Pythia,通過借助領域無關詞庫和領域相關詞庫產生自然語言問題的句法樹(詞匯化鄰接樹算法)和語義表示。
四、實體識別
名詞短語和名詞采用通用的識別算法(字串相似度)。謂詞檢測采用知識庫和BOA pattern結合的方法,定義support、typicity和specificity給謂詞打分,得分最高的就是最佳謂詞表達式(自然語言問題)—謂詞(知識庫)的映射關系。
五、query排序與查詢
經過三、四兩個環節會產生多個spraql查詢,根據相似性分數和顯著性分數,以及類型一致性檢查、空結果剔除等方法,獲得合適的query。