wordnet是以同義詞集合(synset)作為基本建構單位進行組織的,即每個同義詞集是網絡里的一個結點,每個同義詞集合都代表一個基本的語義概念并且這些集合之前由各種關系連接。
詞語類型
共包含4種類型的詞匯,名詞,動詞,形容詞和副詞,各自被組織成一個同義詞的網絡。
關系類型(詳可見參考文獻5)
上下位關系(動詞、名詞)、蘊含關系(動詞)、相似關系(名詞)、成員部分關系(名詞)、物質部分關系(名詞)、部件部分關系(名詞)、致使關系(動詞)、相關動詞關系(動詞)、反義關系(形容詞)、近義關系(形容詞)、關系性形容詞(形容詞)、相關關系(形容詞)、屬性關系(形容詞)、反義關系
(副詞)、衍生關系(副詞)
注:
名詞有一棵上下位詞關系樹,根節點為entity,動詞有559棵上下位詞關系樹。
屬性關系(形容詞):如heavy是weight(名詞)的屬性
衍生關系(副詞):大部分副詞都從形容詞衍生得到,如happily衍生于happy
wordnet官網的relation部分介紹了wordnet中的主要關系
python wordnet
python的nltk包提供了讀wordnet的接口
下載nltk wordnet數據后的地址
參考資料
- wordnet官網https://wordnet.princeton.edu/
- python wordnet使用方法https://blog.csdn.net/King_John/article/details/80252594
- 知乎的一篇介紹https://zhuanlan.zhihu.com/p/26461511
- nltk wordnet文檔http://www.nltk.org/howto/wordnet.html
- wordnet關系https://wenku.baidu.com/view/18c6c532b90d6c85ec3ac6de.html#