斯坦福的corenlp,可以用來entities的提取。
http://nlp.stanford.edu/software/corenlp.shtml
關于情感分析
情感分析的詞庫,
sentiment Word
wordnet? 是近義詞詞典
sentiwordnet? 基于wordnet的,現在已經 3.0了http://sentiwordnet.isti.cnr.it/
sentiwords? 基于sentiwords的http://hlt-nlp.fbk.eu/technologies/sentiwords
中文的http://wenku.baidu.com/view/819b90d676eeaeaad1f3306e.html
情感詞典
1.知網的情感詞典
-http://www.keenage.com/html/c_bulletin_2007.htm
由知網發布的詞典,包括中文情感詞典和英文情感詞典
(以下需要論壇積分)
2.臺灣大學的情感極性詞典
-http://www.datatang.com/data/11837
包括2810個正極性詞語和8276個負極性詞語。準確度很高
情感分析語料
3.酒店評論語料
-http://www.datatang.com/data/11936
譚松波整理的一個較大規模的酒店評論語料。
語料規模為10000篇。語料從攜程網上自動采集,并經過整理而成。
4.豆瓣網影評情感測試語料
-http://www.datatang.com/data/13539
來自豆瓣網對電影《ICE AGE3》的評論,評分標準均按照5 stars評分在網頁中有標注。語料至527頁。每頁20條短評。共計11323條評論
5.酒店、電腦與書籍的評論語料
-http://www.datatang.com/data/11937
數據量不太大,也有一些重復的數據
6.評論網頁數據集
-http://www.datatang.com/data/12044
數據量不小,包括的電影和評論都不少
文本情感分析綜述?趙妍妍+, 秦兵, 劉挺
4.2 情感分析的資源建設
4.2.1 情感分析的語料
1.(可下載) 康奈爾大學(Cornell)提供的影評數據集(http://www.cs.cornell.edu/people/pabo/movie-review-data/):由電影評論組成,其中持肯定和否定態度的各1,000 篇;另外還有標注了褒貶極性的句子各5,331 句,標注了主客觀標簽的句子各5,000 句.目前影評庫被廣泛應用于各種粒度的,如詞語、句子和篇章級情感分析研究中.
2. 伊利諾伊大學芝加哥分校(UIC)的Hu 和Liu 提供的產品領域的評論語料:主要包括從亞馬遜和Cnet 下
載的五種電子產品的網絡評論(包括兩個品牌的數碼相機,手機,MP3 和DVD 播放器).其中他們將這些語料按句
子為單元詳細標注了評價對象,情感句的極性及強度等信息.因此,該語料適合于評價對象抽取和句子級主客觀
識別,以及情感分類方法的研究.此外,Liu 還貢獻了比較句研究[74]方面的語料.
3. (可下載)Janyce Wiebe 等人所開發的MPQA(Multiple-Perspective QA)庫:包含535 篇不同視角的新聞評論,它是一個進行了深度標注的語料庫.其中標注者為每個子句手工標注出一些情感信息,如觀點持有者,評價對象,主觀表達式以及其極性與強度.文獻[75]描述了整個的標注流程.MPQA 語料適合于新聞評論領域任務的研究.
4. 麻省理工學院(MIT)的Barzilay 等人構建的多角度餐館評論語料:共4,488 篇,每篇語料分別按照五個角
度(飯菜,環境,服務,價錢,整體體驗)分別標注上1~5 個等級.這組語料為單文檔的基于產品屬性的情感文摘提供
了研究平臺.
5. 國內的中科院計算所的譚松波博士提供的較大規模的中文酒店評論語料:約有10,000 篇,并標注了褒貶
類別,可以為中文的篇章級的情感分類提供一定的平臺.
4.2.2 情感分析的詞典資源
情感分析發展到現在,有不少前人總結出來的情感資源,大多數表現為評價詞詞典資源.
1. GI(General Inquirer)評價詞詞典(英文,http://www.wjh.harvard.edu/~inquirer/).該詞典收集了1,914 個褒義詞和2,293 個貶義詞,并為每個詞語按照極性,強度,詞性等打上不同的標簽,便于情感分析任務中的靈活應用.
2. NTU 評價詞詞典(繁體中文).該詞典由臺灣大學收集,含有2,812 個褒義詞與8,276 個貶義詞[76].
3.(可下載) 主觀詞詞典(英文,http://www.cs.pitt.edu/mpqa/).該詞典的主觀詞語來自OpinionFinder 系統,該詞典含有8,221 個主觀詞,并為每個詞語標注了詞性,詞性還原以及情感極性.
4. (可下載)HowNet 評價詞詞典(簡體中文、英文,http://www.keenage.com/html/e_index.html).該詞典包含9,193 個中文評價詞語/短語, 9,142 個英文評價詞語/短語,并被分為褒貶兩類.其中,該詞典提供了評價短語,為情感分析提供了更豐富的情感資源.
還有一個sentimen的提取的一個庫, pattern
http://blog.csdn.net/artemisrj/article/details/41556449
另外nltk也是有工具的。http://www.nltk.org/api/nltk.sentiment.html#module-nltk.sentiment
地理有關的信息??
http://www.datasciencetoolkit.org/
知乎上推薦的包,改天試試看,
http://www.zhihu.com/question/19929473
52npl上面整理的資料。
這個也可以看看哇。
http://www.oschina.net/project/tag/305/nlp
porter stemmer 處理詞語的失態問題 create created之類的??
隱馬爾可夫模型 (Hidden Markov Model,HMM) 的介紹
http://blog.csdn.net/likelet/article/details/7056068
條件隨機場的一篇介紹
http://download.csdn.net/download/zh515858237/2182521
【論文+(申請)下載:基于SentiWordNet的高準確率/覆蓋率新情感詞典SentiWords(155,286 words)】《SentiWords: Deriving a High Precision and High Coverage Lexicon for Sentiment Analysis》L Gatti, M Guerini, M Turchi (2015)http://t.cn/RUxgfXwproject page:http://t.cn/RUxgVjT
named entity recognizers LingPipe
LingPipe is tool kit for processing text using computational linguistics. LingPipe is used to do tasks like:
Find the names of people, organizations or locations in news
Automatically classify Twitter search results into categories
Suggest correct spellings of queries
1.NLTK
NLTK 在用 Python 處理自然語言的工具中處于領先的地位。它提供了 WordNet 這種方便處理詞匯資源的借口,還有分類、分詞、除莖、標注、語法分析、語義推理等類庫。
網站
安裝
安裝 NLTK:
sudo pip install -U nltk
安裝 Numpy (可選):
sudo pip install -U numpy
安裝測試:
python then type import nltk
體驗過它加的nlp,
2.Pattern
Pattern 的自然語言處理工具有詞性標注工具(Part-Of-Speech Tagger),N元搜索(n-gram search),情感分析(sentiment analysis),WordNet。支持機器學習的向量空間模型,聚類,向量機。
網站:
https://github.com/clips/pattern
安裝:
pip install pattern
3.TextBlob
TextBlob 是一個處理文本數據的 Python 庫。提供了一些簡單的api解決一些自然語言處理的任務,例如詞性標注、名詞短語抽取、情感分析、分類、翻譯等等。
網站:
http://textblob.readthedocs.org/en/dev/
安裝:
pip install -U textblob
4.Gensim
Gensim 提供了對大型語料庫的主題建模、文件索引、相似度檢索的功能。它可以處理大于RAM內存的數據。作者說它是“實現無干預從純文本語義建模的最強大、最高效、最無障礙的軟件。”
網站:
https://github.com/piskvorky/gensim
安裝:
pip install -U gensim
5.PyNLPI
它的全稱是:Python自然語言處理庫(Python Natural Language Processing Library,音發作: pineapple) 這是一個各種自然語言處理任務的集合,PyNLPI可以用來處理N元搜索,計算頻率表和分布,建立語言模型。他還可以處理向優先隊列這種更加復雜的數據結構,或者像 Beam 搜索這種更加復雜的算法。
安裝:
LInux:
sudo apt-get install pymol
Fedora:
yum install pymol
6.spaCy
這是一個商業的開源軟件。結合Python和Cython,它的自然語言處理能力達到了工業強度。是速度最快,領域內最先進的自然語言處理工具。
網站:
https://github.com/proycon/pynlpl
安裝:
pip install spacy
7.Polyglot
Polyglot 支持對海量文本和多語言的處理。它支持對165種語言的分詞,對196中語言的辨識,40種語言的專有名詞識別,16種語言的詞性標注,136種語言的情感分析,137種語言的嵌入,135種語言的形態分析,以及69中語言的翻譯。
網站:
https://pypi.python.org/pypi/polyglot
安裝
pip install polyglot
8.MontyLingua
MontyLingua 是一個自由的、訓練有素的、端到端的英文處理工具。輸入原始英文文本到 MontyLingua ,就會得到這段文本的語義解釋。適合用來進行信息檢索和提取,問題處理,回答問題等任務。從英文文本中,它能提取出主動賓元組,形容詞、名詞和動詞短語,人名、地名、事件,日期和時間,等語義信息。
網站:
http://web.media.mit.edu/~hugo/montylingua/
9.BLLIP Parser
BLLIP Parser(也叫做Charniak-Johnson parser)是一個集成了產生成分分析和最大熵排序的統計自然語言工具。包括 命令行 和 python接口 。
10.Quepy
Quepy是一個Python框架,提供將自然語言轉換成為數據庫查詢語言。可以輕松地實現不同類型的自然語言和數據庫查詢語言的轉化。所以,通過Quepy,僅僅修改幾行代碼,就可以實現你自己的自然語言查詢數據庫系統。
網站W
https://github.com/machinalis/quepy
還有一個sentimen的提取的一個庫, pattern