現(xiàn)如今構(gòu)建人工智能或機(jī)器學(xué)習(xí)系統(tǒng)比以往的時候更加容易。普遍存在的尖端開源工具如 TensorFlow、Torch 和 Spark,再加上通過 AWS 的大規(guī)模計算力、Google Cloud 或其他供應(yīng)商的云計算,這些都意味著你可以在下午休閑時間使用筆記本電腦去訓(xùn)練出最前沿的機(jī)器學(xué)習(xí)模型。
雖然不算是人工智能訓(xùn)練的最前沿,但人工智能的無名英雄確實(shí)就是數(shù)據(jù),許多許多標(biāo)注或未標(biāo)注的數(shù)據(jù)。研究部門和公司也都認(rèn)識到數(shù)據(jù)民主化是加快人工智能的必要步驟。
然而,涉及到機(jī)器學(xué)習(xí)或人工智能的大多數(shù)產(chǎn)品強(qiáng)烈依賴于那些通常沒有開放的私有數(shù)據(jù)集,而本文將指出解決這種困境的辦法。
事實(shí)上,我們很難用一篇文章來說明哪些開放數(shù)據(jù)集是有用的,因?yàn)槟切┯杏玫拈_放數(shù)據(jù)集必須是可概念證明的,而什么數(shù)據(jù)集對產(chǎn)品或確認(rèn)特征是有用的,在你收集你自己所有數(shù)據(jù)之前是不知道的。
重要的是,如果數(shù)據(jù)集有良好的表現(xiàn)并不能保證其訓(xùn)練的機(jī)器學(xué)習(xí)系統(tǒng)在實(shí)際產(chǎn)品場景中表現(xiàn)良好。許多人在構(gòu)建人工智能系統(tǒng)時常常忘了構(gòu)建一個新人工智能解決方案或產(chǎn)品最困難的部分不是人工智能本身或算法,通常最困難的地方是數(shù)據(jù)收集和標(biāo)注。標(biāo)準(zhǔn)數(shù)據(jù)集可以作為驗(yàn)證或構(gòu)建更優(yōu)良解決辦法的良好起點(diǎn)。
以下搜集了一些開源數(shù)據(jù)集,這些開源數(shù)據(jù)集是我們認(rèn)為在人工智能的世界里你所需要了解的。
計算機(jī)視覺
MNIST: 最通用的健全檢查。25x25 的數(shù)據(jù)集,中心化,B&W 手寫數(shù)字。這是個容易的任務(wù)——但是在 MNIST 有效,不等同于其本身是有效的。
地址:http://pjreddie.com/projects/mnist-in-csv/
CIFAR 10 & CIFAR 100: 32x32 彩色圖像。雖不再常用,但還是用了一次,可以是一項(xiàng)有趣的健全檢查。
地址:https://www.cs.toronto.edu/~kriz/cifar.html
ImageNet: 新算法實(shí)際上的圖像數(shù)據(jù)集。很多圖片 API 公司從其 REST 接口獲取標(biāo)簽,這些標(biāo)簽被懷疑與 ImageNet 的下一級 WordNet 的 1000 個范疇很接近。
地址:http://image-net.org/
LSUN: 場景理解具有很多輔助任務(wù)(房間布置評估、顯著性預(yù)測等)和一個相關(guān)競爭。
地址:http://lsun.cs.princeton.edu/2016/
PASCAL VOC: 通用圖像分割/分類:對于構(gòu)建真實(shí)世界的圖像注釋毫無用處,對于基線則意義重大。
地址:http://host.robots.ox.ac.uk/pascal/VOC/
SVHN: 來自谷歌街景視圖(Google Street View)的房屋數(shù)量。把這想象成荒野之中的周期性 MNIST。
地址:http://ufldl.stanford.edu/housenumbers/
MS COCO: 帶有一個相關(guān)性競爭的通用圖像理解/字幕。
地址:http://mscoco.org/
Visual Genome: 非常詳細(xì)的視覺知識庫,并帶有 100K 圖像的深字幕。
地址:http://visualgenome.org/
Labeled Faces in the Wild:通過名稱標(biāo)識符,已經(jīng)為被裁剪的面部區(qū)域(用 Viola-Jones)打了標(biāo)簽。現(xiàn)有人類的子集在數(shù)據(jù)集中有兩個圖像。對于這里做面部匹配系統(tǒng)訓(xùn)練的人來說,這很正常。
地址:http://vis-www.cs.umass.edu/lfw/
自然語言
文本分類數(shù)據(jù)集(2015 年來自 Zhang 等人):一個用于文本分類的合 8 個數(shù)據(jù)集為 1 個的大型數(shù)據(jù)集。這些是用于新文本分類的最常被報道的基線。樣本大小從 120K 到 3.6M, 問題從 2 級到 14 級。數(shù)據(jù)集來自 DBPedia、Amazon、Yelp、Yahoo!、Sogou 和 AG。
地址https://drive.google.com/drive/u/0/folders/0Bz8a_Dbh9Qhbfll6bVpmNUtUcFdjYmF2SEpmZUZUcVNiMUw1TWN6RDV3a0JHT3kxLVhVR2M
WikiText:來自由 Salesforce MetaMind 精心策劃的維基百科文章中的大型語言建模語料庫。
地址:http://metamind.io/research/the-wikitext-long-term-dependency-language-modeling-dataset/
Question Pairs:從包含重復(fù)/語義相似性標(biāo)簽的 Quora 釋放出來的第一個數(shù)據(jù)集。
地址:https://data.quora.com/First-Quora-Dataset-Release-Question-Pairs
SQuAD: 斯坦福大學(xué)問答數(shù)據(jù)集(The Stanford Question Answering Dataset)——一個被廣泛應(yīng)用于問題回答和閱讀理解的數(shù)據(jù)集,其中每個問題的答案形式是文本的一個片段或碎片。
地址:https://rajpurkar.github.io/SQuAD-explorer/
CMU Q/A Dataset: 手動生成的仿真陳述問題/回答與維基百科文章的難度評級相對應(yīng)。
地址:http://www.cs.cmu.edu/~ark/QA-data/
Maluuba Datasets: 用于狀態(tài)性自然語言理解研究的人工生成的精密數(shù)據(jù)集。
地址:https://datasets.maluuba.com/
Billion Words: 大型,有統(tǒng)一目標(biāo)的語言建模數(shù)據(jù)集。常被用來訓(xùn)練諸如 word2vec 或 Glove 的分布式詞表征。
地址:http://www.statmt.org/lm-benchmark/
Common Crawl: PB 級規(guī)模的網(wǎng)絡(luò)爬行——常被用來學(xué)習(xí)詞嵌入。可從 Amazon S3 上免費(fèi)獲取。由于它是 WWW 的抓取,同樣也可以作為網(wǎng)絡(luò)數(shù)據(jù)集來使用。
地址:http://commoncrawl.org/the-data/
bAbi: 來自 FAIR(Facebook AI Research)的合成式閱讀理解與問答數(shù)據(jù)集。
地址:https://research.fb.com/projects/babi/
The Children’s Book Test:從來自古登堡計劃的童書中提取(問題+上下文,回答)組的基線。這對問題回答、閱讀理解和仿真陳述查詢有用。
地址:https://research.fb.com/projects/babi/
Stanford Sentiment Treebank: 標(biāo)準(zhǔn)的情感數(shù)據(jù)集,在每一個句子解析樹的節(jié)點(diǎn)上帶有細(xì)膩的情感注解。
地址:http://nlp.stanford.edu/sentiment/code.html
20 Newsgroups: 文本分類經(jīng)典數(shù)據(jù)集中的一個。通常可用作純分類或任何 IR/索引算法的基準(zhǔn)。
地址:http://qwone.com/~jason/20Newsgroups/
Reuters: 舊的,純粹基于分類的數(shù)據(jù)集與來自新聞專線的文本。常用于教程。
地址:https://archive.ics.uci.edu/ml/datasets/Reuters-21578+Text+Categorization+Collection
IMDB:一個用于二元情感分類的更舊更小的數(shù)據(jù)集。
地址:http://ai.stanford.edu/~amaas/data/sentiment/
UCI’s Spambase: 來自著名的 UCI 機(jī)器學(xué)習(xí)庫較久的經(jīng)典垃圾電子郵件數(shù)據(jù)集。由于數(shù)據(jù)集的策劃細(xì)節(jié),這可以是一個學(xué)習(xí)個性化過濾垃圾郵件的有趣基線。
地址:https://archive.ics.uci.edu/ml/datasets/Spambase
語音
大多數(shù)語音識別數(shù)據(jù)集是有所有權(quán)的,這些數(shù)據(jù)為收集它們的公司帶來了大量的價值,但在這一領(lǐng)域里,許多可用的數(shù)據(jù)集都是比較舊的。
2000 HUB5 English: 僅僅只包含英語的語音數(shù)據(jù),最近百度發(fā)表的論文《深度語音:擴(kuò)展端對端語音識別(Deep Speech: Scaling up end-to-end speech recognition)》就是使用了該語音數(shù)據(jù)集。
地址:https://catalog.ldc.upenn.edu/LDC2002T43
LibriSpeech:包括文本和語音的有聲讀物數(shù)據(jù)集。它是近 500 小時由多人朗讀清晰的各類有聲讀物數(shù)據(jù)集,且由包含文本和語音的書籍章節(jié)組織起結(jié)構(gòu)。
地址:http://www.openslr.org/12/
VoxForge:帶口音的語音清潔數(shù)據(jù)集,特別是對于如期望對不同口音或腔調(diào)的語音有魯棒性需求的系統(tǒng)很有用。
地址:http://www.voxforge.org/
TIMIT:只包含英語的語音識別數(shù)據(jù)集。
地址:https://catalog.ldc.upenn.edu/LDC93S1
CHIME:包含噪聲的語音識別數(shù)據(jù)集。該數(shù)據(jù)集包含真實(shí)、模擬和清潔的語音記錄。實(shí)際上是記錄四個說話者在四個噪聲源的情況下近 9000 份記錄,模擬數(shù)據(jù)是在結(jié)合話語行為和清潔無噪語音記錄的多環(huán)境下生成的。
地址:http://spandh.dcs.shef.ac.uk/chime_challenge/data.html
TED-LIUM:TED 演講的語音轉(zhuǎn)錄數(shù)據(jù)集。1495 份 TED 演講的語音記錄,并且這些語音記錄有對應(yīng)的全文本。
地址:http://www-lium.univ-lemans.fr/en/content/ted-lium-corpus
推薦和排序系統(tǒng)
Netflix Challenge:第一個主要 Kaggle 風(fēng)格的數(shù)據(jù)庫。因?yàn)榇嬖陔[私問題,只能非正式地獲得授權(quán)。
地址:http://www.netflixprize.com/
MovieLens:各種電影的評論數(shù)據(jù)庫,通常用于基線協(xié)同過濾(collaborative filtering baselines)。
地址:https://grouplens.org/datasets/movielens/
Million Song Dataset:在 Kaggle 上大量、富元數(shù)據(jù)(metadata-rich)、開源的數(shù)據(jù)集,有利于人們試驗(yàn)混合推薦系統(tǒng)(hybrid recommendation systems)。
地址:https://www.kaggle.com/c/msdchallenge
Last.fm:音樂推薦數(shù)據(jù)集,該數(shù)據(jù)集能有權(quán)訪問底層社交網(wǎng)絡(luò)和其他元數(shù)據(jù),而這樣的數(shù)據(jù)集正對混合系統(tǒng)有巨大的作用。
地址:http://grouplens.org/datasets/hetrec-2011/
網(wǎng)絡(luò)和圖表
Amazon Co-Purchasing 和 Amazon Reviews:從亞馬遜以及相關(guān)產(chǎn)品評論數(shù)據(jù)網(wǎng)絡(luò)爬取的如「用戶買了這個同時也會買哪個」這樣的語句。適合在互聯(lián)網(wǎng)中進(jìn)行推薦系統(tǒng)的測試。
地址:http://snap.stanford.edu/data/#amazon 和 http://snap.stanford.edu/data/amazon-meta.html
Friendster Social Network Dataset:在 Friendster 的重心轉(zhuǎn)入到游戲網(wǎng)站之前,這家網(wǎng)站發(fā)布了包含 103,750,348 個用戶好友列表的匿名數(shù)據(jù)集。
地址:https://archive.org/details/friendster-dataset-201107
地理測繪數(shù)據(jù)庫
OpenStreetMap:免費(fèi)許可的全球矢量數(shù)據(jù)集。其包含了舊版的美國人口統(tǒng)計局的 TIGER 數(shù)據(jù)。
地址:http://wiki.openstreetmap.org/wiki/Planet.osm
Landsat8:整個地球表面的衛(wèi)星拍攝數(shù)據(jù),每隔幾周會更新一次。
地址:https://landsat.usgs.gov/landsat-8
NEXRAD:多普雷達(dá)掃描的美國大氣環(huán)境。
地址:https://www.ncdc.noaa.gov/data-access/radar-data/nexrad
人們常常認(rèn)為解決一個數(shù)據(jù)集上的問題就相當(dāng)于對產(chǎn)品進(jìn)行了一次完整的審視。因?yàn)槲覀兛梢允褂眠@些數(shù)據(jù)集進(jìn)行驗(yàn)證或證明一個概念,但是也不要忘了測試模型或原型是如何獲取新的和更實(shí)際的數(shù)據(jù)來提高運(yùn)算效果,獲得優(yōu)良產(chǎn)品的。數(shù)據(jù)驅(qū)動的成功公司通常從他們收集新數(shù)據(jù)、私有數(shù)據(jù)的能力中獲得力量,從而以一種具有競爭力的方式提高他們的表現(xiàn)。
60款頂級大數(shù)據(jù)開源工具
一、Hadoop相關(guān)工具1.Hadoop
Apache的Hadoop項(xiàng)目已幾乎與大數(shù)據(jù)劃上了等號。它不斷壯大起來,已成為一個完整的生態(tài)系統(tǒng),眾多開源工具面向高度擴(kuò)展的分布式計算。
支持的操作系統(tǒng):Windows、Linux和OS X。
相關(guān)鏈接:http://hadoop.apache.org
2.Ambari
作為Hadoop生態(tài)系統(tǒng)的一部分,這個Apache項(xiàng)目提供了基于Web的直觀界面,可用于配置、管理和監(jiān)控Hadoop集群。有些開發(fā)人員想把Ambari的功能整合到自己的應(yīng)用程序當(dāng)中,Ambari也為他們提供了充分利用REST(代表性狀態(tài)傳輸協(xié)議)的API。
支持的操作系統(tǒng):Windows、Linux和OS X。
相關(guān)鏈接:http://ambari.apache.org
3.Avro
這個Apache項(xiàng)目提供了數(shù)據(jù)序列化系統(tǒng),擁有豐富的數(shù)據(jù)結(jié)構(gòu)和緊湊格式。模式用JSON來定義,它很容易與動態(tài)語言整合起來。
支持的操作系統(tǒng):與操作系統(tǒng)無關(guān)。
相關(guān)鏈接:http://avro.apache.org
4.Cascading
Cascading是一款基于Hadoop的應(yīng)用程序開發(fā)平臺。提供商業(yè)支持和培訓(xùn)服務(wù)。
支持的操作系統(tǒng):與操作系統(tǒng)無關(guān)。
相關(guān)鏈接:http://www.cascading.org/projects/cascading/
5.Chukwa
Chukwa基于Hadoop,可以收集來自大型分布式系統(tǒng)的數(shù)據(jù),用于監(jiān)控。它還含有用于分析和顯示數(shù)據(jù)的工具。
支持的操作系統(tǒng):Linux和OS X。
相關(guān)鏈接:http://chukwa.apache.org
6.Flume
Flume可以從其他應(yīng)用程序收集日志數(shù)據(jù),然后將這些數(shù)據(jù)送入到Hadoop。官方網(wǎng)站聲稱:“它功能強(qiáng)大、具有容錯性,還擁有可以調(diào)整優(yōu)化的可靠性機(jī)制和許多故障切換及恢復(fù)機(jī)制。”
支持的操作系統(tǒng):Linux和OS X。
相關(guān)鏈接:https://cwiki.apache.org/confluence/display/FLUME/Home
7.HBase
HBase是為有數(shù)十億行和數(shù)百萬列的超大表設(shè)計的,這是一種分布式數(shù)據(jù)庫,可以對大數(shù)據(jù)進(jìn)行隨機(jī)性的實(shí)時讀取/寫入訪問。它有點(diǎn)類似谷歌的Bigtable,不過基于Hadoop和Hadoop分布式文件系統(tǒng)(HDFS)而建。
支持的操作系統(tǒng):與操作系統(tǒng)無關(guān)。
相關(guān)鏈接:http://hbase.apache.org
8.Hadoop分布式文件系統(tǒng)(HDFS)
HDFS是面向Hadoop的文件系統(tǒng),不過它也可以用作一種獨(dú)立的分布式文件系統(tǒng)。它基于Java,具有容錯性、高度擴(kuò)展性和高度配置性。
支持的操作系統(tǒng):Windows、Linux和OS X。
相關(guān)鏈接:https://hadoop.apache.org/docs/stable/hadoop-project-dist/hadoop-hdfs/HdfsUserGuide.html
9.Hive
Apache Hive是面向Hadoop生態(tài)系統(tǒng)的數(shù)據(jù)倉庫。它讓用戶可以使用HiveQL查詢和管理大數(shù)據(jù),這是一種類似SQL的語言。
支持的操作系統(tǒng):與操作系統(tǒng)無關(guān)。
相關(guān)鏈接:http://hive.apache.org
10.Hivemall
Hivemall結(jié)合了面向Hive的多種機(jī)器學(xué)習(xí)算法。它包括諸多高度擴(kuò)展性算法,可用于數(shù)據(jù)分類、遞歸、推薦、k最近鄰、異常檢測和特征哈希。
支持的操作系統(tǒng):與操作系統(tǒng)無關(guān)。
相關(guān)鏈接:https://github.com/myui/hivemall
11.Mahout
據(jù)官方網(wǎng)站聲稱,Mahout項(xiàng)目的目的是“為迅速構(gòu)建可擴(kuò)展、高性能的機(jī)器學(xué)習(xí)應(yīng)用程序打造一個環(huán)境。”它包括用于在Hadoop MapReduce上進(jìn)行數(shù)據(jù)挖掘的眾多算法,還包括一些面向Scala和Spark環(huán)境的新穎算法。
支持的操作系統(tǒng):與操作系統(tǒng)無關(guān)。
相關(guān)鏈接:http://mahout.apache.org
12.MapReduce
作為Hadoop一個不可或缺的部分,MapReduce這種編程模型為處理大型分布式數(shù)據(jù)集提供了一種方法。它最初是由谷歌開發(fā)的,但現(xiàn)在也被本文介紹的另外幾個大數(shù)據(jù)工具所使用,包括CouchDB、MongoDB和Riak。
支持的操作系統(tǒng):與操作系統(tǒng)無關(guān)。
13.Oozie
這種工作流程調(diào)度工具是為了管理Hadoop任務(wù)而專門設(shè)計的。它能夠按照時間或按照數(shù)據(jù)可用情況觸發(fā)任務(wù),并與MapReduce、Pig、Hive、Sqoop及其他許多相關(guān)工具整合起來。
支持的操作系統(tǒng):Linux和OS X。
相關(guān)鏈接:http://oozie.apache.org
14.Pig
Apache Pig是一種面向分布式大數(shù)據(jù)分析的平臺。它依賴一種名為Pig Latin的編程語言,擁有簡化的并行編程、優(yōu)化和可擴(kuò)展性等優(yōu)點(diǎn)。
支持的操作系統(tǒng):與操作系統(tǒng)無關(guān)。
相關(guān)鏈接:http://pig.apache.org
15.Sqoop
企業(yè)經(jīng)常需要在關(guān)系數(shù)據(jù)庫與Hadoop之間傳輸數(shù)據(jù),而Sqoop就是能完成這項(xiàng)任務(wù)的一款工具。它可以將數(shù)據(jù)導(dǎo)入到Hive或HBase,并從Hadoop導(dǎo)出到關(guān)系數(shù)據(jù)庫管理系統(tǒng)(RDBMS)。
支持的操作系統(tǒng):與操作系統(tǒng)無關(guān)。
相關(guān)鏈接:http://sqoop.apache.org
16.Spark
作為MapReduce之外的一種選擇,Spark是一種數(shù)據(jù)處理引擎。它聲稱,用在內(nèi)存中時,其速度比MapReduce最多快100倍;用在磁盤上時,其速度比MapReduce最多快10倍。它可以與Hadoop和Apache Mesos一起使用,也可以獨(dú)立使用。
支持的操作系統(tǒng):Windows、Linux和OS X。
相關(guān)鏈接:http://spark.apache.org
17.Tez
Tez建立在Apache Hadoop YARN的基礎(chǔ)上,這是“一種應(yīng)用程序框架,允許為任務(wù)構(gòu)建一種復(fù)雜的有向無環(huán)圖,以便處理數(shù)據(jù)。”它讓Hive和Pig可以簡化復(fù)雜的任務(wù),而這些任務(wù)原本需要多個步驟才能完成。
支持的操作系統(tǒng):Windows、Linux和OS X。
相關(guān)鏈接:http://tez.apache.org
18.Zookeeper
這種大數(shù)據(jù)管理工具自稱是“一項(xiàng)集中式服務(wù),可用于維護(hù)配置信息、命名、提供分布式同步以及提供群組服務(wù)。”它讓Hadoop集群里面的節(jié)點(diǎn)可以彼此協(xié)調(diào)。
支持的操作系統(tǒng):Linux、Windows(只適合開發(fā)環(huán)境)和OS X(只適合開發(fā)環(huán)境)。
相關(guān)鏈接:http://zookeeper.apache.org
二、大數(shù)據(jù)分析平臺和工具19.Disco
Disco最初由諾基亞開發(fā),這是一種分布式計算框架,與Hadoop一樣,它也基于MapReduce。它包括一種分布式文件系統(tǒng)以及支持?jǐn)?shù)十億個鍵和值的數(shù)據(jù)庫。
支持的操作系統(tǒng):Linux和OS X。
相關(guān)鏈接:http://discoproject.org
20.HPCC
作為Hadoop之外的一種選擇,HPCC這種大數(shù)據(jù)平臺承諾速度非常快,擴(kuò)展性超強(qiáng)。除了免費(fèi)社區(qū)版外,HPCC Systems還提供收費(fèi)的企業(yè)版、收費(fèi)模塊、培訓(xùn)、咨詢及其他服務(wù)。
支持的操作系統(tǒng):Linux。
相關(guān)鏈接:http://hpccsystems.com
21.Lumify
Lumify歸Altamira科技公司(以國家安全技術(shù)而聞名)所有,這是一種開源大數(shù)據(jù)整合、分析和可視化平臺。你只要在Try.Lumify.io試一下演示版,就能看看它的實(shí)際效果。
支持的操作系統(tǒng):Linux。
相關(guān)鏈接:http://www.jboss.org/infinispan.html
22.Pandas
Pandas項(xiàng)目包括基于Python編程語言的數(shù)據(jù)結(jié)構(gòu)和數(shù)據(jù)分析工具。它讓企業(yè)組織可以將Python用作R之外的一種選擇,用于大數(shù)據(jù)分析項(xiàng)目。
支持的操作系統(tǒng):Windows、Linux和OS X。
相關(guān)鏈接:http://pandas.pydata.org
23.Storm
Storm現(xiàn)在是一個Apache項(xiàng)目,它提供了實(shí)時處理大數(shù)據(jù)的功能(不像Hadoop只提供批任務(wù)處理)。其用戶包括推特、美國天氣頻道、WebMD、阿里巴巴、Yelp、雅虎日本、Spotify、Group、Flipboard及其他許多公司。
支持的操作系統(tǒng):Linux。
相關(guān)鏈接:https://storm.apache.org
三、數(shù)據(jù)庫/數(shù)據(jù)倉庫24.Blazegraph
Blazegraph之前名為“Bigdata”,這是一種高度擴(kuò)展、高性能的數(shù)據(jù)庫。它既有使用開源許可證的版本,也有使用商業(yè)許可證的版本。
支持的操作系統(tǒng):與操作系統(tǒng)無關(guān)。
相關(guān)鏈接:http://www.systap.com/bigdata
25.Cassandra
這種NoSQL數(shù)據(jù)庫最初由Facebook開發(fā),現(xiàn)已被1500多家企業(yè)組織使用,包括蘋果、歐洲原子核研究組織(CERN)、康卡斯特、電子港灣、GitHub、GoDaddy、Hulu、Instagram、Intuit、Netfilx、Reddit及其他機(jī)構(gòu)。它能支持超大規(guī)模集群;比如說,蘋果部署的Cassandra系統(tǒng)就包括75000多個節(jié)點(diǎn),擁有的數(shù)據(jù)量超過10 PB。
支持的操作系統(tǒng):與操作系統(tǒng)無關(guān)。
相關(guān)鏈接:http://cassandra.apache.org
26.CouchDB
CouchDB號稱是“一款完全擁抱互聯(lián)網(wǎng)的數(shù)據(jù)庫”,它將數(shù)據(jù)存儲在JSON文檔中,這種文檔可以通過Web瀏覽器來查詢,并且用JavaScript來處理。它易于使用,在分布式上網(wǎng)絡(luò)上具有高可用性和高擴(kuò)展性。
支持的操作系統(tǒng):Windows、Linux、OS X和安卓。
相關(guān)鏈接:http://couchdb.apache.org
27.FlockDB
由推特開發(fā)的FlockDB是一種非常快、擴(kuò)展性非常好的圖形數(shù)據(jù)庫,擅長存儲社交網(wǎng)絡(luò)數(shù)據(jù)。雖然它仍可用于下載,但是這個項(xiàng)目的開源版已有一段時間沒有更新了。
支持的操作系統(tǒng):與操作系統(tǒng)無關(guān)。
相關(guān)鏈接:https://github.com/twitter/flockdb
28.Hibari
這個基于Erlang的項(xiàng)目自稱是“一種分布式有序鍵值存儲系統(tǒng),保證擁有很強(qiáng)的一致性”。它最初是由Gemini Mobile Technologies開發(fā)的,現(xiàn)在已被歐洲和亞洲的幾家電信運(yùn)營商所使用。
支持的操作系統(tǒng):與操作系統(tǒng)無關(guān)。
相關(guān)鏈接:http://hibari.github.io/hibari-doc/
29.Hypertable
Hypertable是一種與Hadoop兼容的大數(shù)據(jù)數(shù)據(jù)庫,承諾性能超高,其用戶包括電子港灣、百度、高朋、Yelp及另外許多互聯(lián)網(wǎng)公司。提供商業(yè)支持服務(wù)。
支持的操作系統(tǒng):Linux和OS X。
相關(guān)鏈接:http://hypertable.org
30.Impala
Cloudera聲稱,基于SQL的Impala數(shù)據(jù)庫是“面向Apache Hadoop的領(lǐng)先的開源分析數(shù)據(jù)庫”。它可以作為一款獨(dú)立產(chǎn)品來下載,又是Cloudera的商業(yè)大數(shù)據(jù)產(chǎn)品的一部分。
支持的操作系統(tǒng):Linux和OS X。
相關(guān)鏈接:http://www.cloudera.com/content/cloudera/en/products-and-services/cdh/impala.html
31.InfoBright社區(qū)版
InfoBright為數(shù)據(jù)分析而設(shè)計,這是一種面向列的數(shù)據(jù)庫,具有很高的壓縮比。InfoBright.com提供基于同一代碼的收費(fèi)產(chǎn)品,提供支持服務(wù)。
支持的操作系統(tǒng):Windows和Linux。
相關(guān)鏈接:http://www.infobright.org
32.MongoDB
mongoDB的下載量已超過1000萬人次,這是一種極其受歡迎的NoSQL數(shù)據(jù)庫。MongoDB.com上提供了企業(yè)版、支持、培訓(xùn)及相關(guān)產(chǎn)品和服務(wù)。
支持的操作系統(tǒng):Windows、Linux、OS X和Solaris。
相關(guān)鏈接:http://www.mongodb.org
33.Neo4j
Neo4j自稱是“速度最快、擴(kuò)展性最佳的原生圖形數(shù)據(jù)庫”,它承諾具有大規(guī)模擴(kuò)展性、快速的密碼查詢性能和經(jīng)過改進(jìn)的開發(fā)效率。用戶包括電子港灣、必能寶(Pitney Bowes)、沃爾瑪、德國漢莎航空公司和CrunchBase。
支持的操作系統(tǒng):Windows和Linux。
相關(guān)鏈接:http://neo4j.org
34.OrientDB
這款多模型數(shù)據(jù)庫結(jié)合了圖形數(shù)據(jù)庫的一些功能和文檔數(shù)據(jù)庫的一些功能。提供收費(fèi)支持、培訓(xùn)和咨詢等服務(wù)。
支持的操作系統(tǒng):與操作系統(tǒng)無關(guān)。
相關(guān)鏈接:http://www.orientdb.org/index.htm
35.Pivotal Greenplum Database
Pivotal聲稱,Greenplum是“同類中最佳的企業(yè)級分析數(shù)據(jù)庫”,能夠非常快速地對龐大的海量數(shù)據(jù)進(jìn)行功能強(qiáng)大的分析。它是Pivotal大數(shù)據(jù)庫套件的一部分。
支持的操作系統(tǒng):Windows、Linux和OS X。
相關(guān)鏈接:http://pivotal.io/big-data/pivotal-greenplum-database
36.Riak
Riak“功能完備”,有兩個版本:KV是分布式NoSQL數(shù)據(jù)庫,S2提供了面向云環(huán)境的對象存儲。它既有開源版,也有商業(yè)版,還有支持Spark、Redis和Solr的附件。
支持的操作系統(tǒng):Linux和OS X。
相關(guān)鏈接:http://basho.com/riak-0-10-is-full-of-great-stuff/
37.Redis
Redis現(xiàn)在由Pivotal贊助,這是一種鍵值緩存和存儲系統(tǒng)。提供收費(fèi)支持。要注意:雖然該項(xiàng)目并不正式支持Windows,不過微軟在GitHub上有一個Windows派生版。
支持的操作系統(tǒng):Linux。
相關(guān)鏈接:http://redis.io
四、商業(yè)智能38.Talend Open Studio
Talend的下載量已超過200萬人次,其開源軟件提供了數(shù)據(jù)整合功能。該公司還開發(fā)收費(fèi)的大數(shù)據(jù)、云、數(shù)據(jù)整合、應(yīng)用程序整合和主數(shù)據(jù)管理等工具。其用戶包括美國國際集團(tuán)(AIG)、康卡斯特、電子港灣、通用電氣、三星、Ticketmaster和韋里遜等企業(yè)組織。
支持的操作系統(tǒng):Windows、Linux和OS X。
相關(guān)鏈接:http://www.talend.com/index.php
39.Jaspersoft
Jaspersoft提供了靈活、可嵌入的商業(yè)智能工具,用戶包括眾多企業(yè)組織:高朋、冠群科技、美國農(nóng)業(yè)部、愛立信、時代華納有線電視、奧林匹克鋼鐵、內(nèi)斯拉斯加大學(xué)和通用動力公司。除了開源社區(qū)版外,它還提供收費(fèi)的報表版、亞馬遜網(wǎng)絡(luò)服務(wù)(AWS)版、專業(yè)版和企業(yè)版。
支持的操作系統(tǒng):與操作系統(tǒng)無關(guān)。
相關(guān)鏈接:http://www.jaspersoft.com
40.Pentaho
Pentaho歸日立數(shù)據(jù)系統(tǒng)公司所有,它提供了一系列數(shù)據(jù)整合和業(yè)務(wù)分析工具。官方網(wǎng)站上提供了三個社區(qū)版;訪問Pentaho.com,即可了解收費(fèi)支持版方面的信息。
支持的操作系統(tǒng):Windows、Linux和OS X。
相關(guān)鏈接:http://community.pentaho.com
41.SpagoBI
Spago被市場分析師們稱為“開源領(lǐng)袖”,它提供商業(yè)智能、中間件和質(zhì)量保證軟件,另外還提供Java EE應(yīng)用程序開發(fā)框架。該軟件百分之分免費(fèi)、開源,不過也提供收費(fèi)的支持、咨詢、培訓(xùn)及其他服務(wù)。
支持的操作系統(tǒng):與操作系統(tǒng)無關(guān)。
相關(guān)鏈接:http://www.spagoworld.org/xwiki/bin/view/SpagoWorld/
42.KNIME
KNIME的全稱是“康斯坦茨信息挖掘工具”(Konstanz Information Miner),這是一種開源分析和報表平臺。提供了幾個商業(yè)和開源擴(kuò)展件,以增強(qiáng)其功能。
支持的操作系統(tǒng):Windows、Linux和OS X。
相關(guān)鏈接:http://www.knime.org
43.BIRT
BIRT的全稱是“商業(yè)智能和報表工具”。它提供的一種平臺可用于制作可以嵌入到應(yīng)用程序和網(wǎng)站中的可視化元素及報表。它是Eclipse社區(qū)的一部分,得到了Actuate、IBM和Innovent Solutions的支持。
支持的操作系統(tǒng):與操作系統(tǒng)無關(guān)。
相關(guān)鏈接:http://www.eclipse.org/birt/
五、數(shù)據(jù)挖掘44.DataMelt
作為jHepWork的后續(xù)者,DataMelt可以處理數(shù)學(xué)運(yùn)算、數(shù)據(jù)挖掘、統(tǒng)計分析和數(shù)據(jù)可視化等任務(wù)。它支持Java及相關(guān)的編程語言,包括Jython、Groovy、JRuby和Beanshell。
支持的操作系統(tǒng):與操作系統(tǒng)無關(guān)。
相關(guān)鏈接:http://jwork.org/dmelt/
45.KEEL
KEEL的全稱是“基于進(jìn)化學(xué)習(xí)的知識提取”,這是一種基于Java的機(jī)器學(xué)習(xí)工具,為一系列大數(shù)據(jù)任務(wù)提供了算法。它還有助于評估算法在處理遞歸、分類、集群、模式挖掘及類似任務(wù)時的效果。
支持的操作系統(tǒng):與操作系統(tǒng)無關(guān)。
相關(guān)鏈接:http://keel.es
46.Orange
Orange認(rèn)為數(shù)據(jù)挖掘應(yīng)該是“碩果累累、妙趣橫生”,無論你是有多年的豐富經(jīng)驗(yàn),還是剛開始接觸這個領(lǐng)域。它提供了可視化編程和Python腳本工具,可用于數(shù)據(jù)可視化和分析。
支持的操作系統(tǒng):Windows、Linux和OS X。
相關(guān)鏈接:http://orange.biolab.si
47.RapidMiner
RapidMiner聲稱擁有250000多個用戶,包括貝寶、德勤、電子港灣、思科和大眾。它提供一系列廣泛的開源版和收費(fèi)版,不過要注意:免費(fèi)的開源版只支持CSV格式或Excel格式的數(shù)據(jù)。
支持的操作系統(tǒng):與操作系統(tǒng)無關(guān)。
相關(guān)鏈接:https://rapidminer.com
48.Rattle
Rattle的全稱是“易學(xué)易用的R分析工具”。它為R編程語言提供了一種圖形化界面,簡化了這些過程:構(gòu)建數(shù)據(jù)的統(tǒng)計或可視化摘要、構(gòu)建模型以及執(zhí)行數(shù)據(jù)轉(zhuǎn)換。
支持的操作系統(tǒng):Windows、Linux和OS X。
相關(guān)鏈接:http://rattle.togaware.com
49.SPMF
SPMF現(xiàn)在包括93種算法,可用于順序模式挖掘、關(guān)聯(lián)規(guī)則挖掘、項(xiàng)集挖掘、順序規(guī)則挖掘和集群。它可以獨(dú)立使用,也可以整合到其他基于Java的程序中。
支持的操作系統(tǒng):與操作系統(tǒng)無關(guān)。
相關(guān)鏈接:http://www.philippe-fournier-viger.com/spmf/
50.Weka
懷卡托知識分析環(huán)境(Weka)是一組基于Java的機(jī)器學(xué)習(xí)算法,面向數(shù)據(jù)挖掘。它可以執(zhí)行數(shù)據(jù)預(yù)處理、分類、遞歸、集群、關(guān)聯(lián)規(guī)則和可視化。
支持的操作系統(tǒng):Windows、Linux和OS X。
相關(guān)鏈接:http://www.cs.waikato.ac.nz/~ml/weka/
六、查詢引擎51.Drill
這個Apache項(xiàng)目讓用戶可以使用基于SQL的查詢,查詢Hadoop、NoSQL數(shù)據(jù)庫和云存儲服務(wù)。它可用于數(shù)據(jù)挖掘和即席查詢,它支持一系列廣泛的數(shù)據(jù)庫,包括HBase、MongoDB、MapR-DB、HDFS、MapR-FS、亞馬遜S3、Azure Blob Storage、谷歌云存儲和Swift。
支持的操作系統(tǒng):Windows、Linux和OS X。
相關(guān)鏈接:http://drill.apache.org
七、編程語言52.R
R類似S語言和環(huán)境,旨在處理統(tǒng)計計算和圖形。它包括一套整合的大數(shù)據(jù)工具,可用于數(shù)據(jù)處理、計算和可視化。
支持的操作系統(tǒng):Windows、Linux和OS X。
相關(guān)鏈接:http://www.r-project.org
53.ECL
企業(yè)控制語言(ECL)是開發(fā)人員用來在HPCC平臺上構(gòu)建大數(shù)據(jù)應(yīng)用程序的語言。HPCC Systems官方網(wǎng)站上有集成開發(fā)環(huán)境(IDE)、教程以及處理該語言的眾多相關(guān)工具。
支持的操作系統(tǒng):Linux。
相關(guān)鏈接:http://hpccsystems.com/download/docs/ecl-language-reference
八、大數(shù)據(jù)搜索54.Lucene
基于Java的Lucene可以非常迅速地執(zhí)行全文搜索。據(jù)官方網(wǎng)站聲稱,它在現(xiàn)代硬件上每小時能夠檢索超過150GB的數(shù)據(jù),它含有強(qiáng)大而高效的搜索算法。開發(fā)工作得到了Apache軟件基金會的贊助。
支持的操作系統(tǒng):與操作系統(tǒng)無關(guān)。
相關(guān)鏈接:http://lucene.apache.org/core/
55.Solr
Solr基于Apache Lucene,是一種高度可靠、高度擴(kuò)展的企業(yè)搜索平臺。知名用戶包括eHarmony、西爾斯、StubHub、Zappos、百思買、AT&T、Instagram、Netflix、彭博社和Travelocity。
支持的操作系統(tǒng):與操作系統(tǒng)無關(guān)。
相關(guān)鏈接:http://lucene.apache.org/solr/
九、內(nèi)存中技術(shù)56.Ignite
這個Apache項(xiàng)目自稱是“一種高性能、整合式、分布式的內(nèi)存中平臺,可用于對大規(guī)模數(shù)據(jù)集執(zhí)行實(shí)時計算和處理,速度比傳統(tǒng)的基于磁盤的技術(shù)或閃存技術(shù)高出好幾個數(shù)量級。”該平臺包括數(shù)據(jù)網(wǎng)格、計算網(wǎng)格、服務(wù)網(wǎng)格、流媒體、Hadoop加速、高級集群、文件系統(tǒng)、消息傳遞、事件和數(shù)據(jù)結(jié)構(gòu)等功能。
支持的操作系統(tǒng):與操作系統(tǒng)無關(guān)。
相關(guān)鏈接:https://ignite.incubator.apache.org
57.Terracotta
Terracotta聲稱其BigMemory技術(shù)是“世界上數(shù)一數(shù)二的內(nèi)存中數(shù)據(jù)管理平臺”,聲稱擁有210萬開發(fā)人員,250家企業(yè)組織部署了其軟件。該公司還提供商業(yè)版軟件,另外提供支持、咨詢和培訓(xùn)等服務(wù)。
支持的操作系統(tǒng):與操作系統(tǒng)無關(guān)。
相關(guān)鏈接:http://www.terracotta.org
58.Pivotal GemFire/Geode
今年早些時候,Pivotal宣布它將開放其大數(shù)據(jù)套件關(guān)鍵組件的源代碼,其中包括GemFire內(nèi)存中NoSQL數(shù)據(jù)庫。它已向Apache軟件基金會遞交了一項(xiàng)提案,以便在“Geode”的名下管理GemFire數(shù)據(jù)庫的核心引擎。還提供該軟件的商業(yè)版。
支持的操作系統(tǒng):Windows和Linux。
相關(guān)鏈接:http://pivotal.io/big-data/pivotal-gemfire
59.GridGain
由Apache Ignite驅(qū)動的GridGrain提供內(nèi)存中數(shù)據(jù)結(jié)構(gòu),用于迅速處理大數(shù)據(jù),還提供基于同一技術(shù)的Hadoop加速器。它既有收費(fèi)的企業(yè)版,也有免費(fèi)的社區(qū)版,后者包括免費(fèi)的基本支持。
支持的操作系統(tǒng):Windows、Linux和OS X。
相關(guān)鏈接:http://www.gridgain.com
60.Infinispan
作為一個紅帽JBoss項(xiàng)目,基于Java的Infinispan是一種分布式內(nèi)存中數(shù)據(jù)網(wǎng)格。它可以用作緩存、用作高性能NoSQL數(shù)據(jù)庫,或者為諸多框架添加集群功能。
支持的操作系統(tǒng):與操作系統(tǒng)無關(guān)。