銳眼視點:
- 2017 年實時流數據分析的 Top 27 個預測;
- CrateDB 發布可對物聯網數據進行分析的 SQL 數據庫;
- 2017 年,5 個不應該被忽視的機器學習項目。
[業界新聞] 2017 年實時流數據分析的 Top 27 個預測
根據 Markets & Markets 的預測,流數據分析市場將從 2016 年的 30.8 億美元增長到 2021 年的 137 億美元。各個企業都將快速意識到他們需要利用實時數據集成和流數據分析來獲得更有價值的信息、使數據變得更安全以及保持增長。在數據無時無刻不在產生的背景下,企業需要:
- 過濾無關數據
- 進行聚合和分組
- 跨流關聯信息
- 將元數據、參考數據和歷史數據與上下文的流數據相結合
- 實時監測異常數據
實時數據集成和劉數據分析平臺公司 Striim, Inc. 的聯合創始人兼 CTO Steve Wilkes 給出了他對 2017 年關于實時數據分析將如何影響云、IoT、集成服務、分析服務、大數據以及數據安全領域的預測,對這些領域的 27 個預測都做了深入解釋和說明。
原文鏈接:Striim – Top 27 Predictions for 2017
[業界新聞] CrateDB 發布可對物聯網數據進行分析的 SQL 數據庫
Crate.io 發布了 CrateDB 1.0, 一個開源 SQL 數據庫,它將使對物聯網數據的實時分析成為可能。CrateDB 使得主流 SQL 開發者也可以處理之前只能由 NoSQL 解決方案處理的物聯網數據應用。同時,CrateDB 宣布在三藩市成立新的總部。
從 2014 年推出至今,CrateDB 已經獲得了超過 100 萬次下載,下面的這些創新造就了它的獨特能力:
- 將分布式SQL查詢引擎用于更快的 JOIN,聚合和即席查詢
- 將數據搜索和查詢多功能性集成到 SQL
- 采用容器架構以及為了簡單縮放進行自動數據分片
原文鏈接:CrateDB SQL Database Puts IoT and Machine Data to Work
[業界新聞] 2017 年,5 個不應該被忽視的機器學習項目
這篇文章將推薦 5 個大家可能沒有聽說過的機器學習項目,來自不同生態系統和編程語言。你可能會發現你并不需要其中的某一個工具,但是深入了解它們的實現細節和代碼有助于啟發我們的思路。
Hyperopt-sklearn
Hyperopt-sklearn 使用了多種搜索算法,可以搜索所有支持的分類器或者只是用參數給定的唯一分類器,它支持一系列數據預處理步驟,比如 PCA, TfidfVectorizer, Normalzier, 以及 OneHotEncoder 等。Dlib
Dlib 是使用 C++ 實現的可用于創建機器學習和數據分析應用的通用工具庫,并且提供了 Python 接口。NN++
NN++ 是一個 C++ 實現的輕量級、非常容易使用的神經網絡,無需安裝,直接#include
即可。LightGBM
來自微軟的梯度增強樹算法實現,提供了 C++ 和 Python 接口。Sklearn-pandas
Sklearn-pandas 是一個正在開發中的模塊,在 Scikit-Learn 的機器學習方法和 Pandas 風格的 Data Frame 之間提供一個橋梁。
原文鏈接:5 Machine Learning Projects You Can No Longer Overlook, January