大數據的產生

數據科學定義

數據科學是一門通過系統性地研究來獲取與數據相關的知識體系的科學。
1)研究數據本身,研究數據的各種類型、結構、狀態、屬性及變化形式和變化規律
2)通過對數據的研究,為自然科學和社會科學的研究提供一種新的方法——稱為科學研究的數據方法,其目的在于揭示自然界和人類行為的現象和規律

數據

數據是指以定性或定量的方式來描述事物的符號記錄,是可定義為意義的實體,它涉及事物的存在形式。數據并不局限于數字,文本、音頻、圖像、視頻都可以是數據。
元數據——數據的數據。
以天氣為例,數據就是當天的風速、風向、溫度等信息;信息則是由這些數據制成的氣象云圖;知識則是從中獲取到的如高氣壓分布情況等;元數據則是指這些天氣數據獲取時所用的雷達類型、傳感器類型等。
數據是原始的和零散的,通過對數據的過濾和組織可以得出信息,再將信息進行整合與呈現,就能獲得知識,知識最后經由領悟與歸納形成智慧。這是一個不斷抽象、不斷歸納、不斷升華的過程。

大數據的4V特性

1)數量巨大-volumn
2)類型繁多-variety
3)速度快、時效要求高-velocity
4)價值密度低、提純難-value/veracity
通常來說,大數據包括網絡日志、音頻、視頻、圖片、地理位置信息等各種結構化、半結構化和非結構化的數據。結構化的數據是存儲在數據庫里的,可以用二維表結構來表達實現的數據;非結構化的數據包括所有格式的辦公文檔、文本、圖片、XML、HTML、圖像、音頻和視頻信息等。而半結構化的數據就是介于完全結構化數據(如關系型數據庫、面向對象數據中的數據)和完全無結構的數據(如聲音、圖像文件等)之間的數據。它一般是自描述的,數據的結構和內容混在一起,沒有明顯的區分。
大數據之所以具有如此強的多樣性,其根源就在于隨著互聯網和物聯網的發展,各種設備通過網絡連成了一個整體。
綜上,大數據就是在計算機技術的快速發展推動下,隨著互聯網、物聯網的推廣和普及,所涌現的高速產生、海量、多種類、多來源、多模態,需要運用先進的處理、分析和呈現技術對其進行“提純”才能產生價值的結構化、半結構化和非結構化數據。

數據挖掘

數據挖掘就是從數據庫的大量數據中揭示出隱含的、先前未知的并有潛在價值的信息的非平凡過程。數據挖掘是一種決策支持過程,它主要是基于人工智能、機器學習、模式識別、統計學、數據庫、可視化等技術,高度自動化地分析企業的數據,做出歸納性的推理,從中挖掘出潛在的模式,幫助決策者調整市場策略,減少風險,從而做出正確的選擇。
數據挖掘的任務有關聯分析、聚類分析、分類分析、異常分析、特異群組分析和演變分析等。

?著作權歸作者所有,轉載或內容合作請聯系作者
平臺聲明:文章內容(如有圖片或視頻亦包括在內)由作者上傳并發布,文章內容僅代表作者本人觀點,簡書系信息發布平臺,僅提供信息存儲服務。

推薦閱讀更多精彩內容