常見大數據應用有哪些

什么是大數據?不要再舉例說啤酒和尿布的例子了,Gartner的分析師Doug Laney在講解大數據案例時提到過8個更有新意更典型的案例,可幫助更清晰的理解大數據時代的到來。

1. 梅西百貨的實時定價機制。根據需求和庫存的情況,該公司基于SAS的系統對多達7300萬種貨品進行實時調價。

2. Tipp24 AG針對歐洲博彩業構建的下注和預測平臺。該公司用KXEN軟件來分析數十億計的交易以及客戶的特性,然后通過預測模型對特定用戶進行動態的營銷活動。這項舉措減少了90%的預測模型構建時間。SAP公司正在試圖收購KXEN。

3. 沃爾瑪的搜索。這家零售業寡頭為其網站http://Walmart.com自行設計了最新的搜索引擎Polaris,利用語義數據進行文本分析、機器學習和同義詞挖掘等。根據沃爾瑪的說法,語義搜索技術的運用使得在線購物的完成率提升了10%到15%。“對沃爾瑪來說,這就意味著數十億美元的金額。”Laney說。

4. 快餐業的視頻分析。該公司通過視頻分析等候隊列的長度,然后自動變化電子菜單顯示的內容。如果隊列較長,則顯示可以快速供給的食物;如果隊列較短,則顯示那些利潤較高但準備時間相對長的食品。

5. Morton牛排店的品牌認知。當一位顧客開玩笑地通過推特向這家位于芝加哥的牛排連鎖店訂餐送到紐約Newark機場(他將在一天工作之后抵達該處)時,Morton就開始了自己的社交秀。首先,分析推特數據,發現該顧客是本店的常客,也是推特的常用者。根據客戶以往的訂單,推測出其所乘的航班,然后派出一位身著燕尾服的侍者為客戶提供晚餐。

6. PredPol Inc.。PredPol公司通過與洛杉磯和圣克魯斯的警方以及一群研究人員合作,基于地震預測算法的變體和犯罪數據來預測犯罪發生的幾率,可以精確到500平方英尺的范圍內。在洛杉磯運用該算法的地區,盜竊罪和暴力犯罪分布下降了33%和21%。

7. Tesco PLC(特易購)和運營效率。這家超市連鎖在其數據倉庫中收集了700萬部冰箱的數據。通過對這些數據的分析,進行更全面的監控并進行主動的維修以降低整體能耗。

8. American Express(美國運通,AmEx)和商業智能。以往,AmEx只能實現事后諸葛式的報告和滯后的預測。“傳統的BI已經無法滿足業務發展的需要。”Laney認為。于是,AmEx開始構建真正能夠預測忠誠度的模型,基于歷史交易數據,用115個變量來進行分析預測。該公司表示,對于澳大利亞將于之后四個月中流失的客戶,已經能夠識別出其中的24%。



一、 大數據基本概念

大數據Big Data是指大小超出了常用的軟件工具在運行時間內可以承受的收集,管理和處理數據能力的數據集;大數據是目前存儲模式與能力、計算模式與能力不能滿足存儲與處理現有數據集規模產生的相對概念。

大數據的預處理

主要完成對已接收數據的辨析、抽取、清洗等操作。

(1)抽取:因獲取的數據可能具有多種結構和類型,數據抽取過程可以幫助我們將這些復雜的數據轉化為單一的或者便于處理的構型,以達到快速分析處理的目的。

(2)清洗:對于大數據,并不全是有價值的,有些數據并不是我們所關心的內容,而另一些數據則是完全錯誤的干擾項,因此要對數據通過過濾“去噪”從而提取出有效數據。

大數據帶來的數學問題

在數學上來看,計算機中存在不斷變大的數據集,不存在絕對的大數據,計算機中的所有數據集都是有限集合。

大數據采樣——把大數據變小、找到與算法相適應的極小樣本集、采樣對算法誤差的影響

大數據表示——表示決定存儲、表示影響算法效率

大數據不一致問題——導致算法失效和無解、如何消解不一致

大數據中的超高維問題——超高維導致數據稀疏、算法復雜度增加

大數據中的不確定維問題——多維度數據并存、按任務定維難

大數據中的不適定性問題——高維導致問題的解太多難以抉擇

大數據的特征

稠密與稀疏共存:局部稠密與全局稀疏

冗余與缺失并在:大量冗余與局部缺失

顯式與隱式均有:大量顯式與豐富隱式

靜態與動態忽現:動態演進與靜態關聯

多元與異質共處:多元多變與異質異性

量大與可用矛盾:量大低值與可用稀少

目前大數據的外延

大數據規模大小是一個不斷演化的指標:

當前任務處理的單一的數據集,從數十TB到十幾PB級的數據規模(TB?PB?EB?ZB)

處理大數據的可等待的合理時間依賴任務的目標:

地震數據預測要求在幾分鐘內才有效、氣象數據應該在小時級別、失聯飛機數據處理要在7天之內、數據挖掘一般要求在12小時內

二、 大數據悖論

大數據已被定義為科學探索的第四范式。繼幾千年前的實驗科學、數百年前的理論科學和數十年前的計算科學之后,當今的數據爆炸孕育了數據密集型科學,將理論、實驗和計算仿真等范式統一起來。大數據已被譽為“非競爭性”生產要素。大數據具有“取之不盡,用之不竭”的特性,在不斷的再利用、重組和擴展中持續釋放其潛在價值,在廣泛的公開、共享中不斷創造著新的財富。根源在于,大數據的價值在于預測未知領域、非特定因素的未來趨勢,在于破解長期的、普遍的社會難題。而目前的大數據技術和應用,依然局限于歷史和實時數據的關聯分析,局限于滿足短線的、特定的市場需求。解決悖論的過程,恰恰是理論和方法應運而生的過程。而人們試圖解決悖論的努力,正好是大數據落地生根的推動力。

方法論缺位

自2008年《自然》雜志推出“大數據”專刊以來,大數據概念就從學術大討論,轉向了企業的數字化轉型,進而上升到“開放政府數據”的戰略布局。然而,單純的數量上的規模龐大,并不能輕易地將大數據與以往的“海量數據”、“超大規模數據”等區別開,因為三者均沒有設置數量級等門檻。

方法論缺位是最大的障礙。大數據發展的核心動力源于人們測量、記錄和分析世界的渴望,滿足這些渴望需要數據、技術和思維三大要素。在計算技術、通信技術日益成熟的今天,在廉價的、便捷的數字化存儲普及的當下,數據無處不在,技術正以標準化、商品化的方式提供,事實上思維和方法論才是決定大數據成敗的關鍵,但目前來看,跨越學術與產業、技術與應用之間鴻溝的方法論依然不完善。

在社會難題中淘金

正如數學史上三次危機分別促成公理幾何的誕生、集合論的創立和現代數據的發展一樣,悖論是理論、技術和應用進步的巨大推動力。大數據悖論的解決,也將推動大數據應用的普及和社會價值的釋放。經過新聞媒體和學術會議的大肆宣傳之后,大數據技術趨勢一下子跌到谷底,許多數據創業公司變得岌岌可危……根據這條著名的Gartner技術成熟度曲線,大數據已經走過了萌芽期和泡沫化的炒作期,并將在未來3~5年內步入低谷期。

市場中的鴻溝

大數據營銷模型將經歷創新者、早期采用者、早期大眾、后期大眾和落后者等5個階段。這5個階段之間存在著4條裂縫,其中最大、最危險的裂縫存在于早期市場與主流市場之間,我們稱之為“鴻溝”。

大數據的主流市場來源于實用主義的早期大眾和保守主義的后期大眾,兩者各自占據大數據市場1/3的份額。這兩個群組的共同特征是均具備良好的信息技術基礎和深厚的大數據積累,并深諳大數據的社會價值和經濟價值。有所不同的是,前者希望看到成熟的解決方案和成功的應用案例,它們大多是金融、能源、電信等公共服務部門。而后者需要有更安全可靠的大數據保障和廣泛的社會應用基礎,它們大多是致力于解決環境、能源和健康等社會問題的公共管理部門。

大數據技術和應用獲得創新者的追捧是顯而易見的,獲得早期市場的擁護也是輕而易舉的。但是,不因“時髦”而加入,不因“過時”而退出,才能成為大數據主流市場的掘金者。遺憾的是,不少企業或許會成為“鴻溝中的犧牲者”,而無緣迎接大數據真正應用市場的到來。

規劃整體產品

現代營銷奠基人之——西奧多·萊維特給出了“整體產品”的概念。根據這一概念,大數據產品應該包括作為“核心吸引物”的一般產品、滿足初級心理需求的期望產品和實現更高階參與以及自我實現的延伸產品和潛在產品4個部分。

三、 大數據挑戰性問題

現有的數據中心技術很難滿足大數據的需求,需要考慮對整個IT架構進行革命性的重構。而存儲能力的增長遠遠趕不上數據的增長,因此設計最合理的分層存儲架構已成為IT系統的關鍵。數據的移動已成為IT系統最大的開銷,目前傳送大數據最高效也是最實用的方式是通過飛機或地面交通工具運送磁盤而不是網絡通信。在大數據時代,IT系統需要從數據圍著處理器轉改變為處理能力圍著數據轉,將計算推送給數據,而不是將數據推送給計算。應對處理大數據的各種技術挑戰中,以下幾個問題值得重視:

1、大數據對科學規范的挑戰

大數據帶來了新的科研范式

科研第四范式是思維方式的大變化,已故圖靈獎得主吉姆格雷提出的數據密集型科研“第四范式”,將大數據科研從第三范式中分離出來單獨作為一種科研范式,是因為其研究方式不同于基于數據模型的傳統研究方式。PB級數據使我們可以做到沒有模型和假設就可以分析數據。將數據丟進巨大的計算機機群中,只要有相關關系的數據,統計分析算法可以發現過去的科學方法發現不了的新模式、新知識甚至新規律。

大數據如何應用于開放的研究

大數據基于對海量數據的分析產生價值,那么如何獲得海量數據來讓大數據真正落地呢?這其中最不可或缺的一個環節就是數據開放。現在推進數據開放更為重要的是通過數據的共享來產生更多的價值。數據開放能夠提高社會運行效率,積極整合各方公開的數據,建立基于大數據的城市規劃來緩解交通和社會治安問題。 數據開放能夠激發巨大的商業價值,數據開放是面向社會大眾的開放,任何人只要有能力都可以用它來創造新的商機。

加強數據開放,為大數據發展打牢基礎。在大數據應用日益重要的今天,數據資源的開放共享已經成為在數據大戰中保持優勢的關鍵。促進商業數據和個人數據的開放與共享。商業數據和個人數據的共享應用,不僅能促進相關產業的飛速發展,產生巨大的經濟價值,也能給我們的生活帶來巨大的便利。經常網購的人會有這樣一種體驗。很多電商網站能夠在我們買書的時候,推薦我們剛好喜歡的其他書籍,這正是網站根據成千上萬甚至上億人的個人數據的統計分析而得出的,但是我們也感受到了這樣強大的數據分析能力對我們“隱私權”的沖擊。因此,完善個人隱私保護等相關立法,對哪些個人數據可以進行商業化應用、應用范圍如何界定、數據濫用應承擔哪些責任等具體問題做出規范,從而保證數據開放工作穩步推進,為大數據發展應用打好根基。

重現大數據研究結果

數據量的增大,會帶來規律的喪失和嚴重失真。維克托·邁爾-舍恩伯格在其著作《大數據的時代》中也指出“數據量的大幅增加會造成結果的不準確,一些錯誤的數據會混進數據庫,”此外,大數據的另外一層定義,多樣性,即來源不同的各種信息混雜在一起會加大數據的混亂程度,統計學者和計算機科學家指出,巨量數據集和細顆粒度的測量會導致出現“錯誤發現”的風險增加。大數據意味著更多的信息,但同時也意味著更多的虛假關系信息,海量數據帶來顯著性檢驗的問題,將使我們很難找到真正的關聯。

我們以一個實際的案例來看一下樣本量不斷增大之后,會出現的問題:

上表是關于某年網絡游戲歷程擴散的回歸分析,當樣本量是5241個的時候,你會發現用一個簡單的線性回歸擬合這個數據,年齡、文化程度、收入這三個變量顯著,當我們把樣本量增加到10482個的時候,發現獨生子女和女性開始顯著,增加到20964個的時候,體制外這個變量也開始顯著,當樣本增加到33萬的時候,所有變量都具有顯著性,這意味著世間萬物都是有聯系的。樣本大到一定程度的時候,很多結果自然就會變得顯著,會無法進行推論,或者得出虛假的統計學關系。此外,斷裂數據、缺失數據(下文將會進行分析)的存在將會使這種虛假關系隨著數據量的增長而增長,我們將很難再接觸到真相。

事實上,真實的規律是這樣的:

對一個社會現象進行客觀深刻準確的分析,對事物的理解需要數據,但更需要分析思維,在大數據時代,理論并非不重要,而是變得更加重要。我們所指的理論也并非僵化一成不變的固守舊有理論,而是在處理問題的過程中意識到海量數據所帶來的復雜性,堅持分析方法和理論的不斷創新。

大數據研究結果可信與否

《大數據時代》一書的作者維克托·邁爾-舍恩伯格說,大數據的核心就是預測。它通常被視為人工智能的一部分,或者更確切地說,被視為一種機器學習。他認為,大數據大大解放了人們的分析能力。一是可以分析更多的數據,甚至是相關的所有數據,而不再依賴于隨機抽樣;二是研究數據如此之多,以至于我們不再熱衷于追求精確度;三是不必拘泥于對因果關系的探究,而可以在相關關系中發現大數據的潛在價值。因此,當人們可以放棄尋找因果關系的傳統偏好,開始挖掘相關關系的好處時,一個用數據預測的時代才會到來。

不可否認,大數據標志著人類在尋求量化和認識世界的道路上前進了一步。這是計算技術的進步,是人類決策工具的進步。改編自邁克爾·劉易斯的《魔球:逆境中制勝的智慧》的影片《點球成金》,講述了一個真實的故事,介紹了奧克蘭運動家棒球隊總經理比利·比恩的經營哲學,描述了他拋棄幾百年延續的選擇球員的慣常做法,采用了一種依靠電腦程序和數學模型分析比賽數據來選擇球員的方法。比利·比恩的成功稱得上是對球探們經驗決策的顛覆,是讓數據說話的成功范例。正如維克托·邁爾-舍恩伯格將大數據視為人工智能的一部分,視為機器學習的一種應用一樣,數據決策和數據旁證的博弈其實是人和機器的博弈。即便是有一將難求的數據科學家的協助,大數據決策依然是輔助系統。

在這一階段,云計算是基礎設施,大數據是服務工具,兩者將滿足特定語境下的、短線的市場需求,更重要的是它們還能發揮其在非特定語境下破解社會難題的價值。換言之,大數據將演繹“信息轉化為數據,數據集聚成知識,知識涌現出智慧”的進程。

2、大數據帶來的社會問題

在基于社交媒體和數字化記憶的大數據時代,人們不僅擔心無處不在的“第三只眼”,而且擔心隱私被二次利用。因為,亞馬遜監視著我們的購物習慣,谷歌監視著我們的網頁瀏覽習慣,微博似乎什么都知道,包括我們的社交關系網……可怕的不是這些隱私數據,而是大數據的全數據分析、模糊計算和重關聯卻不求因果的特性,讓隱私數據與社交網絡等關聯起來。按照維克托·邁爾-舍恩伯格的說法,危險不再是隱私的泄漏,而是被預知的可能性——這些能夠預測我們可能生病、拖欠還款和犯罪的算法會讓我們無法購買保險,無法貸款,甚至實施犯罪前就被預先逮捕。

無論如何,大數據正在推動產權認知和結構的變革,以往IT產業鏈的主宰者或將在變革中遭遇沖擊。大數據的魅力在于它能夠讓企業在無邊界的數據海洋里遨游,發現社會進步的內在韻律,捕捉社會發展的先行參數。比如從消費者興趣圖譜中萃取研發創新智慧,而不局限于產品關聯性分析;比如對企業內外部利益相關者群體智慧的發掘,開展企業和產業的健康診斷,而不局限于短效的精益管理;比如對地震等自然災害的預警,構架社會應急機制……

3、大數據帶來的技術挑戰

抽樣分析+全數據驗證的分析思路

增加樣本容易,降低算法復雜度難。維克托·邁爾·舍恩伯格在介紹大數據時代的數據分析思維轉變時提到過三個觀點,其中之一是:分析所有的數據,而不再僅僅依靠一小部分數據。全數據一時甚囂塵上,企業、研究者以為大數據就是全數據,以至于再談抽樣都似乎帶有保守主義色彩,這種看法無疑是對大數據和抽樣二者都存在偏見和不足,如果認為大數據就是收集所有樣本的信息,讓數據自己說話,那么在方法論上就是狹隘的。

這里也涉及了全數據的第二個問題全(暫且假定我們通過人們在谷歌上輸入搜索條目就找到了真正意義上的全:谷歌利用搜索記錄而預測到流感爆發的案例被廣為引用以說明數據自會說話,當人們開始在網上搜索關于感冒的詞匯表明他感染了流感,建立流感與空間、病毒的關系,能夠成功的預測一場流感)數據確實能看到變化,通過變化作出“預測”,但無法解釋變化的影響因素,維克托·邁爾·舍恩伯格對此的回答是:我們要相關性,不要因果關系。這并非是這位作者有選擇的選擇,而是放棄抽樣而直接采用大數據的必然。

《文學文摘》依靠紙媒時代巨大的發行量獲得240萬民眾的數據,而蓋洛普僅在嚴格抽樣基礎上研究了5000人,是“小數據”的復雜算法超過“大數據”的簡單算法的真實案例。

沒有抽樣的擬合,直接面對大數據,將使我們失去對人的了解,對真實規律的追尋,畢竟不是所有的社會事實都一場流感一樣易于預測,況且即便是谷歌被廣為贊譽的流感預測案例也被認為存在問題:在與傳統的流感監測數據比較之后,根據互聯網流感搜索實時更新的Google流感趨勢被發現明顯高估了流感峰值水平。科學家指出基于搜索有太多的噪音影響了它的精確度這表明基于社交網絡數據挖掘的流感跟蹤將不是替代而只能補充傳統的流行病監測網絡。他們正在開發噪音較少的替代跟蹤方法,例如基于Twitter的流感跟蹤只包含真正病人的帖子,而不是轉載的流感新聞報道。

分析理解大數據——盲人摸象

數據是企業最重要的資產,而且隨著數據產業的發展,將會變得更有價值。但封閉的數據環境會阻礙數據價值的實現,對企業應用和研究發現來講都是如此,因此我們需要合理的機制在保護數據安全的情況下開放數據,使數據得到充分利用。有效的解決辦法之一是公正的第三方數據分析公司、研究機構作為中間商收集數據、分析數據,在數據層面打破現實世界的界限,進行多家公司的數據共享而不是一家公司盲人摸象,這才能實現真正意義上的大數據,賦予數據更廣闊全面的分析空間,才會對產業結構和數據分析本身產生思維轉變和有意義的變革。

4、大數據管理的挑戰

每一種非結構化數據均可被視為大數據。這包括在社交網站上的數據、在線金融交易數據、公司記錄、氣象監測數據、衛星數據和其他監控、研究和開發數據。大數據存儲與管理要用存儲器把采集到的數據存儲起來,建立相應的數據庫,并進行管理和調用。重點解決復雜結構化、半結構化和非結構化大數據管理與處理技術。主要解決大數據的可存儲、可表示、可處理、可靠性及有效傳輸等幾個關鍵問題。開發可靠的分布式文件系統(DFS)、能效優化的存儲、計算融入存儲、大數據的去冗余及高效低成本的大數據存儲技術;突破分布式非關系型大數據管理與處理技術,異構數據的數據融合技術,數據組織技術,研究大數據建模技術;突破大數據索引技術;突破大數據移動、備份、復制等技術;開發大數據可視化技術。

通過隔離管理大數據存儲

如果有多個存儲箱,那么將數據庫、線交易處理(OLTP)和微軟Exchange應用到特定的存儲系統是個不錯的選擇。其它存儲系統則用于大數據應用如門戶網站,在線流媒體應用等。

如果沒有存儲系統,將特定的前端存儲端口到數據庫,OLTP等等;致力于大數據應用到其他端口。背后的基本原理是使用專用端口,而大數據流量是以千字節或兆字節衡量,OLTP應用流量是以每秒的輸入/輸出操作(IOPS)衡量,因為數據塊的大小是比大數據更大而比OLTP應用程序更小。OLTP應用程序是CPU密集型的,而大數據應用程序更多的使用前端端口。因此,更多的端口可以專注于大數據應用。

專業的大數據存儲管理

兼容數據管理的存儲系統。如EMCIsilon的集群存儲系統對于大數據存儲管理是一個更好的選擇,因為在一個單一的文件系統中大數據能增長到多字節的數據。

大數據分析

除了存儲,大數據管理的另一項大的挑戰是數據分析。一般的數據分析應用程序無法很好的處理大數據,畢竟涉及到大量的數據。采用專門針對大數據的管理和分析的工具,這些應用程序運行在集群存儲系統上,緩解大數據的管理。管理大數據的另一個需要重點考慮的是未來的數據增長。你的大數據存儲管理系統應該是可擴展的,足以滿足未來的存儲需求。

大數據的存儲管理和云計算

目前正在尋找云計算服務來進行存儲和管理海量數據。而選擇云服務來大型數據存儲管理,可以確保數據的所有權。有權選擇將數據移入或移出云服務,而不被供應商鎖定。

5、大數據挖掘挑戰

面臨的挑戰

(1)大數據集的挑戰

如下圖為數據到知識的演化過程示意圖:

缺少大數據復雜度冗余度的度量方法

缺少確保近似算法精度分析方法

缺少根據分布知識對大數據進行抽樣的方法

(2)數據復雜性挑戰

挖掘將會很大程度地提高數據分析的性能和靈活性。源于數據倉庫的數 據立方體計算技術和OLAP(在線分析處理)技術極大地提高了大型數據庫多維分析的性能。除了傳統的數據立方體技術,近期的研究致力于構建回歸立方體、預測立方體以及其他的面向統計的復雜數據立方體。這樣的多維或高維分析工具對分層多維數據的有效分析提供了保證。

(3)數據動態增長的挑戰

研究內容

(1)研究分布式并行計算環境下的大數據大數據分析的基本策略

I.與數據分布相聯系的分治策略

II.與算法機理相結合的并行策略

(2)研究復雜度降精度可控的新的大數據分析算法

I.大數據分類、聚類、關聯分析、異常發現等

(3)大數據分析平臺研發

四、 大數據挖掘的算法

分類和預測是兩種分析數據的方法,它們可用于抽取能夠描述重要數據集合或預測未來數據趨勢的模型。分類方法用于預測數據對象的離散類別;而預測則用于預測數據對象的連續取值。許多分類和預測方法已被機器學習、專家系統、統計學和神經生物學等方麗的研究者提出,其中的大部分算法屬于駐留內存算法,通常假定的數據量很小,最初的數據挖掘方法大多都是在這些方法及基于內存基礎上所構造的算法。目前數據挖掘方法都要求,目前的數據挖掘研究已經在這些工作基礎之上得到了很大的改進,開發了具有基于外存以處理大規模數據集合能力的分類和預測技術,這些技術結合了并行和分布處理的思想。

1、數據變小——分類算法

分類是找出數據庫中的一組數據對象的共同特點并按照分類模式將其劃分為不同的類,其目的是通過分類模型,將數據庫中的數據項映射到摸個給定的類別中。可以應用到涉及到應用分類、趨勢預測中,如淘寶商鋪將用戶在一段時間內的購買情況劃分成不同的類,根據情況向用戶推薦關聯類的商品,從而增加商鋪的銷售量。

空間覆蓋算法-基于球鄰域的空間劃分

空間覆蓋算法-仿生模式識別

空間覆蓋算法-視覺分類方法

VCA把數據看作一幅圖像,核心是基于尺度空間理論,選擇合適的尺度使得同類樣本區域融合在一起。

分類超曲面算法HSC

設訓練樣本所在空間為一封閉維方體區域,將此區域按照一定細分規則劃分成若干小區域,使每個小區域只包含同一類樣本點,并用樣本點的類別標定該區域,合并相鄰同類區域邊界,獲得若干超平面片封閉組成的分類超曲面。輸入新樣本點,根據分類判別定理判斷樣本點所在的類別。

特點:

(1)通過特征區域細化直接解決非線性分類問題,不需要考慮使用何種函數,不需要升維變換。

(2)通用可操作的分類超曲面構造法,基于分類超曲面的方法通過區域合并計算獲得分類超曲面對空間進行劃分

(3)獨特、簡便、易行的分類判別方法,基于分類超曲面的方法是基于Jordan定理的分類判斷算法,使得基于非凸的超曲面的分類判別變得簡便、易行。

2、極小覆蓋子集

覆蓋型分類算法的極小覆蓋子集——對特定的訓練樣本集,若其子樣本集訓練后得到的分類模型與與原樣本集訓練后得到的分類模型相同,則稱子樣本集是原樣本集的一個覆蓋。在一個樣本集的所有覆蓋中,包含樣本個數最少的覆蓋稱為樣本集的極小覆蓋子集。

(1)計算極小覆蓋子集的基本步驟:

用一個方形區域覆蓋所有樣本點;將該區域劃分成一系列小區域 (單元格),直到每個小區域內包含的樣本點都屬于同一類別;將落在同一小區域內的樣本點中選擇且僅選擇一個樣本構成極小覆蓋子集。

(2)采樣受限于極小覆蓋子集

全樣本空間必然包含極小覆蓋子集,任意一個數據集未必包含完整的極小覆蓋子集。大數據環境下,極小覆蓋子集中的樣本更多地包含在大數據中,較多的數據可以戰勝較好的算法、再多的數據亦不會超過極小覆蓋子集的代表性、再好的提升手段亦不會超過極小覆蓋子集確定的精度。

3、回歸分析

回歸分析反映了數據庫中數據的屬性值的特性,通過函數表達數據映射的關系來發現屬性值之間的依賴關系。它可以應用到對數據序列的預測及相關關系的研究中去。在市場營銷中,回歸分析可以被應用到各個方面。如通過對本季度銷售的回歸分析,對下一季度的銷售趨勢作出預測并做出針對性的營銷改變。

4、聚類

聚類類似于分類,但與分類的目的不同,是針對數據的相似性和差異性將一組數據分為幾個類別。屬于同一類別的數據間的相似性很大,但不同類別之間數據的相似性很小,跨類的數據關聯性很低。

5、關聯規則

關聯規則是隱藏在數據項之間的關聯或相互關系,即可以根據一個數據項的出現推導出其他數據項的出現。關聯規則的挖掘過程主要包括兩個階段:第一階段為從海量原始數據中找出所有的高頻項目組;第二極端為從這些高頻項目組產生關聯規則。關聯規則挖掘技術已經被廣泛應用于金融行業企業中用以預測客戶的需求,各銀行在自己的ATM 機上通過捆綁客戶可能感興趣的信息供用戶了解并獲取相應信息來改善自身的營銷。

6、神經網絡方法

神經網絡作為一種先進的人工智能技術,因其自身自行處理、分布存儲和高度容錯等特性非常適合處理非線性的以及那些以模糊、不完整、不嚴密的知識或數據為特征的處理問題,它的這一特點十分適合解決數據挖掘的問題。典型的神經網絡模型主要分為三大類:第一類是以用于分類預測和模式識別的前饋式神經網絡模型,其主要代表為函數型網絡、感知機;第二類是用于聯想記憶和優化算法的反饋式神經網絡模型,以Hopfield 的離散模型和連續模型為代表。第三類是用于聚類的自組織映射方法,以ART 模型為代表。雖然神經網絡有多種模型及算法,但在特定領域的數據挖掘中使用何種模型及算法并沒有統一的規則,而且人們很難理解網絡的學習及決策過程。

7、Web數據挖掘

Web數據挖掘是一項綜合性技術,指Web 從文檔結構和使用的集合C 中發現隱含的模式P,如果將C看做是輸入,P 看做是輸出,那么Web 挖掘過程就可以看做是從輸入到輸出的一個映射過程。

五、 大數據展望與應用

大數據技術能夠將隱藏于海量數據中的信息和知識挖掘出來,為人類的社會經濟活動提供依據,從而提高各個領域的運行效率,大大提高整個社會經濟的集約化程度。根據ESM國際電子商情針大數據應用現狀和趨勢的調查顯示:被調查者最關注的大數據技術中,排在前五位的分別是大數據分析(12.91%)、云數據庫(11.82%)、Hadoop(11.73%)、內存數據庫(11.64%)以及數據安全(9.21%)。Hadoop已不再是人們心目中僅有的大數據技術,而大數據分析成為最被關注的技術。從中可以看出,人們對大數據的了解已經逐漸深入,關注的技術點也越來越多。既然大數據分析是最被關注的技術趨勢,那么大數據分析中的哪項功能是最重要的呢?從下圖可以看出,排在前三位的功能分別是實時分析(21.32%)、豐富的挖掘模型(17.97%)和可視化界面(15.91%)。從調查結果可以看出:在未來一兩年中有迫切部署大數據的需求,并且已經從一開始的基礎設施建設,逐漸發展為對大數據分析和整體大數據解決方案的需求。

大數據將重點應用于以下幾大大領域:商業智能、政府決策、公共服務等。

行業拓展者,打造大數據行業基石

IBM:IBM大數據提供的服務包括數據分析,文本分析,藍色云杉;業務事件處理;IBM Mashup Center的計量,監測,和商業化服務(MMMS)。 IBM的大數據產品組合中的最新系列產品的InfoSphere bigInsights,基于Apache Hadoop。 該產品組合包括:打包的Apache Hadoop的軟件和服務,代號是bigInsights核心,用于開始大數據分析。軟件被稱為bigsheet,軟件目的是幫助從大量數據中輕松、簡單、直觀的提取、批注相關信息為金融,風險管理,媒體和娛樂等行業量身定做的行業解決方案 微軟:2011年1月與惠普(具體而言是HP數據庫綜合應用部門) 合作目標是開發了一系列能夠提升生產力和提高決策速度的設備。

EMC:EMC 斬獲了紐交所和Nasdaq;大數據解決方案已包括40多個產品。

Oracle:Oracle大數據機與Oracle Exalogic中間件云服務器、Oracle Exadata數據庫云服務器以及Oracle Exalytics商務智能云服務器一起組成了甲骨文最廣泛、高度集成化系統產品組合。

大數據促進了政府職能變革

重視應用大數據技術,盤活各地云計算中心資產:把原來大規模投資產業園、物聯網產業園從政績工程,改造成智慧工程;在安防領域,應用大數據技術,提高應急處置能力和安全防范能力;在民生領域,應用大數據技術,提升服務能力和運作效率,以及個性化的服務,比如醫療、衛生、教育等部門;解決在金融,電信領域等中數據分析的問題:一直得到得極大的重視,但受困于存儲能力和計算能力的限制,只局限在交易數型數據的統計分析。一方面大數據的應用促進了政府職能變革,另一方面政府投入將形成示范效應,大大推動大數據的發展。

打造“智慧城市”

通過收集、處理龐大而復雜的數據信息,從中獲得知識和洞見,提升能力,加快科學、工程領域的創新步伐,強化安全意識,轉變教育和學習模式。智慧城市是使用智能計算技術使得城市的關鍵基礎設施的組成和服務更智能、互聯和有效,隨著智慧城市的建設,社會將步入“大數據”時代。

未來,改變一切

未來,企業會依靠洞悉數據中的信息更加了解自己,也更加了解客戶。 數據的再利用:由于在信息價值鏈中的特殊位置,有些公司可能會收集到大量的數據,但他們并不急需使用也不擅長再次利用這些數據。但當它被一些發布個性化位置廣告服務和促銷活動的公司再次利用時,則變得更有價值。



今天,智云通CRM小編跟大家分享大數據避不開的9大應用場景。假如以下應用場景聽上去那么像你所在的企業,你可要認真開始考慮大數據分析工具,這將是一項合理的投資喔!

客戶分析(Customer analytics)

在CRM系統中的客戶管理功能中,這包括分析客戶的信息資料、行為和特點到開發模型,對客戶進行細分、預測流失以及提供幫助挽留客戶的下一個最好報價。

營銷分析(Sales and marketing analytics)

有兩種營銷用例。

第一種是使用營銷模型,改進面向客戶的應用程序,更好地向客戶提供推薦。例如,更好地識別交叉銷售和追加銷售機會,減少放棄的購物車,總體提升集成推薦引擎的準確性。

第二種更加反思性,因為它是為了展示營銷部門過程和活動的表現,并建議進行調整,以優化績效。例如,分析哪個活動解決了確認群體的需求,或激勵活動付諸行動的成功率。

社交媒體分析(Social media analytics)

通過不同社交媒體渠道生成的內容為分析客戶情感和輿情監督提供了豐富的資料。

網絡安全(Cybersecurity)

大規模網絡安全事件(如對美國零售商Target、Sony的網絡攻擊)的發生,讓企業越來越意識到網絡攻擊發生時快速識別的重要性。識別潛在的攻擊包括建立分析模型,監測大量網絡活動數據和相應的訪問行為,以識別可能進行入侵的可疑模式。

設備管理(Plant and facility management)

隨著越來越多的設備和機器能夠與互聯網相連,企業能夠收集和分析傳感器數據流,包括連續用電、溫度、濕度和污染物顆粒等無數潛在變量。模型還可以預測設備故障,安排預防性的維護,以確保項目正常進行,不中斷。

管道管理(Pipeline management)

越來越多的能源管道具有傳感器和通信功能。連續的傳感器數據可以用來分析本地和全球性問題,表示是否需要引起注意或進行維護。

供應鏈和渠道分析(Supply chain and channel analytics)

通過對倉庫庫存、POS交易和多種渠道的運輸(如陸運、鐵路、海運)進行分析,可建立預測分析模型,有效幫助預先補貨,制定庫存管理策略,管理物流,以及因延遲危及到及時交貨時對線路進行優化并發送通知。

價格優化(Price optimization)

零售商希望最大限度提高產品銷售的整體盈利,建立的分析模型可以結合不同種類的數據流,包括競爭對手的價格、跨不同地域的銷售交易數據(以查看需求),以及生產、庫存和供應鏈的信息(以監測供貨)。這樣的模型可以動態地調整產品價格:當供不需求時,或競爭對手沒貨時,價格上漲;當因季節變化需清理庫存時,價格下調。

欺詐行為檢測(Fraud detection)

身份盜用事件不斷增長,隨之而來的是欺詐行為和交易的不斷增長。金融機構對上億條的交易數據進行分析,以識別欺詐行為模式。這樣的分析模型還可以在潛在欺詐交易可能發生時,向用戶發送警示。

所有這些應用場景都具有相似的特點,即分析涉及結構化和非結構化數據,被訪問的數據或數據流來自不同來源,以及數據量可能巨大。反之,對數據進行分析可以建立分析模型,用于實時識別來自同一數據源和數據流的模式。

最后編輯于
?著作權歸作者所有,轉載或內容合作請聯系作者
平臺聲明:文章內容(如有圖片或視頻亦包括在內)由作者上傳并發布,文章內容僅代表作者本人觀點,簡書系信息發布平臺,僅提供信息存儲服務。
  • 序言:七十年代末,一起剝皮案震驚了整個濱河市,隨后出現的幾起案子,更是在濱河造成了極大的恐慌,老刑警劉巖,帶你破解...
    沈念sama閱讀 228,786評論 6 534
  • 序言:濱河連續發生了三起死亡事件,死亡現場離奇詭異,居然都是意外死亡,警方通過查閱死者的電腦和手機,發現死者居然都...
    沈念sama閱讀 98,656評論 3 419
  • 文/潘曉璐 我一進店門,熙熙樓的掌柜王于貴愁眉苦臉地迎上來,“玉大人,你說我怎么就攤上這事。” “怎么了?”我有些...
    開封第一講書人閱讀 176,697評論 0 379
  • 文/不壞的土叔 我叫張陵,是天一觀的道長。 經常有香客問我,道長,這世上最難降的妖魔是什么? 我笑而不...
    開封第一講書人閱讀 63,098評論 1 314
  • 正文 為了忘掉前任,我火速辦了婚禮,結果婚禮上,老公的妹妹穿的比我還像新娘。我一直安慰自己,他們只是感情好,可當我...
    茶點故事閱讀 71,855評論 6 410
  • 文/花漫 我一把揭開白布。 她就那樣靜靜地躺著,像睡著了一般。 火紅的嫁衣襯著肌膚如雪。 梳的紋絲不亂的頭發上,一...
    開封第一講書人閱讀 55,254評論 1 324
  • 那天,我揣著相機與錄音,去河邊找鬼。 笑死,一個胖子當著我的面吹牛,可吹牛的內容都是我干的。 我是一名探鬼主播,決...
    沈念sama閱讀 43,322評論 3 442
  • 文/蒼蘭香墨 我猛地睜開眼,長吁一口氣:“原來是場噩夢啊……” “哼!你這毒婦竟也來了?” 一聲冷哼從身側響起,我...
    開封第一講書人閱讀 42,473評論 0 289
  • 序言:老撾萬榮一對情侶失蹤,失蹤者是張志新(化名)和其女友劉穎,沒想到半個月后,有當地人在樹林里發現了一具尸體,經...
    沈念sama閱讀 49,014評論 1 335
  • 正文 獨居荒郊野嶺守林人離奇死亡,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內容為張勛視角 年9月15日...
    茶點故事閱讀 40,833評論 3 355
  • 正文 我和宋清朗相戀三年,在試婚紗的時候發現自己被綠了。 大學時的朋友給我發了我未婚夫和他白月光在一起吃飯的照片。...
    茶點故事閱讀 43,016評論 1 371
  • 序言:一個原本活蹦亂跳的男人離奇死亡,死狀恐怖,靈堂內的尸體忽然破棺而出,到底是詐尸還是另有隱情,我是刑警寧澤,帶...
    沈念sama閱讀 38,568評論 5 362
  • 正文 年R本政府宣布,位于F島的核電站,受9級特大地震影響,放射性物質發生泄漏。R本人自食惡果不足惜,卻給世界環境...
    茶點故事閱讀 44,273評論 3 347
  • 文/蒙蒙 一、第九天 我趴在偏房一處隱蔽的房頂上張望。 院中可真熱鬧,春花似錦、人聲如沸。這莊子的主人今日做“春日...
    開封第一講書人閱讀 34,680評論 0 26
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽。三九已至,卻和暖如春,著一層夾襖步出監牢的瞬間,已是汗流浹背。 一陣腳步聲響...
    開封第一講書人閱讀 35,946評論 1 288
  • 我被黑心中介騙來泰國打工, 沒想到剛下飛機就差點兒被人妖公主榨干…… 1. 我叫王不留,地道東北人。 一個月前我還...
    沈念sama閱讀 51,730評論 3 393
  • 正文 我出身青樓,卻偏偏與公主長得像,于是被迫代替她去往敵國和親。 傳聞我的和親對象是個殘疾皇子,可洞房花燭夜當晚...
    茶點故事閱讀 48,006評論 2 374

推薦閱讀更多精彩內容