到2021年,具有智能數(shù)據(jù)探索分析功能的新型BI和分析平臺(tái)的用戶數(shù)量將是不具有智能數(shù)據(jù)探索分析功能的產(chǎn)品和平臺(tái)的兩倍,并且將創(chuàng)造兩倍的商業(yè)價(jià)值。from 深入解讀《Gartner2017年商業(yè)智能和分析平臺(tái)魔力象限報(bào)告》**
不在本文的討論范圍之內(nèi)的話題
- 語音識(shí)別相關(guān)的工作。個(gè)人理解語音只是輸入與輸出的一種方式,取代人工的文本輸入;按鈕點(diǎn)擊;閱讀。目前的計(jì)算機(jī)應(yīng)該還是需要把語音轉(zhuǎn)換成語義才能進(jìn)行下一步計(jì)算。語音輸入與文本輸入唯一的區(qū)別可能就是語氣,在數(shù)據(jù)服務(wù)中可能僅僅用于調(diào)整請(qǐng)求的優(yōu)先級(jí)。
- 數(shù)據(jù)服務(wù)的穩(wěn)定性,實(shí)時(shí)性,高性能計(jì)算。個(gè)人覺得這些屬于數(shù)據(jù)分析服務(wù)的基礎(chǔ)設(shè)施,與智能無關(guān)。當(dāng)然這些是智能的前提。
- 搜索本身。當(dāng)然搜索可以是智能服務(wù)的發(fā)起者,搜索也是一種技術(shù)手段。
- 單一數(shù)據(jù)的分析。比如灰度預(yù)測(cè)模型,神經(jīng)網(wǎng)絡(luò)預(yù)測(cè),數(shù)據(jù)的統(tǒng)計(jì)學(xué)分析等。
- 實(shí)現(xiàn)智能的技術(shù)手段。
為什么寫這篇文字
很快自己在杭州的第二個(gè)四年即將結(jié)束,雖然自己對(duì)數(shù)據(jù)分析服務(wù)理解并不透徹,不過還是想跟2010年寫本科畢業(yè)論文那會(huì)一樣,拼拼湊湊,加一點(diǎn)想法,寫點(diǎn)像樣的文字來總結(jié)過去四年對(duì)于數(shù)據(jù)服務(wù)的認(rèn)知。
下面開始是正文。
已有內(nèi)容的探索發(fā)現(xiàn)
本小節(jié)提到的內(nèi)容包括數(shù)據(jù)源、數(shù)據(jù)集、分析維度(比如時(shí)間,部門等)、指標(biāo)(又稱度量,如收入,利潤(rùn),人數(shù))、簡(jiǎn)單報(bào)表、復(fù)雜報(bào)表(又稱儀表盤)、圖表、數(shù)據(jù)分析報(bào)告等。
具體的場(chǎng)景包括:
用戶打開你的服務(wù),可以根據(jù)用戶相似性推薦他可能感興趣的內(nèi)容
用戶可以根據(jù)關(guān)鍵字來找到對(duì)應(yīng)主題的內(nèi)容
用戶添加了數(shù)據(jù)集后,自動(dòng)推薦使用了對(duì)應(yīng)數(shù)據(jù)集的“上層”內(nèi)容
用戶在閱讀某份報(bào)告的時(shí)候,向其推薦類似的報(bào)告
用戶可以根據(jù)某個(gè)可視化的簡(jiǎn)圖或者照片來搜索對(duì)應(yīng)的報(bào)告
相關(guān)技術(shù):圖像相似性
場(chǎng)景:用戶記得圖的樣子,但是找不到是具體哪個(gè)報(bào)告里基于地理位置來推薦內(nèi)容
場(chǎng)景:一個(gè)會(huì)議上,大家同時(shí)討論一個(gè)對(duì)象
已有內(nèi)容的智能排序
不同的時(shí)間點(diǎn),地理位置,數(shù)據(jù)消費(fèi)者需要根據(jù)不同的報(bào)表來進(jìn)行決策。
- 每周一早上例會(huì)可能需要一份指定的報(bào)告
- 每天下班前可能需要確認(rèn)一份數(shù)據(jù)
- 到門店交流時(shí)需要用到一份指定報(bào)表
問詢式的數(shù)據(jù)服務(wù)
用戶無需了解是否已經(jīng)存在已有的報(bào)表或者圖表,只需要告知引擎他心中的問題,引擎自動(dòng)去提取合適的分析維度與指標(biāo)。結(jié)果可以是一個(gè)數(shù)字,或者一個(gè)圖表。
上圖中的例子是用戶想知道某個(gè)地區(qū)附近最貴的房子。例子與圖片來自Tableau 2017 - 2020 年的產(chǎn)品規(guī)劃。
微軟的Power BI 已經(jīng)提供類似功能。
數(shù)據(jù)的自動(dòng)可視化呈現(xiàn)與解讀
當(dāng)數(shù)據(jù)加載完畢,引擎是否可以知道用戶的下一步意圖呢?有數(shù)據(jù)積累的公司,比如Google,已經(jīng)可以做到了。在Google Spreadsheet上用戶點(diǎn)擊任意一個(gè)Cell(最小數(shù)據(jù)單位),頁面右側(cè)便有對(duì)應(yīng)的可視化呈現(xiàn)與解讀。可視化是一部分,解讀更是重要的一部分。
注:可以點(diǎn)擊查看大圖來閱讀Google對(duì)于這些數(shù)據(jù)與圖表給出的解讀。
同一份數(shù)據(jù),機(jī)器可能更知曉最合適的呈現(xiàn)方式,是基本餅圖、條形圖、折線圖,還是熱圖、樹圖、數(shù)據(jù)地圖或者散點(diǎn)圖。
討論一下技術(shù)實(shí)現(xiàn),如果你有大量的數(shù)據(jù)與匹配的可視化樣本,你可以拿來做深度學(xué)習(xí)。但是解讀這部分,你可能需要更多互聯(lián)網(wǎng)上的“經(jīng)驗(yàn)”,比如財(cái)經(jīng)新聞,科技報(bào)道,咨詢報(bào)告。無疑,Google在這方面的積累遙遙領(lǐng)先。
異常數(shù)據(jù)的監(jiān)測(cè)與自動(dòng)解釋
對(duì)于數(shù)據(jù)消費(fèi)者,看到一條曲線出現(xiàn)突變,你肯定會(huì)特別留意并需要找到突變的原因。智能的引擎應(yīng)當(dāng)能夠監(jiān)測(cè)標(biāo)注并給出解釋。比如某產(chǎn)品銷量的下降可能跟以下因素有關(guān),
- 惡劣天氣、假期
- 供貨商供貨不及時(shí)
- 另外一款產(chǎn)品進(jìn)行了促銷活動(dòng)
(圖片來自Tableau Software)
監(jiān)測(cè)到異常數(shù)據(jù)告警之類的應(yīng)該不屬于智能服務(wù) :)
咨詢服務(wù)
一個(gè)App,一家餐飲連鎖,一家銀行,不同時(shí)期需要關(guān)注的數(shù)據(jù)是哪些? 平臺(tái)化的數(shù)據(jù)分析服務(wù)提供者有能力提供此類智能的咨詢服務(wù),這可能也是最高級(jí)的智能服務(wù)。
微軟的Power BI上提供了一系列的模板幫助消費(fèi)者快速分析一個(gè)對(duì)象,比如一個(gè)網(wǎng)站的訪問情況(基于Google Analytics 數(shù)據(jù)),一個(gè)軟件工程的狀態(tài)(基于Github數(shù)據(jù))。
當(dāng)然真正值錢的咨詢服務(wù)還是要收費(fèi)的,預(yù)收費(fèi)還是后付費(fèi)的問題。
數(shù)據(jù)清理
注:本小節(jié)無具體表述。
其他
我們大刀闊斧地投入人力與財(cái)力研發(fā)產(chǎn)品之前,或許需要思考智能化的服務(wù)可以帶來什么真正的價(jià)值,當(dāng)然帶來商業(yè)價(jià)值也是一種價(jià)值。
本文沒有討論技術(shù)手段,但是很多智能都需要基于數(shù)據(jù)與樣本,那么那些服務(wù)部署在企業(yè)私有云上的廠家就要考慮這個(gè)問題了。“借刀殺人”是個(gè)不錯(cuò)的策略。