回歸分析在各行各業的數據分析中有很重要的作用,可以確定自變量和因變量之間的關系,分析出影響性能的關鍵因素。在機器學習領域,回歸算法也是非常重要的。這里我們分享一種統計學意義上的回歸分析。
回歸分析一般人的用法是這樣的:
- 從業務系統導出數據并整理
- 放到excel或者minitab中進行回歸分析
- 剔除不顯著的自變量,添加新的自變量,不斷重復
- 確定顯著的自變量,完成回歸分析
這樣的分析沒問題,但存在幾個問題:
- 效率就比較低下
- 不同的人使用的回歸參數不一樣也會導致結果不一樣
- 大量的業務數據,如此手工分析無法面面俱到
- 對使用回歸分析的人的能力要求較高
為此,我們對回歸分析如何整合到業務系統中進行快捷的分析,我們做了這樣的設計:
設計:
如何能快速的進行類似的分析呢?可以這樣設計:
- 前端通過應用服務器提取參數信息供用戶選擇分析項目
- 用戶選擇后,通過應用服務器提取生產數據庫的數據,提交到計算服務器
- 計算服務器把計算結果返回給應用服務器
- 應用服務器把結果整理格式顯示在前端。
系統架構圖:
回歸分析系統整合架構圖
實現:
前端設計:
通過web服務器,訪問業務數據庫,獲取設備之類的信息
用戶選擇設備自動帶出相關數據供用戶選擇,還可以提供時間、數據點的選項。
image
分析結果:
分析結果直接返回一個回歸分析表,和一個json的回歸分析結果,可以在其他系統調用json。
image
設計方案難點:
- 業務分析,用戶需要清楚知道需要進行的業務分析,不然隨便分析也沒有什么能用的結果
- 數據整理,如何整理能讓用戶選擇的數據,數據需要對齊(x-y對齊),對于復雜的業務和IT系統,整理數據需要花費很多業務人員和IT人員的時間
體驗:
上面的方案設計的實現,請看下方的鏈接: