眼下網(wǎng)站分析數(shù)據(jù)主要有三種收集方式:Web日志、JavaScript標記和包嗅探器。
1. 以Web日志的方式
Web日志收集
從上圖可以看出網(wǎng)站分析數(shù)據(jù)的收集從網(wǎng)站訪問者輸入URL向網(wǎng)站服務器發(fā)出http請求就開始了。網(wǎng)站服務器接收到請求后會在自己的Log文件中追加一條記錄,記錄內(nèi)容包括:遠程主機名(或者是IP地址)、登錄名、登錄全名、發(fā)請求的日期、發(fā)請求的時間、請求的詳細(包括請求的方法、地址、協(xié)議)、請求返回的狀態(tài)、請求文檔的大小。隨后網(wǎng)站服務器將頁面返回到訪問者的瀏覽器內(nèi)得以展現(xiàn)。
2.以JavaScript標記的方式-又稱“埋碼技術”
用來統(tǒng)計uv、pv等數(shù)據(jù)。
埋碼技術
上圖所示JavaScript標記同Web日志收集數(shù)據(jù)一樣,從網(wǎng)站訪問者發(fā)出http請求開始。不同的是,JavaScript標記返回給訪問者的網(wǎng)頁代碼中會包含一段特殊的JavaScript代碼,當頁面展示的同時這段代碼也得以執(zhí)行。這段代碼會從訪問者的Cookie中取得詳細信息(訪問時間、瀏覽器信息、工具廠商賦予當前訪問者的userID等)并發(fā)送到工具商的數(shù)據(jù)收集服務器。數(shù)據(jù)收集服務器對收集到的數(shù)據(jù)處理后存入數(shù)據(jù)庫中。網(wǎng)站經(jīng)營人員通過訪問分析報表系統(tǒng)查看這些數(shù)據(jù)。
JavaScript標記以其快捷性和精確性已經(jīng)得到大多數(shù)工具廠商的青睞,已經(jīng)發(fā)展成為當前最為流行的數(shù)據(jù)收集方式。
3. 包嗅探器的方式
優(yōu)缺點 | Web日志 | JavaScript標記 | 包嗅探器 |
---|---|---|---|
優(yōu)點 | 比較容易獲取數(shù)據(jù)源、方便對歷史數(shù)據(jù)再處理、可以記錄搜索引擎爬蟲的訪問記錄、記錄文件下載狀況 | 數(shù)據(jù)收集靈活,可定制性強、可以記錄緩存,代理服務器訪問、對訪問者行動追蹤更為準確 | 對跨域訪問的監(jiān)測比較方便、取得實時數(shù)據(jù)比較方便 |
缺點 | 無法記錄緩存,代理服務器訪問、無法捕獲自定義的業(yè)務信息、對訪問者的定位過于模糊、對跨域訪問的監(jiān)測比較麻煩 | 用戶端的JS設置會影響數(shù)據(jù)收集、記錄下載和重定向數(shù)據(jù)比較困難、會增加網(wǎng)站的JS腳本負荷 | 初期導入費用較高、無法記錄緩存、代理服務器訪問、對用戶數(shù)據(jù)隱私有安全隱患 |
包嗅探器
上圖可以看出網(wǎng)站訪問者發(fā)出的請求到達網(wǎng)站服務器之前,會先經(jīng)過包嗅探器,然后包嗅探器才會將請求發(fā)送到網(wǎng)站服務器。包嗅探器收集到的數(shù)據(jù)經(jīng)過工具廠商的處理服務器后存入數(shù)據(jù)庫。隨后網(wǎng)站經(jīng)營人員就可以通過分析報表系統(tǒng)看到這些數(shù)據(jù)。
4.數(shù)據(jù)收集方式的優(yōu)劣比較
沒有一種數(shù)據(jù)收集方式是完美無缺的,不同數(shù)據(jù)收集方式也決定了各自的特性,了解不同收集方式的優(yōu)劣所在,會對工具的選擇也有一定的指導作用。
優(yōu)缺點 | Web日志 | JavaScript標記 | 包嗅探器 |
---|---|---|---|
優(yōu)點 | 比較容易獲取數(shù)據(jù)源、方便對歷史數(shù)據(jù)再處理、可以記錄搜索引擎爬蟲的訪問記錄、記錄文件下載狀況 | 數(shù)據(jù)收集靈活,可定制性強、可以記錄緩存,代理服務器訪問、對訪問者行動追蹤更為準確 | 對跨域訪問的監(jiān)測比較方便、取得實時數(shù)據(jù)比較方便 |
缺點 | 無法記錄緩存,代理服務器訪問、無法捕獲自定義的業(yè)務信息、對訪問者的定位過于模糊、對跨域訪問的監(jiān)測比較麻煩 | 用戶端的JS設置會影響數(shù)據(jù)收集、記錄下載和重定向數(shù)據(jù)比較困難、會增加網(wǎng)站的JS腳本負荷 | 初期導入費用較高、無法記錄緩存、代理服務器訪問、對用戶數(shù)據(jù)隱私有安全隱患 |