如何分析網(wǎng)站日志文件

如果你的博客或網(wǎng)站是搭建在付費(fèi)主機(jī)上,如果你是博客或網(wǎng)站的站長(zhǎng),如果你連原始訪問日志是什么都不知道,或者對(duì)其根本不屑一顧,我只能說你是一個(gè)不稱職的網(wǎng)站站長(zhǎng),一旦網(wǎng)站出問題,必定是束手無策!相信大家都在自己的網(wǎng)站上安裝了網(wǎng)站統(tǒng)計(jì)的代碼,如Googleanalytics、量子統(tǒng)計(jì)、百度統(tǒng)計(jì)、cnzz、51.la等,這些工具可以統(tǒng)計(jì)網(wǎng)站的流量,也就是網(wǎng)站上訪客可以看到的所有頁面的訪問量,但是這些統(tǒng)計(jì)工具都不能統(tǒng)計(jì)你主機(jī)上資源的原始訪問信息,例如某個(gè)圖片被誰下載了,也不能統(tǒng)計(jì)到那些沒有添加統(tǒng)計(jì)代碼的地方,比如后臺(tái)操作頁面。

絕大多數(shù)收費(fèi)主機(jī)都提供原始訪問日志,網(wǎng)站服務(wù)器會(huì)把每一個(gè)訪客來訪時(shí)的一些信息自動(dòng)記錄下來,保存在原始訪問日志文件中,如果你的主機(jī)不提供日志功能,建議你到期后還是換主機(jī)吧。日志中記錄了網(wǎng)站上所有資源的訪問信息,包括圖片、CSS、JS、FLASH、HTML、MP3等所有網(wǎng)頁打開過程載入的資源,同時(shí)記錄了這些資源都被誰訪問了、用什么來訪問以及訪問的結(jié)果是什么等等,可以說原始訪問日志記錄了主機(jī)的所有資源使用情況。

分析網(wǎng)站日志有什么作用?

1、我們可以比較準(zhǔn)確的定位搜索引擎蜘蛛來爬行我們網(wǎng)站的次數(shù),可以屏蔽偽蜘蛛(此類蜘蛛多以采集為主,會(huì)增加我們服務(wù)器的開銷)點(diǎn)此識(shí)別Baiduspider真?zhèn)?;

2、通過分析網(wǎng)站日志,我們可以準(zhǔn)確定位搜索引擎蜘蛛爬行的頁面以及時(shí)間長(zhǎng)短,我們可以依次有針對(duì)性的對(duì)我們的網(wǎng)站進(jìn)行微調(diào) ;

3、http返回狀態(tài)碼,搜索引擎蜘蛛以及用戶每訪問我們的網(wǎng)站一次,服務(wù)器端都會(huì)產(chǎn)生類似301,404,200的狀態(tài)嗎,我們可以參照此類信息,對(duì)我們出現(xiàn)問題的網(wǎng)站進(jìn)行簡(jiǎn)單的診斷,及時(shí)處理問題。

網(wǎng)站日志文件存放在什么地方?

一般的虛擬主機(jī)都提供日志文件,但是不同的虛擬主機(jī)系統(tǒng)會(huì)提供不同的LOG文件存儲(chǔ)文件名,筆者使用的是萬網(wǎng)的虛擬主機(jī),日志文件存儲(chǔ)在wwwlogs文件夾下。

網(wǎng)站日志文件里面的記錄怎么看?

原始訪問日志每一行就是類似以下的記錄:

116.231.220.179?-?-?[25/Mar/2015:11:21:15?+0800]?"GET?/blog/article/10.html?HTTP/1.1"?200?8671?"http://www.weiaipin.cn/"?"Mozilla/5.0?(Windows?NT?6.1;?WOW64;?rv:36.0)"

下面我們來說說這一行記錄的意思:

116.231.220.179

這是訪客(也可能是機(jī)器人)的IP

[25/Mar/2015:11:21:15 +0800]

這是訪客訪問該資源的時(shí)間(Date),+0800是該時(shí)間所對(duì)應(yīng)的時(shí)區(qū),即與格林威治時(shí)間相差+8個(gè)小時(shí)

"GET /blog/article/10.html HTTP/1.1"

請(qǐng)求信息,包括請(qǐng)求方式、所請(qǐng)求的資源以及所使用的協(xié)議,該語句的意思就是以GET方式,按照HTTP/1.1協(xié)議獲取網(wǎng)頁/blog/article/10.html,10html為網(wǎng)站上的某個(gè)頁面。

200 8671

200為該請(qǐng)求返回的狀態(tài)碼(Http Code),不同的狀態(tài)碼代表不同的意思,具體請(qǐng)閱讀 HTTP 狀態(tài)代碼;8671為此次請(qǐng)求所耗費(fèi)的流量(Size in Bytes),單位為byte

"http://www.weiaipin.cn/"

為訪客來源(Referer)。這一段是告訴我們?cè)L客是從哪里來到這一個(gè)網(wǎng)頁。有可能是你的網(wǎng)站其他頁,有可能是來自搜索引擎的搜索頁等。通過這條來源信息,你可以揪出盜鏈者的網(wǎng)頁。

"Mozilla/5.0 (Windows NT 6.1; WOW64; rv:36.0)"

為訪客所使用的瀏覽器類型(Agent),這里記錄了用戶使用的操作系統(tǒng)、瀏覽器型號(hào)等信息。

如何分析網(wǎng)站日志中的內(nèi)容?

1、注意那些被頻繁訪問的資源

如果在日志中,你發(fā)現(xiàn)某個(gè)資源(網(wǎng)頁、圖片和mp3等)被人頻繁訪問,那你應(yīng)該注意該資源被用于何處了!如果這些請(qǐng)求的來源(Referer)不是你的網(wǎng)站或者為空,且狀態(tài)碼(Http Code)為200,說明你的這些資源很可能被人盜鏈了,通過 Referer你可以查出盜鏈者的網(wǎng)址,這可能就是你的網(wǎng)站流量暴增的原因,你應(yīng)該做好防盜鏈了。請(qǐng)看下圖,我網(wǎng)站上的japan.mp3這個(gè)文件就被人頻繁的訪問了,下圖還只是日志的一部分,這人極其險(xiǎn)惡,由于我早已將該文件刪除,它遲遲要不到j(luò)apan.mp3,在短短一個(gè)小時(shí)內(nèi)對(duì)japan.mp3發(fā)起了不下百次的請(qǐng)求,見我設(shè)置了防盜鏈就偽造來源Referer和Agent,還不斷地更換IP,很可惜它做得都是無用功,根本沒有這個(gè)文件,請(qǐng)求的狀態(tài)碼Http Code都是403或者404。

2、注意那些你網(wǎng)站上不存在資源的請(qǐng)求

如果某些請(qǐng)求信息不是本站的資源,Http Code不是403就是404,但從名稱分析,可能是保存數(shù)據(jù)庫信息的文件,如果這些信息讓別人拿走,那么攻擊你的網(wǎng)站就輕松多了。發(fā)起這些請(qǐng)求的目的無非就是掃描你的網(wǎng)站漏洞,通過漫無目的地掃描下載這些已知的漏洞文件,很可能會(huì)發(fā)現(xiàn)你的網(wǎng)站某個(gè)漏洞哦!通過觀察,可以發(fā)現(xiàn),這些請(qǐng)求所使用的Agent差不多都是Mozilla/4.0、Mozilla/5.0或者libwww-perl/等等非常規(guī)的瀏覽器類型,以上我提供的日志格式化工具已經(jīng)集成了對(duì)這些請(qǐng)求的警報(bào)功能。我們可以通過禁止這些Agent的訪問,來達(dá)到防止被掃描的目的,具體方法下面再介紹。

3、觀察搜索引擎蜘蛛的來訪情況

通過觀察日志中的信息,你可以看出你的網(wǎng)站被蜘蛛訪問的頻率,進(jìn)而可以看出你的網(wǎng)站是否被搜索引擎青睞,這些都是SEO所關(guān)心的問題吧。日志格式化工具已經(jīng)集成了對(duì)搜索引擎蜘蛛的提示功能。常見搜索引擎的蜘蛛所使用的Agent列表如下:

Google蜘蛛:Mozilla/5.0 (compatible; Googlebot/2.1; +http://www.google.com/bot.html)

Baidu蜘蛛:Baiduspider+(+http://www.baidu.com/search/spider.htm)

Yahoo!蜘蛛:Mozilla/5.0 (compatible; Yahoo! Slurp/3.0; http://help.yahoo.com/help/us/ysearch/slurp)

Yahoo!中國蜘蛛:Mozilla/5.0 (compatible; Yahoo! Slurp China; http://misc.yahoo.com.cn/help.html)

微軟Bing蜘蛛:msnbot/2.0b (+http://search.msn.com/msnbot.htm)

Google Adsense蜘蛛:Mediapartners-Google

有道蜘蛛:Mozilla/5.0 (compatible; YoudaoBot/1.0; http://www.youdao.com/help/webmaster/spider/; )

Soso搜搜博客蜘蛛:Sosoblogspider+(+http://help.soso.com/soso-blog-spider.htm)

Sogou搜狗蜘蛛:Sogou web spider/4.0(+http://www.sogou.com/docs/help/webmasters.htm#07)

Twiceler爬蟲程序:Mozilla/5.0 (Twiceler-0.9 http://www.cuil.com/twiceler/robot.html)’

Google圖片搜索蜘蛛:Googlebot-Image/1.0

俄羅斯Yandex搜索引擎蜘蛛:Yandex/1.01.001 (compatible; Win16; I)

Alexa蜘蛛:ia_archiver (+http://www.alexa.com/site/help/webmasters; crawler@alexa.com)

Feedsky蜘蛛:Mozilla 5.0 (compatible; Feedsky crawler /1.0; http://www.feedsky.com)

韓國Yeti蜘蛛:Yeti/1.0 (NHN Corp.; http://help.naver.com/robots/)

4、觀察訪客行為

通過查看格式化后的日志,可以查看跟蹤某個(gè)IP在某個(gè)時(shí)間段的一系列訪問行為,單個(gè)IP的訪問記錄越多,說明你的網(wǎng)站PV高,用戶粘性好;如果單個(gè)IP的訪問記錄希希,你應(yīng)該考慮如何將你的網(wǎng)站內(nèi)容做得更加吸引人了。通過分析訪客的行為,可以為你的網(wǎng)站建設(shè)提供有力的參考,哪些內(nèi)容好,哪些內(nèi)容不好,確定網(wǎng)站的發(fā)展方向;通過分析訪客的行為,看看他們都干了些什么事,可以揣測(cè)訪客的用意,及時(shí)揪出惡意用戶。

常用網(wǎng)站日志分析軟件有哪些?

筆者試用過很多網(wǎng)站日志分析工具,常用的并且功能又比較全面的大概有三款:光年SEO日志分析系統(tǒng)、逆火網(wǎng)站日志分析器、Web Log Explorer。

對(duì)于這三款軟件的具體使用評(píng)價(jià)總結(jié),請(qǐng)看我寫的另外一篇文章《常用網(wǎng)站日志分析軟件使用總結(jié)》。

附:網(wǎng)站日志代碼大全

1xx-信息提示

這些狀態(tài)代碼表示臨時(shí)的響應(yīng)。客戶端在收到常規(guī)響應(yīng)之前,應(yīng)準(zhǔn)備接收一個(gè)或多個(gè)1xx響應(yīng)。

100-繼續(xù)。

101-切換協(xié)議。

2xx-成功

這類狀態(tài)代碼表明服務(wù)器成功地接受了客戶端請(qǐng)求。

200-確定。客戶端請(qǐng)求已成功。

201-已創(chuàng)建。

202-已接受。

203-非權(quán)威性信息。

204-無內(nèi)容。

205-重置內(nèi)容。

206-部分內(nèi)容。

3xx-重定向

客戶端瀏覽器必須采取更多操作來實(shí)現(xiàn)請(qǐng)求。例如,瀏覽器可能不得不請(qǐng)求服務(wù)器上的不同的頁面,或通過代理服務(wù)器重復(fù)該請(qǐng)求。

301-對(duì)象已永久移走,即永久重定向。

302-對(duì)象已臨時(shí)移動(dòng)。

304-未修改。

307-臨時(shí)重定向。

4xx-客戶端錯(cuò)誤

發(fā)生錯(cuò)誤,客戶端似乎有問題。例如,客戶端請(qǐng)求不存在的頁面,客戶端未提供有效的身份驗(yàn)證信息。400-錯(cuò)誤的請(qǐng)求。

401-訪問被拒絕。IIS定義了許多不同的401錯(cuò)誤,它們指明更為具體的錯(cuò)誤原因。這些具體的錯(cuò)誤代碼在瀏覽器中顯示,但不在IIS日志中顯示:

401.1-登錄失敗。

401.2-服務(wù)器配置導(dǎo)致登錄失敗。

401.3-由于ACL對(duì)資源的限制而未獲得授權(quán)。

401.4-篩選器授權(quán)失敗。

401.5-ISAPI/CGI應(yīng)用程序授權(quán)失敗。

401.7–訪問被Web服務(wù)器上的URL授權(quán)策略拒絕。這個(gè)錯(cuò)誤代碼為IIS6.0所專用。

403-禁止訪問:IIS定義了許多不同的403錯(cuò)誤,它們指明更為具體的錯(cuò)誤原因:

403.1-執(zhí)行訪問被禁止。

403.2-讀訪問被禁止。

403.3-寫訪問被禁止。

403.4-要求SSL。

403.5-要求SSL128。

403.6-IP地址被拒絕。

403.7-要求客戶端證書。

403.8-站點(diǎn)訪問被拒絕。

403.9-用戶數(shù)過多。

403.10-配置無效。

403.11-密碼更改。

403.12-拒絕訪問映射表。

403.13-客戶端證書被吊銷。

403.14-拒絕目錄列表。

403.15-超出客戶端訪問許可。

403.16-客戶端證書不受信任或無效。

403.17-客戶端證書已過期或尚未生效。

403.18-在當(dāng)前的應(yīng)用程序池中不能執(zhí)行所請(qǐng)求的URL。這個(gè)錯(cuò)誤代碼為IIS6.0所專用。

403.19-不能為這個(gè)應(yīng)用程序池中的客戶端執(zhí)行CGI。這個(gè)錯(cuò)誤代碼為IIS6.0所專用。

403.20-Passport登錄失敗。這個(gè)錯(cuò)誤代碼為IIS6.0所專用。

404-未找到。

404.0-(無)–沒有找到文件或目錄。

404.1-無法在所請(qǐng)求的端口上訪問Web站點(diǎn)。

404.2-Web服務(wù)擴(kuò)展鎖定策略阻止本請(qǐng)求。

404.3-MIME映射策略阻止本請(qǐng)求。

405-用來訪問本頁面的HTTP謂詞不被允許(方法不被允許)

406-客戶端瀏覽器不接受所請(qǐng)求頁面的MIME類型。

407-要求進(jìn)行代理身份驗(yàn)證。

412-前提條件失敗。

413–請(qǐng)求實(shí)體太大。

414-請(qǐng)求URI太長(zhǎng)。

415–不支持的媒體類型。

416–所請(qǐng)求的范圍無法滿足。

417–執(zhí)行失敗。

423–鎖定的錯(cuò)誤。

5xx-服務(wù)器錯(cuò)誤

服務(wù)器由于遇到錯(cuò)誤而不能完成該請(qǐng)求。

500-內(nèi)部服務(wù)器錯(cuò)誤。

500.12-應(yīng)用程序正忙于在Web服務(wù)器上重新啟動(dòng)。

500.13-Web服務(wù)器太忙。

500.15-不允許直接請(qǐng)求Global.asa。

500.16–UNC授權(quán)憑據(jù)不正確。這個(gè)錯(cuò)誤代碼為IIS6.0所專用。

500.18–URL授權(quán)存儲(chǔ)不能打開。這個(gè)錯(cuò)誤代碼為IIS6.0所專用。

500.100-內(nèi)部ASP錯(cuò)誤。

501-頁眉值指定了未實(shí)現(xiàn)的配置。

502-Web服務(wù)器用作網(wǎng)關(guān)或代理服務(wù)器時(shí)收到了無效響應(yīng)。

502.1-CGI應(yīng)用程序超時(shí)。

502.2-CGI應(yīng)用程序出錯(cuò)。application.

503-服務(wù)不可用。這個(gè)錯(cuò)誤代碼為IIS6.0所專用。

504-網(wǎng)關(guān)超時(shí)。

505-HTTP版本不受支持。


分享轉(zhuǎn)載請(qǐng)注明:"本文轉(zhuǎn)載于「為愛拼」,原文地址:http://www.weiaipin.cn/blog/article/31.html"

最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
平臺(tái)聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點(diǎn),簡(jiǎn)書系信息發(fā)布平臺(tái),僅提供信息存儲(chǔ)服務(wù)。

推薦閱讀更多精彩內(nèi)容

  • Spring Cloud為開發(fā)人員提供了快速構(gòu)建分布式系統(tǒng)中一些常見模式的工具(例如配置管理,服務(wù)發(fā)現(xiàn),斷路器,智...
    卡卡羅2017閱讀 134,948評(píng)論 18 139
  • 一、概念(載錄于:http://www.cnblogs.com/EricaMIN1987_IT/p/3837436...
    yuantao123434閱讀 8,440評(píng)論 6 152
  • 工作流程 一次HTTP操作稱為一個(gè)事務(wù),其工作過程可分為四步: 1)首先客戶機(jī)與服務(wù)器需要建立連接。只要單擊某個(gè)超...
    保川閱讀 4,637評(píng)論 2 14
  • 前言:最近發(fā)現(xiàn)自己在網(wǎng)絡(luò)相關(guān)這一塊基礎(chǔ)很是欠缺,所以準(zhǔn)備花時(shí)間了解一下,本文主要是講http協(xié)議的一些基礎(chǔ),和一些...
    justCode_閱讀 2,111評(píng)論 0 23
  • 站在六樓的走廊上,一束暖黃色的陽光照在左手邊光滑的墻壁上,整個(gè)走廊被籠罩在一片暖烘烘之中,動(dòng)不了腳步,竟然就這樣呆...
    牧清晚閱讀 855評(píng)論 2 11