如果你的博客或網(wǎng)站是搭建在付費(fèi)主機(jī)上,如果你是博客或網(wǎng)站的站長(zhǎng),如果你連原始訪問日志是什么都不知道,或者對(duì)其根本不屑一顧,我只能說你是一個(gè)不稱職的網(wǎng)站站長(zhǎng),一旦網(wǎng)站出問題,必定是束手無策!相信大家都在自己的網(wǎng)站上安裝了網(wǎng)站統(tǒng)計(jì)的代碼,如Googleanalytics、量子統(tǒng)計(jì)、百度統(tǒng)計(jì)、cnzz、51.la等,這些工具可以統(tǒng)計(jì)網(wǎng)站的流量,也就是網(wǎng)站上訪客可以看到的所有頁面的訪問量,但是這些統(tǒng)計(jì)工具都不能統(tǒng)計(jì)你主機(jī)上資源的原始訪問信息,例如某個(gè)圖片被誰下載了,也不能統(tǒng)計(jì)到那些沒有添加統(tǒng)計(jì)代碼的地方,比如后臺(tái)操作頁面。
絕大多數(shù)收費(fèi)主機(jī)都提供原始訪問日志,網(wǎng)站服務(wù)器會(huì)把每一個(gè)訪客來訪時(shí)的一些信息自動(dòng)記錄下來,保存在原始訪問日志文件中,如果你的主機(jī)不提供日志功能,建議你到期后還是換主機(jī)吧。日志中記錄了網(wǎng)站上所有資源的訪問信息,包括圖片、CSS、JS、FLASH、HTML、MP3等所有網(wǎng)頁打開過程載入的資源,同時(shí)記錄了這些資源都被誰訪問了、用什么來訪問以及訪問的結(jié)果是什么等等,可以說原始訪問日志記錄了主機(jī)的所有資源使用情況。
分析網(wǎng)站日志有什么作用?
1、我們可以比較準(zhǔn)確的定位搜索引擎蜘蛛來爬行我們網(wǎng)站的次數(shù),可以屏蔽偽蜘蛛(此類蜘蛛多以采集為主,會(huì)增加我們服務(wù)器的開銷)點(diǎn)此識(shí)別Baiduspider真?zhèn)?;
2、通過分析網(wǎng)站日志,我們可以準(zhǔn)確定位搜索引擎蜘蛛爬行的頁面以及時(shí)間長(zhǎng)短,我們可以依次有針對(duì)性的對(duì)我們的網(wǎng)站進(jìn)行微調(diào) ;
3、http返回狀態(tài)碼,搜索引擎蜘蛛以及用戶每訪問我們的網(wǎng)站一次,服務(wù)器端都會(huì)產(chǎn)生類似301,404,200的狀態(tài)嗎,我們可以參照此類信息,對(duì)我們出現(xiàn)問題的網(wǎng)站進(jìn)行簡(jiǎn)單的診斷,及時(shí)處理問題。
網(wǎng)站日志文件存放在什么地方?
一般的虛擬主機(jī)都提供日志文件,但是不同的虛擬主機(jī)系統(tǒng)會(huì)提供不同的LOG文件存儲(chǔ)文件名,筆者使用的是萬網(wǎng)的虛擬主機(jī),日志文件存儲(chǔ)在wwwlogs文件夾下。

網(wǎng)站日志文件里面的記錄怎么看?
原始訪問日志每一行就是類似以下的記錄:
116.231.220.179?-?-?[25/Mar/2015:11:21:15?+0800]?"GET?/blog/article/10.html?HTTP/1.1"?200?8671?"http://www.weiaipin.cn/"?"Mozilla/5.0?(Windows?NT?6.1;?WOW64;?rv:36.0)"
下面我們來說說這一行記錄的意思:
116.231.220.179
這是訪客(也可能是機(jī)器人)的IP
[25/Mar/2015:11:21:15 +0800]
這是訪客訪問該資源的時(shí)間(Date),+0800是該時(shí)間所對(duì)應(yīng)的時(shí)區(qū),即與格林威治時(shí)間相差+8個(gè)小時(shí)
"GET /blog/article/10.html HTTP/1.1"
請(qǐng)求信息,包括請(qǐng)求方式、所請(qǐng)求的資源以及所使用的協(xié)議,該語句的意思就是以GET方式,按照HTTP/1.1協(xié)議獲取網(wǎng)頁/blog/article/10.html,10html為網(wǎng)站上的某個(gè)頁面。
200 8671
200為該請(qǐng)求返回的狀態(tài)碼(Http Code),不同的狀態(tài)碼代表不同的意思,具體請(qǐng)閱讀 HTTP 狀態(tài)代碼;8671為此次請(qǐng)求所耗費(fèi)的流量(Size in Bytes),單位為byte
"http://www.weiaipin.cn/"
為訪客來源(Referer)。這一段是告訴我們?cè)L客是從哪里來到這一個(gè)網(wǎng)頁。有可能是你的網(wǎng)站其他頁,有可能是來自搜索引擎的搜索頁等。通過這條來源信息,你可以揪出盜鏈者的網(wǎng)頁。
"Mozilla/5.0 (Windows NT 6.1; WOW64; rv:36.0)"
為訪客所使用的瀏覽器類型(Agent),這里記錄了用戶使用的操作系統(tǒng)、瀏覽器型號(hào)等信息。
如何分析網(wǎng)站日志中的內(nèi)容?
1、注意那些被頻繁訪問的資源
如果在日志中,你發(fā)現(xiàn)某個(gè)資源(網(wǎng)頁、圖片和mp3等)被人頻繁訪問,那你應(yīng)該注意該資源被用于何處了!如果這些請(qǐng)求的來源(Referer)不是你的網(wǎng)站或者為空,且狀態(tài)碼(Http Code)為200,說明你的這些資源很可能被人盜鏈了,通過 Referer你可以查出盜鏈者的網(wǎng)址,這可能就是你的網(wǎng)站流量暴增的原因,你應(yīng)該做好防盜鏈了。請(qǐng)看下圖,我網(wǎng)站上的japan.mp3這個(gè)文件就被人頻繁的訪問了,下圖還只是日志的一部分,這人極其險(xiǎn)惡,由于我早已將該文件刪除,它遲遲要不到j(luò)apan.mp3,在短短一個(gè)小時(shí)內(nèi)對(duì)japan.mp3發(fā)起了不下百次的請(qǐng)求,見我設(shè)置了防盜鏈就偽造來源Referer和Agent,還不斷地更換IP,很可惜它做得都是無用功,根本沒有這個(gè)文件,請(qǐng)求的狀態(tài)碼Http Code都是403或者404。
2、注意那些你網(wǎng)站上不存在資源的請(qǐng)求
如果某些請(qǐng)求信息不是本站的資源,Http Code不是403就是404,但從名稱分析,可能是保存數(shù)據(jù)庫信息的文件,如果這些信息讓別人拿走,那么攻擊你的網(wǎng)站就輕松多了。發(fā)起這些請(qǐng)求的目的無非就是掃描你的網(wǎng)站漏洞,通過漫無目的地掃描下載這些已知的漏洞文件,很可能會(huì)發(fā)現(xiàn)你的網(wǎng)站某個(gè)漏洞哦!通過觀察,可以發(fā)現(xiàn),這些請(qǐng)求所使用的Agent差不多都是Mozilla/4.0、Mozilla/5.0或者libwww-perl/等等非常規(guī)的瀏覽器類型,以上我提供的日志格式化工具已經(jīng)集成了對(duì)這些請(qǐng)求的警報(bào)功能。我們可以通過禁止這些Agent的訪問,來達(dá)到防止被掃描的目的,具體方法下面再介紹。
3、觀察搜索引擎蜘蛛的來訪情況
通過觀察日志中的信息,你可以看出你的網(wǎng)站被蜘蛛訪問的頻率,進(jìn)而可以看出你的網(wǎng)站是否被搜索引擎青睞,這些都是SEO所關(guān)心的問題吧。日志格式化工具已經(jīng)集成了對(duì)搜索引擎蜘蛛的提示功能。常見搜索引擎的蜘蛛所使用的Agent列表如下:
Google蜘蛛:Mozilla/5.0 (compatible; Googlebot/2.1; +http://www.google.com/bot.html)
Baidu蜘蛛:Baiduspider+(+http://www.baidu.com/search/spider.htm)
Yahoo!蜘蛛:Mozilla/5.0 (compatible; Yahoo! Slurp/3.0; http://help.yahoo.com/help/us/ysearch/slurp)
Yahoo!中國蜘蛛:Mozilla/5.0 (compatible; Yahoo! Slurp China; http://misc.yahoo.com.cn/help.html)
微軟Bing蜘蛛:msnbot/2.0b (+http://search.msn.com/msnbot.htm)
Google Adsense蜘蛛:Mediapartners-Google
有道蜘蛛:Mozilla/5.0 (compatible; YoudaoBot/1.0; http://www.youdao.com/help/webmaster/spider/; )
Soso搜搜博客蜘蛛:Sosoblogspider+(+http://help.soso.com/soso-blog-spider.htm)
Sogou搜狗蜘蛛:Sogou web spider/4.0(+http://www.sogou.com/docs/help/webmasters.htm#07)
Twiceler爬蟲程序:Mozilla/5.0 (Twiceler-0.9 http://www.cuil.com/twiceler/robot.html)’
Google圖片搜索蜘蛛:Googlebot-Image/1.0
俄羅斯Yandex搜索引擎蜘蛛:Yandex/1.01.001 (compatible; Win16; I)
Alexa蜘蛛:ia_archiver (+http://www.alexa.com/site/help/webmasters; crawler@alexa.com)
Feedsky蜘蛛:Mozilla 5.0 (compatible; Feedsky crawler /1.0; http://www.feedsky.com)
韓國Yeti蜘蛛:Yeti/1.0 (NHN Corp.; http://help.naver.com/robots/)
4、觀察訪客行為
通過查看格式化后的日志,可以查看跟蹤某個(gè)IP在某個(gè)時(shí)間段的一系列訪問行為,單個(gè)IP的訪問記錄越多,說明你的網(wǎng)站PV高,用戶粘性好;如果單個(gè)IP的訪問記錄希希,你應(yīng)該考慮如何將你的網(wǎng)站內(nèi)容做得更加吸引人了。通過分析訪客的行為,可以為你的網(wǎng)站建設(shè)提供有力的參考,哪些內(nèi)容好,哪些內(nèi)容不好,確定網(wǎng)站的發(fā)展方向;通過分析訪客的行為,看看他們都干了些什么事,可以揣測(cè)訪客的用意,及時(shí)揪出惡意用戶。
常用網(wǎng)站日志分析軟件有哪些?
筆者試用過很多網(wǎng)站日志分析工具,常用的并且功能又比較全面的大概有三款:光年SEO日志分析系統(tǒng)、逆火網(wǎng)站日志分析器、Web Log Explorer。
對(duì)于這三款軟件的具體使用評(píng)價(jià)總結(jié),請(qǐng)看我寫的另外一篇文章《常用網(wǎng)站日志分析軟件使用總結(jié)》。
附:網(wǎng)站日志代碼大全
1xx-信息提示
這些狀態(tài)代碼表示臨時(shí)的響應(yīng)。客戶端在收到常規(guī)響應(yīng)之前,應(yīng)準(zhǔn)備接收一個(gè)或多個(gè)1xx響應(yīng)。
100-繼續(xù)。
101-切換協(xié)議。
2xx-成功
這類狀態(tài)代碼表明服務(wù)器成功地接受了客戶端請(qǐng)求。
200-確定。客戶端請(qǐng)求已成功。
201-已創(chuàng)建。
202-已接受。
203-非權(quán)威性信息。
204-無內(nèi)容。
205-重置內(nèi)容。
206-部分內(nèi)容。
3xx-重定向
客戶端瀏覽器必須采取更多操作來實(shí)現(xiàn)請(qǐng)求。例如,瀏覽器可能不得不請(qǐng)求服務(wù)器上的不同的頁面,或通過代理服務(wù)器重復(fù)該請(qǐng)求。
301-對(duì)象已永久移走,即永久重定向。
302-對(duì)象已臨時(shí)移動(dòng)。
304-未修改。
307-臨時(shí)重定向。
4xx-客戶端錯(cuò)誤
發(fā)生錯(cuò)誤,客戶端似乎有問題。例如,客戶端請(qǐng)求不存在的頁面,客戶端未提供有效的身份驗(yàn)證信息。400-錯(cuò)誤的請(qǐng)求。
401-訪問被拒絕。IIS定義了許多不同的401錯(cuò)誤,它們指明更為具體的錯(cuò)誤原因。這些具體的錯(cuò)誤代碼在瀏覽器中顯示,但不在IIS日志中顯示:
401.1-登錄失敗。
401.2-服務(wù)器配置導(dǎo)致登錄失敗。
401.3-由于ACL對(duì)資源的限制而未獲得授權(quán)。
401.4-篩選器授權(quán)失敗。
401.5-ISAPI/CGI應(yīng)用程序授權(quán)失敗。
401.7–訪問被Web服務(wù)器上的URL授權(quán)策略拒絕。這個(gè)錯(cuò)誤代碼為IIS6.0所專用。
403-禁止訪問:IIS定義了許多不同的403錯(cuò)誤,它們指明更為具體的錯(cuò)誤原因:
403.1-執(zhí)行訪問被禁止。
403.2-讀訪問被禁止。
403.3-寫訪問被禁止。
403.4-要求SSL。
403.5-要求SSL128。
403.6-IP地址被拒絕。
403.7-要求客戶端證書。
403.8-站點(diǎn)訪問被拒絕。
403.9-用戶數(shù)過多。
403.10-配置無效。
403.11-密碼更改。
403.12-拒絕訪問映射表。
403.13-客戶端證書被吊銷。
403.14-拒絕目錄列表。
403.15-超出客戶端訪問許可。
403.16-客戶端證書不受信任或無效。
403.17-客戶端證書已過期或尚未生效。
403.18-在當(dāng)前的應(yīng)用程序池中不能執(zhí)行所請(qǐng)求的URL。這個(gè)錯(cuò)誤代碼為IIS6.0所專用。
403.19-不能為這個(gè)應(yīng)用程序池中的客戶端執(zhí)行CGI。這個(gè)錯(cuò)誤代碼為IIS6.0所專用。
403.20-Passport登錄失敗。這個(gè)錯(cuò)誤代碼為IIS6.0所專用。
404-未找到。
404.0-(無)–沒有找到文件或目錄。
404.1-無法在所請(qǐng)求的端口上訪問Web站點(diǎn)。
404.2-Web服務(wù)擴(kuò)展鎖定策略阻止本請(qǐng)求。
404.3-MIME映射策略阻止本請(qǐng)求。
405-用來訪問本頁面的HTTP謂詞不被允許(方法不被允許)
406-客戶端瀏覽器不接受所請(qǐng)求頁面的MIME類型。
407-要求進(jìn)行代理身份驗(yàn)證。
412-前提條件失敗。
413–請(qǐng)求實(shí)體太大。
414-請(qǐng)求URI太長(zhǎng)。
415–不支持的媒體類型。
416–所請(qǐng)求的范圍無法滿足。
417–執(zhí)行失敗。
423–鎖定的錯(cuò)誤。
5xx-服務(wù)器錯(cuò)誤
服務(wù)器由于遇到錯(cuò)誤而不能完成該請(qǐng)求。
500-內(nèi)部服務(wù)器錯(cuò)誤。
500.12-應(yīng)用程序正忙于在Web服務(wù)器上重新啟動(dòng)。
500.13-Web服務(wù)器太忙。
500.15-不允許直接請(qǐng)求Global.asa。
500.16–UNC授權(quán)憑據(jù)不正確。這個(gè)錯(cuò)誤代碼為IIS6.0所專用。
500.18–URL授權(quán)存儲(chǔ)不能打開。這個(gè)錯(cuò)誤代碼為IIS6.0所專用。
500.100-內(nèi)部ASP錯(cuò)誤。
501-頁眉值指定了未實(shí)現(xiàn)的配置。
502-Web服務(wù)器用作網(wǎng)關(guān)或代理服務(wù)器時(shí)收到了無效響應(yīng)。
502.1-CGI應(yīng)用程序超時(shí)。
502.2-CGI應(yīng)用程序出錯(cuò)。application.
503-服務(wù)不可用。這個(gè)錯(cuò)誤代碼為IIS6.0所專用。
504-網(wǎng)關(guān)超時(shí)。
505-HTTP版本不受支持。
分享轉(zhuǎn)載請(qǐng)注明:"本文轉(zhuǎn)載于「為愛拼」,原文地址:http://www.weiaipin.cn/blog/article/31.html"