摘要
百度站長統計,一個不錯的工具。各種信息也能超級詳細的被記錄下來,可以從下圖上略知一二。但是實際上其詳細程度遠遠不止如此。百度統計支持一級域名,以及二級域名的綁定。所以很方便。
但也不是對于所有的服務器都支持,比如我沒有給服務器綁定域名,所以自然就沒法用了。但是如果我還想獲得一些訪客的信息,怎么辦呢?
拿我自己來說,使用PHP就不賴。當然了,其他的編程語言也是可以的。不過需要具體情況具體分析嘛。我的需求很簡單,那就是記錄一下訪客是使用哪個操作系統,使用的哪個瀏覽器,在什么時間訪問了我的哪些文件。
嗯,需求就是這樣了。
header
header就相當于一個身份的標識。我們要查看的話也很簡單,最簡單的方式就是打開瀏覽器,按下F12。調出開發者工具。就可以看到了。
查看header
模擬header
寫過Python爬蟲程序的可能都會很熟悉啦。而且Python代碼足夠簡潔,幾行代碼就可以完成一個簡單的爬蟲程序了。但是有很多網站會對爬蟲程序進行“特殊照顧”,其中有一個就是針對header的處理。
因此,簡單的代碼是不能夠保證一定可以獲取的到服務器上相關的資源的。這個時候就需要讓代碼“偽裝”一下了。做法呢也比較的簡單,那就是手動的添加一個頭信息。
比如下面的代碼
#coding:utf8
import urllib2
import sys
headers = {
'Referer':'http://zhjw.dlut.edu.cn/',
'User-Agent':'Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/50.0.2661.94 Safari/537.36'
}
req = urllib2.Request(url=sys.argv[1], headers=headers)
print urllib2.urlopen(req).read()
這就是一個最簡單的模擬瀏覽器的“偽裝”爬蟲程序了。作用就是:
簡單的將URL對應的資源下載下來,并標準顯示(比如屏幕)。
大部分人(尤其是非專業的)可能不知道,點擊了瀏覽器上一個超鏈接,或者填寫了一個表單背后發生的故事。其實在這些簡單操作的背后蘊含著復雜的智慧。其中就包含header 在http協議中不可取代的地位。
個人覺得稱之為人類智慧的結晶也不為過。計算機本身的發展,離不開各行各業的共同進步。
php中的使用
剛才的話題有點跑偏了,現在繼續討論在PHP中對于Header的獲取吧。我們最需要的就是通過PHP內置的一些超級變量$_SERVER
來獲取header中的用戶代理信息。
'User-Agent':'Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/50.0.2661.94 Safari/537.36'
別看這個值很隨意,其實它卻包含了作為客戶端的你的很多信息。在PHP中使用下面的代碼就可以獲取得到了。
<?php
echo $_SERVER['HTTP_USER_AGENT'];
echo "<br />".$_SERVER ['REMOTE_ADDR'];
?>
運行結果:
IP接口
接口介紹
了解了如何獲取客戶端的簡單的這些信息之后,基本上就可以滿足正常的需求了。但是為了更進一步,獲得用戶的大致的位置,這里還是需要借助于接口(網上有很多免費的接口,可以方便的獲取關于IP的詳細的信息)。這里我暫且使用下面的這個接口吧。
通過一個get請求就可以獲取得到IP對應的信息啦。返回的數據時JSON類型的,大致如下:
PHP訪問接口并解析
在PHP中有好多的方法來訪問一個接口。我這里大致的介紹兩個吧,一個簡單,一個略微復雜一點。
簡易方式
不知道您有沒有聽說過這樣的一個函數
string file_get_contents(url)
給個網址,僅僅需要這樣一個函數就可以獲取到數據了。而且是以字符串的形式進行返回。
略繁方式
下面講一個在PHP中進行接口測試的最為常用,也比較正統一點的curl。看個小例子就明白了。
/**
* 根據 客戶端IP 獲取到其具體的位置信息
* @param unknown $ip
* @return string
*/
function get_address_by_ip($ip) {
$url = "http://ip.taobao.com/service/getIpInfo.php?ip=".$ip;
$curl = curl_init();
curl_setopt($curl, CURLOPT_URL, $url);
curl_setopt($curl, CURLOPT_HEADER, 0);
curl_setopt($curl, CURLOPT_RETURNTRANSFER, 1);
$info = curl_exec($curl);
curl_close($curl);
return $info;
}
是不是賊簡單。
解析JSON數據
既然已經獲取到數據了,下一步就自然的是對獲取到的數據進行解析。
還是看個小例子,就明白了。
$json_get = get_address_by_ip("一個公網IP");
$data = json_decode($json_get, true);
需要注意的是json_decode函數的第二個參數設置為true,這是為了讓php解釋器根據獲取到的字符串類型的數據解碼為JSON對象。這樣我們才能在代碼中直接使用這個對象來做進一步的操作。
具體的獲取JSON內部的數據就簡單多了,說到這里,大家應該都懂了。也就不多說了吧。
記錄器
萬事俱備,下面就開始著手編碼吧。
操作系統信息
下面通過PHP中的正則表達式做了簡單的處理,雖然不能包含市面上所有的操作系統,但是大部分已經是足夠啦。
/**
* 獲取客戶端類型,手機還是電腦,以及相應的操作系統類型。
*
* @param string $subject
*/
function get_os($agent) {
$os = false;
if (preg_match ( '/win/i', $agent ) && strpos ( $agent, '95' )) {
$os = 'Windows 95';
} else if (preg_match ( '/win 9x/i', $agent ) && strpos ( $agent, '4.90' )) {
$os = 'Windows ME';
} else if (preg_match ( '/win/i', $agent ) && preg_match ( '/98/i', $agent )) {
$os = 'Windows 98';
} else if (preg_match ( '/win/i', $agent ) && preg_match ( '/nt 6.0/i', $agent )) {
$os = 'Windows Vista';
} else if (preg_match ( '/win/i', $agent ) && preg_match ( '/nt 6.1/i', $agent )) {
$os = 'Windows 7';
} else if (preg_match ( '/win/i', $agent ) && preg_match ( '/nt 6.2/i', $agent )) {
$os = 'Windows 8';
} else if (preg_match ( '/win/i', $agent ) && preg_match ( '/nt 10.0/i', $agent )) {
$os = 'Windows 10'; // 添加win10判斷
} else if (preg_match ( '/win/i', $agent ) && preg_match ( '/nt 5.1/i', $agent )) {
$os = 'Windows XP';
} else if (preg_match ( '/win/i', $agent ) && preg_match ( '/nt 5/i', $agent )) {
$os = 'Windows 2000';
} else if (preg_match ( '/win/i', $agent ) && preg_match ( '/nt/i', $agent )) {
$os = 'Windows NT';
} else if (preg_match ( '/win/i', $agent ) && preg_match ( '/32/i', $agent )) {
$os = 'Windows 32';
} else if (preg_match ( '/linux/i', $agent )) {
if(preg_match("/Mobile/", $agent)){
if(preg_match("/QQ/i", $agent)){
$os = "Android QQ Browser";
}else{
$os = "Android Browser";
}
}else{
$os = 'PC-Linux';
}
} else if (preg_match ( '/Mac/i', $agent )) {
if(preg_match("/Mobile/", $agent)){
if(preg_match("/QQ/i", $agent)){
$os = "IPhone QQ Browser";
}else{
$os = "IPhone Browser";
}
}else{
$os = 'Mac OS X';
}
} else if (preg_match ( '/unix/i', $agent )) {
$os = 'Unix';
} else if (preg_match ( '/sun/i', $agent ) && preg_match ( '/os/i', $agent )) {
$os = 'SunOS';
} else if (preg_match ( '/ibm/i', $agent ) && preg_match ( '/os/i', $agent )) {
$os = 'IBM OS/2';
} else if (preg_match ( '/Mac/i', $agent ) && preg_match ( '/PC/i', $agent )) {
$os = 'Macintosh';
} else if (preg_match ( '/PowerPC/i', $agent )) {
$os = 'PowerPC';
} else if (preg_match ( '/AIX/i', $agent )) {
$os = 'AIX';
} else if (preg_match ( '/HPUX/i', $agent )) {
$os = 'HPUX';
} else if (preg_match ( '/NetBSD/i', $agent )) {
$os = 'NetBSD';
} else if (preg_match ( '/BSD/i', $agent )) {
$os = 'BSD';
} else if (preg_match ( '/OSF1/i', $agent )) {
$os = 'OSF1';
} else if (preg_match ( '/IRIX/i', $agent )) {
$os = 'IRIX';
} else if (preg_match ( '/FreeBSD/i', $agent )) {
$os = 'FreeBSD';
} else if (preg_match ( '/teleport/i', $agent )) {
$os = 'teleport';
} else if (preg_match ( '/flashget/i', $agent )) {
$os = 'flashget';
} else if (preg_match ( '/webzip/i', $agent )) {
$os = 'webzip';
} else if (preg_match ( '/offline/i', $agent )) {
$os = 'offline';
} else {
$os = '未知操作系統';
}
return $os;
}
獲取瀏覽器信息
同理,下面打函數可以簡單的解析出訪客的瀏覽器相關的信息。
**
* 獲取 客戶端的瀏覽器類型
* @return string
*/
function get_broswer($sys){
if (stripos($sys, "Firefox/") > 0) {
preg_match("/Firefox\/([^;)]+)+/i", $sys, $b);
$exp[0] = "Firefox";
$exp[1] = $b[1]; //獲取火狐瀏覽器的版本號
} elseif (stripos($sys, "Maxthon") > 0) {
preg_match("/Maxthon\/([\d\.]+)/", $sys, $aoyou);
$exp[0] = "傲游";
$exp[1] = $aoyou[1];
} elseif (stripos($sys, "MSIE") > 0) {
preg_match("/MSIE\s+([^;)]+)+/i", $sys, $ie);
$exp[0] = "IE";
$exp[1] = $ie[1]; //獲取IE的版本號
} elseif (stripos($sys, "OPR") > 0) {
preg_match("/OPR\/([\d\.]+)/", $sys, $opera);
$exp[0] = "Opera";
$exp[1] = $opera[1];
} elseif(stripos($sys, "Edge") > 0) {
//win10 Edge瀏覽器 添加了chrome內核標記 在判斷Chrome之前匹配
preg_match("/Edge\/([\d\.]+)/", $sys, $Edge);
$exp[0] = "Edge";
$exp[1] = $Edge[1];
} elseif (stripos($sys, "Chrome") > 0) {
preg_match("/Chrome\/([\d\.]+)/", $sys, $google);
$exp[0] = "Chrome";
$exp[1] = $google[1]; //獲取google chrome的版本號
} elseif(stripos($sys,'rv:')>0 && stripos($sys,'Gecko')>0){
preg_match("/rv:([\d\.]+)/", $sys, $IE);
$exp[0] = "IE";
$exp[1] = $IE[1];
}else {
$exp[0] = "未知瀏覽器";
$exp[1] = "";
}
return $exp[0].'('.$exp[1].')';
}
核心
最后就是將獲取到的這些信息進行二次處理,該用于查找地理位置的就去查找地理位置,該被記錄到文件中的就記錄到文件中。
<?php
function clientlog() {
require_once './getclientinfo.php';
$useragent = $_SERVER ['HTTP_USER_AGENT'];
$clientip = $_SERVER ['REMOTE_ADDR'];
$client_info = get_os ( $useragent ) . "---" . get_broswer ( $useragent );
$rawdata_position = get_address_by_ip ( $clientip );
$rawdata_position = json_decode($rawdata_position, true);
$country = $rawdata_position['data']['country'];
$province = $rawdata_position['data']['region'];
$city = $rawdata_position['data']['city'];
$nettype = $rawdata_position['data']['isp'];
$time = date ( 'y-m-d h:m:s' );
$data = "來自{$country} {$province} {$city }{$nettype} 的客戶端: {$client_info},IP為:{$clientip},在{$time}時刻訪問了{$_SERVER['PHP_SELF']}文件!\n";
echo $data;
// $filename = "./log.log";
// // if (! file_exists ( $filename )) {
// // fopen ( $filename, "w+" );
// // }
// file_put_contents ( $filename, $data, FILE_APPEND );
}
clientlog();
這里僅僅是演示一下,實際上需要完善一下。
如果有需要的話,可以在下面評論中留下郵箱,或者私信我來獲取源碼。
最終效果
最后,來看一下部署到服務器上的實驗效果吧。
可能有些IP地址對于這個接口并不適用,所以未能正確的解析出來。不過大部分的還是可以滴。
總結
對比與百度的站長統計,我覺得他們做的無非是更加的詳細了。而且作為國內搜索中做的最大的,其用戶群體也是一個不小的數字。所以不知不覺的我們很多信息都會被記錄走了。所以他們可以做的很詳細,甚至精確到了性別,年齡。
凡事也都是立于乎微,也許在不知不覺中,日志信息會幫到你一個大忙。
( ⊙ o ⊙ )啊!不知道為啥今天這篇博客亂糟糟的,自己看著都藍瘦。不出意外的話,應該是2016年最后一篇博客了。這樣草率的收尾真的是有點難為情呢。
算了,就這樣吧,不改了。也許,正好有人喜歡這種“亂式佳人”呢,(__) 嘻嘻……