序
原文地址:Python 簡(jiǎn)單關(guān)鍵字爬取公眾號(hào)文章
爬取目標(biāo):微信公眾號(hào)“縱夢(mèng)廣科”中“表白墻”(可選“吐槽墻”)的文章
爬取字段:表白對(duì)象、表白內(nèi)容
爬取緣由:分析“表白墻”上的同學(xué)什么說(shuō)得多的詞
爬取工具:matplotlib、wordcloud、jieba
爬取結(jié)果: “表白墻”文章160篇
爬取收獲:簡(jiǎn)單爬取公眾號(hào)文章、簡(jiǎn)單生成詞云
爬取注意:
- 因?yàn)榕廊?nèi)容可以簡(jiǎn)潔地直接保存txt文本進(jìn)行繪畫詞云分析,所有并沒(méi)有存入數(shù)據(jù)庫(kù)
- 本項(xiàng)目代碼不具有可復(fù)用性,無(wú)論是登錄的cookie還是文章的頁(yè)數(shù)都需要重新手動(dòng)獲取輸入
- 代碼中cookie的值太長(zhǎng)了,都在一行不方便閱讀,于是做了分行,可以根據(jù)個(gè)人喜好選擇
- 本代碼通用于爬取公眾號(hào)文章的標(biāo)題和url,如需要爬取文章內(nèi)容則需要手動(dòng)更改爬取規(guī)則
- token的值是爬取的公眾號(hào)的標(biāo)識(shí)符,如果更換公眾號(hào)就需要更改該值
- 本項(xiàng)目代碼因?yàn)椤氨戆讐Α迸c“吐槽墻”網(wǎng)頁(yè)結(jié)構(gòu)相同,因此可以自行選擇輸入“表白墻”或“吐槽墻”進(jìn)行爬取
- 詞云圖在本文檔后面
- 獲取cookie等操作步驟在本文最后
ps:
在參考文章中的例子是直接搜索公眾號(hào)全部?jī)?nèi)容文章的,我測(cè)試過(guò)這樣爬取全部的話只能爬幾頁(yè)就被提示”操作太頻繁“而無(wú)法爬取,但換成關(guān)鍵字"query"搜索的話沒(méi)有出現(xiàn)問(wèn)題,目前本代碼爬取”表白墻“32頁(yè)并沒(méi)有本禁止。本來(lái)還嘗試如何避免封裝爬取全部文章但沒(méi)有成功,但如果關(guān)鍵字是空白符或者其他標(biāo)點(diǎn)符號(hào)的話也能獲取大部分文章
代碼
# -*- coding: utf-8 -*-
import requests
from PIL import Image
from lxml import etree
import time
import random
import matplotlib.pyplot as plt
import numpy as np
from wordcloud import WordCloud
import jieba
# 使用Cookie,跳過(guò)登陸操作
headers = {
"Cookie": "noticeLoginFlag=1; remember_acct=820605644%40qq.com; "
"ua_id=F89e6CvMPIib8tkPAAAAAE8A9_O5KrS5oMM390XQRHI=; mm_lang=zh_CN; pgv_pvi=1996118016; "
"noticeLoginFlag=1; remember_acct=820605644%40qq.com; pgv_si=s2063726592; ticket_id=gh_86437b3d3630; "
"cert=3RRm40LWsECquCbg_jx5lQTMXRR4M0tN; rewardsn=; wxtokenkey=777; "
"uuid=652947b257247d453cd64dc13a5daf0b; ticket=d19dbee738a3be7f0806c8a5f726b8d8cac125f6; "
"data_bizuin=3555601673; bizuin=3551846274; "
"data_ticket=eeN9lRUD61DWiiLZEJyFKGoi70SoJ2dB1BoNi4PnSvNaf6R3jA83ZYyEI1y3LaOU; "
"slave_sid"
"=elBZTHhvYlc0VmNnYTM0SnZ6Wl9DaGZTNWh0M0VZVHlxUDBfWHNUW"
"jFVbEpOcFpmWEpuNUFXTEdGRWI5a3p6OGhrUWYweExnNjN2d0xMUWEwTVlLVWxIWk9mXzhzbkYxWndCQUVYTm"
"l1UnVxYlNWbmR3Q09VT2pMbEFMZDNhOFhXTnRnMlpDbDhvYzZWN2hQ;"
" slave_user=gh_86437b3d3630; xid=a5467f49610c64af7a7022c6a4596f40; "
"openid2ticket_oCS3u05exHidsZqiS_3Q8Yn-YtYI=JjxfUwXvqw0VBHJhW5TvmrOn8W5QMp/ReaanapVptWI=",
"User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) "
"Chrome/65.0.3325.162 Safari/537.36",
}
# 詞云
def get_word(f):
"""
創(chuàng)建詞云圖片,默認(rèn)樣式
:param f:
:return:
"""
text_from_file_with_apath = open(f, 'rb').read().decode('utf-8')
wordlist_after_jieba = jieba.cut(text_from_file_with_apath, cut_all=True)
print(wordlist_after_jieba)
wl_space_split = " ".join(wordlist_after_jieba)
alice_mask = np.array(Image.open("girl.jpg")) # 以數(shù)組的形式加載圖畫
my_wordcloud = WordCloud(font_path="simhei.ttf", # 設(shè)置字體
background_color="white", # 背景顏色
max_words=2000, # 詞云顯示的最大詞數(shù)
mask=alice_mask, # 設(shè)置背景圖片
max_font_size=100, # 字體最大值
random_state=42,
margin=2, # 設(shè)置圖片默認(rèn)的大小,但是如果使用背景圖片的話,那么保存的圖片大小將會(huì)按照其大小保存,margin為詞語(yǔ)邊緣距離
).generate(wl_space_split)
plt.imshow(my_wordcloud)
plt.axis("off")
plt.show()
def get_info(url):
"""
獲取文章中的吐槽對(duì)象和吐槽內(nèi)容
:param url:
:return:
"""
res = requests.get(url, headers=headers)
selector = etree.HTML(res.text)
names = selector.xpath('// *[ @ id = "js_content"] // section / section[2] / section / span / span / text()')
contents = selector.xpath('// *[ @ id = "js_content"] // section / section[2] / section / text()')
with open('name.txt', 'ab+') as f:
for s in names:
f.write(s.strip().encode('utf-8'))
with open('content.txt', 'ab+') as f:
for s in contents:
f.write(s.strip().encode('utf-8'))
return 'content.txt', 'name.txt'
def get_list(url, input_name, post_num):
"""
獲取每頁(yè)搜索結(jié)果的json中文章的標(biāo)題和url
:param url:
:return:
"""
for num in range(post_num):
data = {
"token": 1111467131,
"lang": "zh_CN",
"f": "json",
"ajax": "1",
"action": "list_ex",
"begin": num * 5,
"random": 0.040206335386987035,
"count": "5",
"query": input_name,
"fakeid": "MzAwMzExNTQyNQ==",
"type": "9",
}
# 使用get方法進(jìn)行提交
content_json = requests.get(url, headers=headers, params=data).json()
# 返回了一個(gè)json,里面是每一頁(yè)的數(shù)據(jù)
for item in content_json["app_msg_list"]:
# 提取每頁(yè)文章的標(biāo)題及對(duì)應(yīng)的url
print(item["title"], "url:", item["link"])
f1, f2 = get_info(item["link"])
time.sleep(random.randint(0, 30))
return f1, f2
# 目標(biāo)url
if __name__ == "__main__":
input_name = "表白墻" # 表白墻或吐槽墻任選其一
url = "https://mp.weixin.qq.com/cgi-bin/appmsg"
f1, f2 = get_list(url, input_name, post_num=32)
get_word(f1) # 創(chuàng)建詞云
get_word(f2)
圖片
公眾號(hào)截圖:
表白內(nèi)容詞云:
表白對(duì)象詞云:
操作步驟
1、擁有一個(gè)微信個(gè)人訂閱號(hào),附上登陸和注冊(cè)鏈接。微信公眾平臺(tái)
2、好在之前無(wú)聊注冊(cè)過(guò)一次,所以就可以直接登陸操作。沒(méi)有注冊(cè)的童鞋可以用自己的微信號(hào)注冊(cè)一下,過(guò)程十分簡(jiǎn)單,在此就不贅述了
3、登陸之后,點(diǎn)擊左側(cè)菜單欄“管理”-“素材管理”。再點(diǎn)擊右邊的“新建圖文素材”
?彈出一個(gè)新的標(biāo)簽頁(yè),在上面的工具欄找到“超鏈接”并點(diǎn)擊
彈出了一個(gè)小窗口,選擇“查找文章”,輸入需要查找的公眾號(hào)
點(diǎn)擊之后,可以彈出該公眾號(hào)的所有歷史文章
關(guān)鍵字搜索、頁(yè)數(shù)
查看cookie
查看token
本文部分參考該博友的文章:https://blog.csdn.net/wnma3mz/article/details/78570580