Python 簡(jiǎn)單關(guān)鍵字爬取公眾號(hào)文章

序

原文地址：Python 簡(jiǎn)單關(guān)鍵字爬取公眾號(hào)文章
爬取目標(biāo)：微信公眾號(hào)“縱夢(mèng)廣科”中“表白墻”（可選“吐槽墻”）的文章
爬取字段：表白對(duì)象、表白內(nèi)容
爬取緣由：分析“表白墻”上的同學(xué)什么說(shuō)得多的詞
爬取工具：matplotlib、wordcloud、jieba
爬取結(jié)果: “表白墻”文章160篇
爬取收獲：簡(jiǎn)單爬取公眾號(hào)文章、簡(jiǎn)單生成詞云
爬取注意：

因?yàn)榕廊?nèi)容可以簡(jiǎn)潔地直接保存txt文本進(jìn)行繪畫詞云分析，所有并沒(méi)有存入數(shù)據(jù)庫(kù)
本項(xiàng)目代碼不具有可復(fù)用性，無(wú)論是登錄的cookie還是文章的頁(yè)數(shù)都需要重新手動(dòng)獲取輸入
代碼中cookie的值太長(zhǎng)了，都在一行不方便閱讀，于是做了分行，可以根據(jù)個(gè)人喜好選擇
本代碼通用于爬取公眾號(hào)文章的標(biāo)題和url，如需要爬取文章內(nèi)容則需要手動(dòng)更改爬取規(guī)則
token的值是爬取的公眾號(hào)的標(biāo)識(shí)符，如果更換公眾號(hào)就需要更改該值
本項(xiàng)目代碼因?yàn)椤氨戆讐Α迸c“吐槽墻”網(wǎng)頁(yè)結(jié)構(gòu)相同，因此可以自行選擇輸入“表白墻”或“吐槽墻”進(jìn)行爬取
詞云圖在本文檔后面
獲取cookie等操作步驟在本文最后

ps:
在參考文章中的例子是直接搜索公眾號(hào)全部?jī)?nèi)容文章的，我測(cè)試過(guò)這樣爬取全部的話只能爬幾頁(yè)就被提示”操作太頻繁“而無(wú)法爬取，但換成關(guān)鍵字"query"搜索的話沒(méi)有出現(xiàn)問(wèn)題，目前本代碼爬取”表白墻“32頁(yè)并沒(méi)有本禁止。本來(lái)還嘗試如何避免封裝爬取全部文章但沒(méi)有成功，但如果關(guān)鍵字是空白符或者其他標(biāo)點(diǎn)符號(hào)的話也能獲取大部分文章

代碼

# -*- coding: utf-8 -*-
import requests
from PIL import Image
from lxml import etree
import time
import random
import matplotlib.pyplot as plt
import numpy as np
from wordcloud import WordCloud
import jieba


# 使用Cookie，跳過(guò)登陸操作
headers = {
    "Cookie": "noticeLoginFlag=1; remember_acct=820605644%40qq.com; "
              "ua_id=F89e6CvMPIib8tkPAAAAAE8A9_O5KrS5oMM390XQRHI=; mm_lang=zh_CN; pgv_pvi=1996118016; "
              "noticeLoginFlag=1; remember_acct=820605644%40qq.com; pgv_si=s2063726592; ticket_id=gh_86437b3d3630; "
              "cert=3RRm40LWsECquCbg_jx5lQTMXRR4M0tN; rewardsn=; wxtokenkey=777; "
              "uuid=652947b257247d453cd64dc13a5daf0b; ticket=d19dbee738a3be7f0806c8a5f726b8d8cac125f6; "
              "data_bizuin=3555601673; bizuin=3551846274; "
              "data_ticket=eeN9lRUD61DWiiLZEJyFKGoi70SoJ2dB1BoNi4PnSvNaf6R3jA83ZYyEI1y3LaOU; "
              "slave_sid"
              "=elBZTHhvYlc0VmNnYTM0SnZ6Wl9DaGZTNWh0M0VZVHlxUDBfWHNUW"
              "jFVbEpOcFpmWEpuNUFXTEdGRWI5a3p6OGhrUWYweExnNjN2d0xMUWEwTVlLVWxIWk9mXzhzbkYxWndCQUVYTm"
              "l1UnVxYlNWbmR3Q09VT2pMbEFMZDNhOFhXTnRnMlpDbDhvYzZWN2hQ;"
              " slave_user=gh_86437b3d3630; xid=a5467f49610c64af7a7022c6a4596f40; "
              "openid2ticket_oCS3u05exHidsZqiS_3Q8Yn-YtYI=JjxfUwXvqw0VBHJhW5TvmrOn8W5QMp/ReaanapVptWI=",
    "User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) "
                  "Chrome/65.0.3325.162 Safari/537.36",
}


# 詞云
def get_word(f):
    """
    創(chuàng)建詞云圖片，默認(rèn)樣式
    :param f:
    :return:
    """
    text_from_file_with_apath = open(f, 'rb').read().decode('utf-8')
    wordlist_after_jieba = jieba.cut(text_from_file_with_apath, cut_all=True)
    print(wordlist_after_jieba)
    wl_space_split = " ".join(wordlist_after_jieba)
    alice_mask = np.array(Image.open("girl.jpg"))  # 以數(shù)組的形式加載圖畫
    my_wordcloud = WordCloud(font_path="simhei.ttf",  # 設(shè)置字體
                             background_color="white",  # 背景顏色
                             max_words=2000,  # 詞云顯示的最大詞數(shù)
                             mask=alice_mask,  # 設(shè)置背景圖片
                             max_font_size=100,  # 字體最大值
                             random_state=42,
                             margin=2,  # 設(shè)置圖片默認(rèn)的大小,但是如果使用背景圖片的話,那么保存的圖片大小將會(huì)按照其大小保存,margin為詞語(yǔ)邊緣距離
                             ).generate(wl_space_split)
    plt.imshow(my_wordcloud)
    plt.axis("off")
    plt.show()

def get_info(url):
    """
    獲取文章中的吐槽對(duì)象和吐槽內(nèi)容
    :param url:
    :return:
    """
    res = requests.get(url, headers=headers)
    selector = etree.HTML(res.text)
    names = selector.xpath('// *[ @ id = "js_content"] // section / section[2] / section / span / span / text()')
    contents = selector.xpath('// *[ @ id = "js_content"] // section / section[2] / section / text()')
    with open('name.txt', 'ab+') as f:
        for s in names:
            f.write(s.strip().encode('utf-8'))

    with open('content.txt', 'ab+') as f:
        for s in contents:
            f.write(s.strip().encode('utf-8'))
    return 'content.txt', 'name.txt'


def get_list(url, input_name, post_num):
    """
    獲取每頁(yè)搜索結(jié)果的json中文章的標(biāo)題和url
    :param url:
    :return:
    """
    for num in range(post_num):
        data = {
            "token": 1111467131,
            "lang": "zh_CN",
            "f": "json",
            "ajax": "1",
            "action": "list_ex",
            "begin": num * 5,
            "random": 0.040206335386987035,
            "count": "5",
            "query": input_name,
            "fakeid": "MzAwMzExNTQyNQ==",
            "type": "9",
        }
        # 使用get方法進(jìn)行提交
        content_json = requests.get(url, headers=headers, params=data).json()
        # 返回了一個(gè)json，里面是每一頁(yè)的數(shù)據(jù)
        for item in content_json["app_msg_list"]:
            # 提取每頁(yè)文章的標(biāo)題及對(duì)應(yīng)的url
            print(item["title"], "url:", item["link"])
            f1, f2 = get_info(item["link"])
        time.sleep(random.randint(0, 30))
    return f1, f2


# 目標(biāo)url
if __name__ == "__main__":
    input_name = "表白墻"  # 表白墻或吐槽墻任選其一
    url = "https://mp.weixin.qq.com/cgi-bin/appmsg"
    f1, f2 = get_list(url, input_name, post_num=32)
    get_word(f1)  # 創(chuàng)建詞云
    get_word(f2)

圖片

公眾號(hào)截圖：

image

表白內(nèi)容詞云：

image

表白對(duì)象詞云：

image

操作步驟

1、擁有一個(gè)微信個(gè)人訂閱號(hào)，附上登陸和注冊(cè)鏈接。微信公眾平臺(tái)

2、好在之前無(wú)聊注冊(cè)過(guò)一次，所以就可以直接登陸操作。沒(méi)有注冊(cè)的童鞋可以用自己的微信號(hào)注冊(cè)一下，過(guò)程十分簡(jiǎn)單，在此就不贅述了

3、登陸之后，點(diǎn)擊左側(cè)菜單欄“管理”-“素材管理”。再點(diǎn)擊右邊的“新建圖文素材”

image

?彈出一個(gè)新的標(biāo)簽頁(yè)，在上面的工具欄找到“超鏈接”并點(diǎn)擊

image

彈出了一個(gè)小窗口，選擇“查找文章”，輸入需要查找的公眾號(hào)

image

點(diǎn)擊之后，可以彈出該公眾號(hào)的所有歷史文章

image

關(guān)鍵字搜索、頁(yè)數(shù)

image

查看cookie

fd998b0390a9f895d607475aa8478ea.png

查看token

4ab514c9ff2ed0a955f299aee5c29f5.png

本文部分參考該博友的文章：https://blog.csdn.net/wnma3mz/article/details/78570580

最后編輯于：2018.07.23 17:53:16

?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請(qǐng)聯(lián)系作者
平臺(tái)聲明：文章內(nèi)容（如有圖片或視頻亦包括在內(nèi)）由作者上傳并發(fā)布，文章內(nèi)容僅代表作者本人觀點(diǎn)，簡(jiǎn)書系信息發(fā)布平臺(tái)，僅提供信息存儲(chǔ)服務(wù)。

人面猴
序言：七十年代末，一起剝皮案震驚了整個(gè)濱河市，隨后出現(xiàn)的幾起案子，更是在濱河造成了極大的恐慌，老刑警劉巖，帶你破解...
沈念sama閱讀 230,182評(píng)論 6贊 543
死咒
序言：濱河連續(xù)發(fā)生了三起死亡事件，死亡現(xiàn)場(chǎng)離奇詭異，居然都是意外死亡，警方通過(guò)查閱死者的電腦和手機(jī)，發(fā)現(xiàn)死者居然都...
沈念sama閱讀 99,489評(píng)論 3贊 429
救了他兩次的神仙讓他今天三更去死
文/潘曉璐我一進(jìn)店門，熙熙樓的掌柜王于貴愁眉苦臉地迎上來(lái)，“玉大人，你說(shuō)我怎么就攤上這事。” “怎么了？”我有些...
開(kāi)封第一講書人閱讀 178,290評(píng)論 0贊 383
道士緝兇錄：失蹤的賣姜人
文/不壞的土叔我叫張陵，是天一觀的道長(zhǎng)。經(jīng)常有香客問(wèn)我，道長(zhǎng)，這世上最難降的妖魔是什么？我笑而不...
開(kāi)封第一講書人閱讀 63,776評(píng)論 1贊 317
?港島之戀（遺憾婚禮）
正文為了忘掉前任，我火速辦了婚禮，結(jié)果婚禮上，老公的妹妹穿的比我還像新娘。我一直安慰自己，他們只是感情好，可當(dāng)我...
茶點(diǎn)故事閱讀 72,510評(píng)論 6贊 412
惡毒庶女頂嫁案：這布局不是一般人想出來(lái)的
文/花漫我一把揭開(kāi)白布。她就那樣靜靜地躺著，像睡著了一般。火紅的嫁衣襯著肌膚如雪。梳的紋絲不亂的頭發(fā)上，一...
開(kāi)封第一講書人閱讀 55,866評(píng)論 1贊 328
城市分裂傳說(shuō)
那天，我揣著相機(jī)與錄音，去河邊找鬼。笑死，一個(gè)胖子當(dāng)著我的面吹牛，可吹牛的內(nèi)容都是我干的。我是一名探鬼主播，決...
沈念sama閱讀 43,860評(píng)論 3贊 447
雙鴛鴦連環(huán)套：你想象不到人心有多黑
文/蒼蘭香墨我猛地睜開(kāi)眼，長(zhǎng)吁一口氣：“原來(lái)是場(chǎng)噩夢(mèng)啊……” “哼！你這毒婦竟也來(lái)了？” 一聲冷哼從身側(cè)響起，我...
開(kāi)封第一講書人閱讀 43,036評(píng)論 0贊 290
萬(wàn)榮殺人案實(shí)錄
序言：老撾萬(wàn)榮一對(duì)情侶失蹤，失蹤者是張志新（化名）和其女友劉穎，沒(méi)想到半個(gè)月后，有當(dāng)?shù)厝嗽跇?shù)林里發(fā)現(xiàn)了一具尸體，經(jīng)...
沈念sama閱讀 49,585評(píng)論 1贊 336
?護(hù)林員之死
正文獨(dú)居荒郊野嶺守林人離奇死亡，尸身上長(zhǎng)有42處帶血的膿包…… 初始之章·張勛以下內(nèi)容為張勛視角年9月15日...
茶點(diǎn)故事閱讀 41,331評(píng)論 3贊 358
?白月光啟示錄
正文我和宋清朗相戀三年，在試婚紗的時(shí)候發(fā)現(xiàn)自己被綠了。大學(xué)時(shí)的朋友給我發(fā)了我未婚夫和他白月光在一起吃飯的照片。...
茶點(diǎn)故事閱讀 43,536評(píng)論 1贊 374
活死人
序言：一個(gè)原本活蹦亂跳的男人離奇死亡，死狀恐怖，靈堂內(nèi)的尸體忽然破棺而出，到底是詐尸還是另有隱情，我是刑警寧澤，帶...
沈念sama閱讀 39,058評(píng)論 5贊 363
?日本核電站爆炸內(nèi)幕
正文年R本政府宣布，位于F島的核電站，受9級(jí)特大地震影響，放射性物質(zhì)發(fā)生泄漏。R本人自食惡果不足惜，卻給世界環(huán)境...
茶點(diǎn)故事閱讀 44,754評(píng)論 3贊 349
男人毒藥：我在死后第九天來(lái)索命
文/蒙蒙一、第九天我趴在偏房一處隱蔽的房頂上張望。院中可真熱鬧，春花似錦、人聲如沸。這莊子的主人今日做“春日...
開(kāi)封第一講書人閱讀 35,154評(píng)論 0贊 28
一樁弒父案，背后竟有這般陰謀
文/蒼蘭香墨我抬頭看了看天上的太陽(yáng)。三九已至，卻和暖如春，著一層夾襖步出監(jiān)牢的瞬間，已是汗流浹背。一陣腳步聲響...
開(kāi)封第一講書人閱讀 36,469評(píng)論 1贊 295
情欲美人皮
我被黑心中介騙來(lái)泰國(guó)打工，沒(méi)想到剛下飛機(jī)就差點(diǎn)兒被人妖公主榨干…… 1. 我叫王不留，地道東北人。一個(gè)月前我還...
沈念sama閱讀 52,273評(píng)論 3贊 399
代替公主和親
正文我出身青樓，卻偏偏與公主長(zhǎng)得像，于是被迫代替她去往敵國(guó)和親。傳聞我的和親對(duì)象是個(gè)殘疾皇子，可洞房花燭夜當(dāng)晚...
茶點(diǎn)故事閱讀 48,505評(píng)論 2贊 379

三个男躁一个女,国精产品一区一手机的秘密,麦子交换系列最经典十句话,欧美国产综合欧美视频

Python 簡(jiǎn)單關(guān)鍵字爬取公眾號(hào)文章

Python 簡(jiǎn)單關(guān)鍵字爬取公眾號(hào)文章

序

代碼

圖片

操作步驟

查看cookie

查看token

推薦閱讀更多精彩內(nèi)容

三个男躁一个女,国精产品一区一手机的秘密,麦子交换系列最经典十句话,欧美 国产 综合 欧美 视频

Python 簡(jiǎn)單關(guān)鍵字爬取公眾號(hào)文章

序

代碼

圖片

操作步驟

查看cookie

查看token

推薦閱讀更多精彩內(nèi)容

三个男躁一个女,国精产品一区一手机的秘密,麦子交换系列最经典十句话,欧美国产综合欧美视频