彈幕新玩法,熱門直播彈幕同時看,異步協(xié)程改寫開源彈幕爬蟲包的嘗試

效果圖
  • 上圖為1月22號晚上戰(zhàn)旗平臺熱門直播的彈幕消息截圖
    一行中為 直播房間標(biāo)題-[發(fā)彈幕者昵稱]--彈幕內(nèi)容
效果圖2

開源包

原理

  • 原理上,都是先從直播房間頁面或者相應(yīng)api接口獲取主播信息、彈幕服務(wù)器信息、彈幕認證服務(wù)器信息等,然后通過socket連接,維持心跳包并持續(xù)獲取彈幕數(shù)據(jù)。不過都是使用了多線程的方式。以littlecodersh的代碼為例,他的結(jié)構(gòu)大概是由使用者提供的直播頁url啟動一個彈幕消息處理線程(處理的是已經(jīng)解析完畢結(jié)構(gòu)化好的彈幕消息,實際是一個接口)和一個相應(yīng)平臺的客戶端線程,客戶端線程初始化一個socket并維護兩個子線程,這兩個子線程共用同一個socket分別發(fā)送心跳包和接收彈幕消息原始數(shù)據(jù),在接收消息的線程里同時完成彈幕消息的解析和結(jié)構(gòu)化,并放入隊列,提供給一開始的彈幕消息處理線程,讓其進一步對彈幕進行處理。但是多個房間的彈幕要開多個進程,也可以對源碼相應(yīng)修改,采取多開客戶端線程的方式,在同一個進程里進行處理。

應(yīng)用場景與異步修改嘗試

  • 考慮到應(yīng)用場景,目標(biāo)是要收集某直播平臺的熱門節(jié)目的優(yōu)質(zhì)片段,首先考慮優(yōu)質(zhì)片段如何判斷,直播彈幕量的突然上升(當(dāng)然也可能是主播在抽獎。。)在很大程度上是直播中特殊情況發(fā)生的信號,于是通過實時監(jiān)測彈幕信息發(fā)現(xiàn)彈幕變化節(jié)點就解決了優(yōu)質(zhì)片段的初步篩選工作,同時還可以根據(jù)彈幕消息處理出當(dāng)前觀眾熱詞,方便進一步加工。于是需要同時獲取某平臺上百臺直播節(jié)目,多平臺的話就要更多,使用python的話或許異步協(xié)程在這里更為適合。這里我將littlecodersh的線程代碼改寫為異步(感謝littlecodersh同學(xué)),使用一個eventloop控制器,管理所有的socket異步事件,每個socket對應(yīng)一個直播彈幕的獲取,代碼的結(jié)構(gòu)看上去感覺也更易理解一點。測試同時接收200臺時占用內(nèi)存約為30M(python解釋器占大概10M多點),流量約為400Kb/s。這里只是改寫了戰(zhàn)旗平臺的代碼做了一下嘗試,很多地方處理的也比較粗糙,可以改進的地方比較多,歡迎指點交流。
  • 首先從戰(zhàn)旗平臺直播列表頁面獲取當(dāng)前熱門直播,直接使用以下代碼爬取熱門列表到txt文件保存,這里只是爬了第一頁的。
import requests
from bs4 import BeautifulSoup
#
r = requests.get('https://www.zhanqi.tv/lives')
soup = BeautifulSoup(r.content, "lxml") # 可以不要lxml
urlist = [i.get('href') for i in soup.select("#hotList li a")]
with open('urlist3.txt', 'a') as f:
    for i in urlist:
        f.write(
            ''.join(['https://www.zhanqi.tv', i, '\n'])
        )
  • 然后使用以下代碼連接txt文件中的所有房間,python zhanqidanmu.py即可執(zhí)行。
    其中socket接收到了彈幕消息的原始數(shù)據(jù)后,需要對其進行較為耗時的數(shù)據(jù)解析工作,即msgHandleBlock方法,這里采取維護一個線程池(進程池也可,只需將Thread改為Process)的方法,將該耗時工作委托給另一個線程處理。對初步處理完成的數(shù)據(jù)這里只是簡單的打印到控制臺,可以稍作修改直接存入數(shù)據(jù)庫,也可留出接口。
# zhanqidanmu.py
import abc
import asyncio
import socket
import concurrent.futures

import sys
import json
import time
import re
import base64
from struct import pack
import requests

USER_AGENT = 'Mozilla/5.0 (Macintosh; Intel Mac OS X 10_11_6) AppleWebKit/537.36 \
(KHTML, like Gecko) Chrome/54.0.2840.71 Safari/537.36'


async def testMemory():
    # 測試內(nèi)存占用
    import os
    import psutil
    while True:
        process = psutil.Process(os.getpid())
        print(os.getpid(), '占用',
              str(process.memory_info().rss / 1024 / 1024))
        await asyncio.sleep(10)


class DanMuClientManager():

    def __init__(self, loop=None, executor=None):
        self.loop = loop or asyncio.get_event_loop()
        # 私有一個事件循環(huán)控制器
        self.executor = executor or concurrent.futures.ThreadPoolExecutor(
            max_workers=2,
        )
        # 私有一個處理cpu占用型任務(wù)的線程池
        self._urltextProcess()
        # 得到需要連接的直播房間列表

    def _urltextProcess(self):
        with open('urlist3.txt', 'r') as f:
            self.url = f.readlines()

    def start(self):

        clientList = [ZhanQiDanMuClient(url.strip(), self.loop, self.executor)
                      for url in self.url if url != '\n']
        # 由url列表實例化客戶端生成列表
        initTasks = []
        clients = []
        for c in clientList:
            try:
                danmuSocketInfo, roomInfo = c.prepare_env()
                # 完成準(zhǔn)備工作,生成彈幕服務(wù)器信息和房間信息
            except:
                print("某主播不在線-", c.url)
            else:
                clients.append(c)
                initTasks.append(c.init_socket(danmuSocketInfo, roomInfo))
                # 將所有的socket初始連接協(xié)程放入隊列
        self.loop.run_until_complete(asyncio.gather(*initTasks))
        # 等待連接完成
        print('連接彈幕服務(wù)器完成 *', len(initTasks))
        danmuTasks = [testMemory()]
        for c in clients:
            danmuTasks.extend([
                asyncio.ensure_future(c.heartCoro()),
                asyncio.ensure_future(c.danmuCoro()),
            ])
        # 生成所有的心跳協(xié)程和彈幕消息接收協(xié)程構(gòu)成的任務(wù)列表
        try:
            self.loop.run_until_complete(asyncio.gather(*danmuTasks))
            # 持續(xù)接收彈幕消息
        except KeyboardInterrupt:
            print('關(guān)閉')
        finally:
            # print(">> Cancelling tasks now")
            # for task in asyncio.Task.all_tasks():
            #     task.cancel()
            # self.loop.run_until_complete(asyncio.sleep(1))
            # print(">> Done cancelling tasks")
            self.loop.close()


class AbstractDanMuClient(metaclass=abc.ABCMeta):
    '''主要流程:
       先獲取直播狀態(tài),
       然后獲取彈幕服務(wù)器地址與房間信息,
       之后開啟socket連接并認證,
       最后持續(xù)發(fā)送心跳包和接收彈幕消息'''

    def __init__(self, url, loop, executor):
        self.url = url
        self.loop = loop
        self.executor = executor
        self.sock = None

    @abc.abstractmethod
    def _get_live_status(self):
        '''由直播網(wǎng)頁獲取主播直播狀態(tài)'''
        return False

    @abc.abstractmethod
    def _prepare_env(self):
        '''獲取彈幕服務(wù)器ip和端口號以及房間信息用以認證'''
        return ('0.0.0.0', 80), {}
        # danmuSocketInfo, roomInfo

    def prepare_env(self):
        '''調(diào)用self._get_live_status和self._prepare_env完成準(zhǔn)備工作'''
        if not self._get_live_status():
            raise Exception(u"直播未開始")
        return self._prepare_env()

    @abc.abstractmethod
    async def _init_socket(self, roomInfo):
        '''具體的socket連接到房間的方式,由子類重寫,
           應(yīng)使用await self.loop.sock_sendall方式發(fā)送數(shù)據(jù)'''
        pass

    async def init_socket(self, danmuSocketInfo, roomInfo):
        '''初始化socket并調(diào)用self.init_socket方法'''
        self.sock = socket.socket(socket.AF_INET, socket.SOCK_STREAM)
        self.sock.setblocking(False)
        try:
            await self.loop.sock_connect(self.sock, danmuSocketInfo)
            # ConnectionRefusedError
        except Exception as e:
            print(e)
        else:
            await self._init_socket(roomInfo)

    @abc.abstractmethod
    async def heartCoro(self):
        '''每隔x秒發(fā)送心跳包維持websocket連接'''
        pass

    async def danmuCoro(self):
        '''彈幕處理協(xié)程,異步接收彈幕數(shù)據(jù)
           并使用self.msgHandleBlock在另一線程/進程處理數(shù)據(jù)
           因為數(shù)據(jù)流是單向的所以即使是進程也不麻煩'''
        while True:
            content = await self.loop.sock_recv(self.sock, 1024)
            # sock_recv(sock[, 1024]) 接收字節(jié)不可以省略
            self.loop.run_in_executor(self.executor,
                                      self.msgHandleBlock, content)

    @abc.abstractmethod
    def msgHandleBlock(self, content):
        '''阻塞耗時的彈幕數(shù)據(jù)處理'''
        pass


def pp(msg):
    print(msg.encode(sys.stdin.encoding, 'ignore').
          decode(sys.stdin.encoding))


class ZhanQiDanMuClient(AbstractDanMuClient):
# 其它平臺類似修改即可
    def _get_live_status(self):
        url = 'https://www.zhanqi.tv/' + \
              self.url.split('/')[-1] or self.url.split('/')[-2]
        r = requests.get(url, headers={'User-Agent': USER_AGENT})
        if r.url == 'https://www.zhanqi.tv/':
            return False
        rawJson = re.findall('oRoom = (.*);[\s\S]*?window.', r.text)
        if not rawJson:
            rawJson = re.findall('aVideos = (.*);[\s\S]*?oPageConfig.', r.text)
        self.roomInfo = json.loads(rawJson[0])
        # if isinstance(self.roomInfo, list):
        #     self.roomInfo = self.roomInfo[0]
        # print(self.roomInfo['title'])
        return self.roomInfo['status'] == '4'

    def _prepare_env(self):
        serverAddress = json.loads(base64.b64decode(
            self.roomInfo['flashvars']['Servers']).decode('ascii'))['list'][0]
        serverAddress = (serverAddress['ip'], serverAddress['port'])
        url = '%s/api/public/room.viewer' % 'https://www.zhanqi.tv'
        params = {
            'uid': self.roomInfo['uid'],
            '_t': int(time.time() / 60), }
        roomInfo = requests.get(url, params).json()
        roomInfo['id'] = int(self.roomInfo['id'])
        # print(serverAddress, roomInfo)
        return serverAddress, roomInfo

    async def _init_socket(self, roomInfo):
        data = {
            'nickname': '',
            'roomid': int(roomInfo['id']),
            'gid': roomInfo['data']['gid'],
            'sid': roomInfo['data']['sid'],
            'ssid': roomInfo['data']['sid'],
            'timestamp': roomInfo['data']['timestamp'],
            'cmdid': 'loginreq',
            'develop_date': '2015-06-07',
            'fhost': 'zhanqi.tool',
            'fx': 0,
            't': 0,
            'thirdacount': '',
            'uid': 0,
            'ver': 2,
            'vod': 0,
        }
        data = json.dumps(data, separators=(',', ':'))
        await self.loop.sock_sendall(self.sock,
                                     b'\xbb\xcc' + b'\x00' * 4 +
                                     pack('i', len(data)) + b'\x10\x27' +
                                     data.encode('ascii'))

    async def heartCoro(self):
        while True:
            await self.loop.sock_sendall(self.sock,
                                         b'\xbb\xcc' +
                                         b'\x00' * 8 + b'\x59\x27')
            await asyncio.sleep(3)

    def msgHandleBlock(self, content):
        for msg in re.findall(b'\x10\x27({[^\x00]*})\x0a', content):
            try:
                msg = json.loads(msg.decode('utf8', 'ignore'))
                msg['NickName'] = (msg.get('fromname', '') or
                                   msg.get('data', {}).get('nickname', ''))
                msg['Content'] = msg.get('content', '')
                if 'chatm' in msg.get('cmdid', ''):
                    msg['MsgType'] = 'danmu'
                    pp("{0:<30} - [{1}] {2:->10}".format(
                        self.roomInfo['title'],
                        msg['NickName'], msg['Content']))
                    # 格式化輸出-參考http://www.crifan.com/python_string_format_fill_with_chars_and_set_alignment/
                elif 'Gift' in msg.get('cmdid', ''):
                    msg['MsgType'] = 'gift'
                else:
                    msg['MsgType'] = 'other'
            except Exception as e:
                print('消息解析出現(xiàn)錯誤')
            else:
                # self.msgPipe.append(msg)
                pass


if __name__ == '__main__':
    cm = DanMuClientManager()
    cm.start()

其它

executor = concurrent.futures.ProcessPoolExecutor(max_workers=3,) 
loop.run_in_executor(executor, task, args)
最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
平臺聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點,簡書系信息發(fā)布平臺,僅提供信息存儲服務(wù)。

推薦閱讀更多精彩內(nèi)容

  • Android 自定義View的各種姿勢1 Activity的顯示之ViewRootImpl詳解 Activity...
    passiontim閱讀 173,557評論 25 708
  • 我喜歡雨,在我兒時的記憶里總有一個有雨的場景!窗外的雨淅瀝淅瀝的下著,屋檐的雨珠敲著優(yōu)美的旋律,我依偎在媽媽的懷里...
    倚樓風(fēng)吹雨閱讀 353評論 2 6
  • 本次學(xué)習(xí)內(nèi)容: 服裝: T-shirt, pants, shorts, skirt, dress, shirt, ...
    TimmySHENX閱讀 270評論 0 0
  • 我們了解了提升者和壓低者,這兩個概念。 看似,好像也沒有什么嗎!在仔細想一想,生活中為什么有的人他具有有影響力的人...
    聽雨廖哥閱讀 692評論 0 0
  • 阿姨喂喲 捉也嘛3嘞 空你一句話 微笑uc郵資u 阿拉大娃工地嘞是的嘞s
    華胥氏公子閱讀 245評論 1 0