效果圖
- 上圖為1月22號晚上戰(zhàn)旗平臺熱門直播的彈幕消息截圖
一行中為 直播房間標(biāo)題-[發(fā)彈幕者昵稱]--彈幕內(nèi)容
效果圖2
開源包
- 我最早發(fā)現(xiàn)直播視頻彈幕爬蟲是從無與童比同學(xué)的斗魚彈幕助手ruby版本看到的,他還有詳細的原理解析文記一次斗魚TV彈幕爬蟲經(jīng)歷(Ruby版本),他也做了一個python版本的,不過只適用于Mac和Linux系統(tǒng)。
- 后來又在github上看到了littlecodersh同學(xué)開源的Python 彈幕包,無操作系統(tǒng)依賴,而且拓展了適用直播平臺,斗魚、熊貓、戰(zhàn)旗、全民、Bilibili的彈幕認證連接與消息解析代碼全都有,適用多個平臺,代碼解耦適度,結(jié)構(gòu)清晰。
原理
- 原理上,都是先從直播房間頁面或者相應(yīng)api接口獲取主播信息、彈幕服務(wù)器信息、彈幕認證服務(wù)器信息等,然后通過socket連接,維持心跳包并持續(xù)獲取彈幕數(shù)據(jù)。不過都是使用了多線程的方式。以littlecodersh的代碼為例,他的結(jié)構(gòu)大概是由使用者提供的直播頁url啟動一個彈幕消息處理線程(處理的是已經(jīng)解析完畢結(jié)構(gòu)化好的彈幕消息,實際是一個接口)和一個相應(yīng)平臺的客戶端線程,客戶端線程初始化一個socket并維護兩個子線程,這兩個子線程共用同一個socket分別發(fā)送心跳包和接收彈幕消息原始數(shù)據(jù),在接收消息的線程里同時完成彈幕消息的解析和結(jié)構(gòu)化,并放入隊列,提供給一開始的彈幕消息處理線程,讓其進一步對彈幕進行處理。但是多個房間的彈幕要開多個進程,也可以對源碼相應(yīng)修改,采取多開客戶端線程的方式,在同一個進程里進行處理。
應(yīng)用場景與異步修改嘗試
- 考慮到應(yīng)用場景,目標(biāo)是要收集某直播平臺的熱門節(jié)目的優(yōu)質(zhì)片段,首先考慮優(yōu)質(zhì)片段如何判斷,直播彈幕量的突然上升(當(dāng)然也可能是主播在抽獎。。)在很大程度上是直播中特殊情況發(fā)生的信號,于是通過實時監(jiān)測彈幕信息發(fā)現(xiàn)彈幕變化節(jié)點就解決了優(yōu)質(zhì)片段的初步篩選工作,同時還可以根據(jù)彈幕消息處理出當(dāng)前觀眾熱詞,方便進一步加工。于是需要同時獲取某平臺上百臺直播節(jié)目,多平臺的話就要更多,使用python的話或許異步協(xié)程在這里更為適合。這里我將littlecodersh的線程代碼改寫為異步(感謝littlecodersh同學(xué)),使用一個eventloop控制器,管理所有的socket異步事件,每個socket對應(yīng)一個直播彈幕的獲取,代碼的結(jié)構(gòu)看上去感覺也更易理解一點。測試同時接收200臺時占用內(nèi)存約為30M(python解釋器占大概10M多點),流量約為400Kb/s。這里只是改寫了戰(zhàn)旗平臺的代碼做了一下嘗試,很多地方處理的也比較粗糙,可以改進的地方比較多,歡迎指點交流。
- 首先從戰(zhàn)旗平臺直播列表頁面獲取當(dāng)前熱門直播,直接使用以下代碼爬取熱門列表到txt文件保存,這里只是爬了第一頁的。
import requests
from bs4 import BeautifulSoup
#
r = requests.get('https://www.zhanqi.tv/lives')
soup = BeautifulSoup(r.content, "lxml") # 可以不要lxml
urlist = [i.get('href') for i in soup.select("#hotList li a")]
with open('urlist3.txt', 'a') as f:
for i in urlist:
f.write(
''.join(['https://www.zhanqi.tv', i, '\n'])
)
- 然后使用以下代碼連接txt文件中的所有房間,
python zhanqidanmu.py
即可執(zhí)行。
其中socket接收到了彈幕消息的原始數(shù)據(jù)后,需要對其進行較為耗時的數(shù)據(jù)解析工作,即msgHandleBlock
方法,這里采取維護一個線程池(進程池也可,只需將Thread改為Process)的方法,將該耗時工作委托給另一個線程處理。對初步處理完成的數(shù)據(jù)這里只是簡單的打印到控制臺,可以稍作修改直接存入數(shù)據(jù)庫,也可留出接口。
# zhanqidanmu.py
import abc
import asyncio
import socket
import concurrent.futures
import sys
import json
import time
import re
import base64
from struct import pack
import requests
USER_AGENT = 'Mozilla/5.0 (Macintosh; Intel Mac OS X 10_11_6) AppleWebKit/537.36 \
(KHTML, like Gecko) Chrome/54.0.2840.71 Safari/537.36'
async def testMemory():
# 測試內(nèi)存占用
import os
import psutil
while True:
process = psutil.Process(os.getpid())
print(os.getpid(), '占用',
str(process.memory_info().rss / 1024 / 1024))
await asyncio.sleep(10)
class DanMuClientManager():
def __init__(self, loop=None, executor=None):
self.loop = loop or asyncio.get_event_loop()
# 私有一個事件循環(huán)控制器
self.executor = executor or concurrent.futures.ThreadPoolExecutor(
max_workers=2,
)
# 私有一個處理cpu占用型任務(wù)的線程池
self._urltextProcess()
# 得到需要連接的直播房間列表
def _urltextProcess(self):
with open('urlist3.txt', 'r') as f:
self.url = f.readlines()
def start(self):
clientList = [ZhanQiDanMuClient(url.strip(), self.loop, self.executor)
for url in self.url if url != '\n']
# 由url列表實例化客戶端生成列表
initTasks = []
clients = []
for c in clientList:
try:
danmuSocketInfo, roomInfo = c.prepare_env()
# 完成準(zhǔn)備工作,生成彈幕服務(wù)器信息和房間信息
except:
print("某主播不在線-", c.url)
else:
clients.append(c)
initTasks.append(c.init_socket(danmuSocketInfo, roomInfo))
# 將所有的socket初始連接協(xié)程放入隊列
self.loop.run_until_complete(asyncio.gather(*initTasks))
# 等待連接完成
print('連接彈幕服務(wù)器完成 *', len(initTasks))
danmuTasks = [testMemory()]
for c in clients:
danmuTasks.extend([
asyncio.ensure_future(c.heartCoro()),
asyncio.ensure_future(c.danmuCoro()),
])
# 生成所有的心跳協(xié)程和彈幕消息接收協(xié)程構(gòu)成的任務(wù)列表
try:
self.loop.run_until_complete(asyncio.gather(*danmuTasks))
# 持續(xù)接收彈幕消息
except KeyboardInterrupt:
print('關(guān)閉')
finally:
# print(">> Cancelling tasks now")
# for task in asyncio.Task.all_tasks():
# task.cancel()
# self.loop.run_until_complete(asyncio.sleep(1))
# print(">> Done cancelling tasks")
self.loop.close()
class AbstractDanMuClient(metaclass=abc.ABCMeta):
'''主要流程:
先獲取直播狀態(tài),
然后獲取彈幕服務(wù)器地址與房間信息,
之后開啟socket連接并認證,
最后持續(xù)發(fā)送心跳包和接收彈幕消息'''
def __init__(self, url, loop, executor):
self.url = url
self.loop = loop
self.executor = executor
self.sock = None
@abc.abstractmethod
def _get_live_status(self):
'''由直播網(wǎng)頁獲取主播直播狀態(tài)'''
return False
@abc.abstractmethod
def _prepare_env(self):
'''獲取彈幕服務(wù)器ip和端口號以及房間信息用以認證'''
return ('0.0.0.0', 80), {}
# danmuSocketInfo, roomInfo
def prepare_env(self):
'''調(diào)用self._get_live_status和self._prepare_env完成準(zhǔn)備工作'''
if not self._get_live_status():
raise Exception(u"直播未開始")
return self._prepare_env()
@abc.abstractmethod
async def _init_socket(self, roomInfo):
'''具體的socket連接到房間的方式,由子類重寫,
應(yīng)使用await self.loop.sock_sendall方式發(fā)送數(shù)據(jù)'''
pass
async def init_socket(self, danmuSocketInfo, roomInfo):
'''初始化socket并調(diào)用self.init_socket方法'''
self.sock = socket.socket(socket.AF_INET, socket.SOCK_STREAM)
self.sock.setblocking(False)
try:
await self.loop.sock_connect(self.sock, danmuSocketInfo)
# ConnectionRefusedError
except Exception as e:
print(e)
else:
await self._init_socket(roomInfo)
@abc.abstractmethod
async def heartCoro(self):
'''每隔x秒發(fā)送心跳包維持websocket連接'''
pass
async def danmuCoro(self):
'''彈幕處理協(xié)程,異步接收彈幕數(shù)據(jù)
并使用self.msgHandleBlock在另一線程/進程處理數(shù)據(jù)
因為數(shù)據(jù)流是單向的所以即使是進程也不麻煩'''
while True:
content = await self.loop.sock_recv(self.sock, 1024)
# sock_recv(sock[, 1024]) 接收字節(jié)不可以省略
self.loop.run_in_executor(self.executor,
self.msgHandleBlock, content)
@abc.abstractmethod
def msgHandleBlock(self, content):
'''阻塞耗時的彈幕數(shù)據(jù)處理'''
pass
def pp(msg):
print(msg.encode(sys.stdin.encoding, 'ignore').
decode(sys.stdin.encoding))
class ZhanQiDanMuClient(AbstractDanMuClient):
# 其它平臺類似修改即可
def _get_live_status(self):
url = 'https://www.zhanqi.tv/' + \
self.url.split('/')[-1] or self.url.split('/')[-2]
r = requests.get(url, headers={'User-Agent': USER_AGENT})
if r.url == 'https://www.zhanqi.tv/':
return False
rawJson = re.findall('oRoom = (.*);[\s\S]*?window.', r.text)
if not rawJson:
rawJson = re.findall('aVideos = (.*);[\s\S]*?oPageConfig.', r.text)
self.roomInfo = json.loads(rawJson[0])
# if isinstance(self.roomInfo, list):
# self.roomInfo = self.roomInfo[0]
# print(self.roomInfo['title'])
return self.roomInfo['status'] == '4'
def _prepare_env(self):
serverAddress = json.loads(base64.b64decode(
self.roomInfo['flashvars']['Servers']).decode('ascii'))['list'][0]
serverAddress = (serverAddress['ip'], serverAddress['port'])
url = '%s/api/public/room.viewer' % 'https://www.zhanqi.tv'
params = {
'uid': self.roomInfo['uid'],
'_t': int(time.time() / 60), }
roomInfo = requests.get(url, params).json()
roomInfo['id'] = int(self.roomInfo['id'])
# print(serverAddress, roomInfo)
return serverAddress, roomInfo
async def _init_socket(self, roomInfo):
data = {
'nickname': '',
'roomid': int(roomInfo['id']),
'gid': roomInfo['data']['gid'],
'sid': roomInfo['data']['sid'],
'ssid': roomInfo['data']['sid'],
'timestamp': roomInfo['data']['timestamp'],
'cmdid': 'loginreq',
'develop_date': '2015-06-07',
'fhost': 'zhanqi.tool',
'fx': 0,
't': 0,
'thirdacount': '',
'uid': 0,
'ver': 2,
'vod': 0,
}
data = json.dumps(data, separators=(',', ':'))
await self.loop.sock_sendall(self.sock,
b'\xbb\xcc' + b'\x00' * 4 +
pack('i', len(data)) + b'\x10\x27' +
data.encode('ascii'))
async def heartCoro(self):
while True:
await self.loop.sock_sendall(self.sock,
b'\xbb\xcc' +
b'\x00' * 8 + b'\x59\x27')
await asyncio.sleep(3)
def msgHandleBlock(self, content):
for msg in re.findall(b'\x10\x27({[^\x00]*})\x0a', content):
try:
msg = json.loads(msg.decode('utf8', 'ignore'))
msg['NickName'] = (msg.get('fromname', '') or
msg.get('data', {}).get('nickname', ''))
msg['Content'] = msg.get('content', '')
if 'chatm' in msg.get('cmdid', ''):
msg['MsgType'] = 'danmu'
pp("{0:<30} - [{1}] {2:->10}".format(
self.roomInfo['title'],
msg['NickName'], msg['Content']))
# 格式化輸出-參考http://www.crifan.com/python_string_format_fill_with_chars_and_set_alignment/
elif 'Gift' in msg.get('cmdid', ''):
msg['MsgType'] = 'gift'
else:
msg['MsgType'] = 'other'
except Exception as e:
print('消息解析出現(xiàn)錯誤')
else:
# self.msgPipe.append(msg)
pass
if __name__ == '__main__':
cm = DanMuClientManager()
cm.start()
其它
-
Combining Coroutines with Threads and Processes
python多進程multiprocessing.Process
和異步asyncio.get_event_loop()
直接放在一起使用會有問題,使用loop.run_in_executor()
來解決該問題。
executor = concurrent.futures.ProcessPoolExecutor(max_workers=3,)
loop.run_in_executor(executor, task, args)