[造輪子]爬取搜狗微信公眾號文章

博客鏈接:http://www.charlesjiang.com/archives/9.html

背景:想做一個公眾號文章資源APP,發現搜狗有搜索公眾號文章功能,果斷開擼。http://wxiread.com (用CMS搭了個簡易的站)。

Step1.分析欄目及接口

搜狗微信地址:http://weixin.sogou.com/ , 如下圖:

搜狗分了20個欄目,分別是 熱門,推薦,段子手,養生堂,私房話… 對應地址從 /pcindex/pc/pc_0 到 /pcindex/pc/pc_19 , 如:http://weixin.sogou.com/pcindex/pc/pc_0/1.html [1.html為分頁號]。 整理欄目對應關系見表如下:

Step2.分析列表結構

文章列表頁由 li 節點構成,li 的ID可看做文章ID,li子節點包括文章標題,描述信息,作者,作者頭像等。

Step3.使用QueryList采集文章基本信息

QueryList 是一個基于PHP的DOM解析工具,功能強大,語法類似于JQuery;詳細使用可查看官方文檔

代碼如下:

protected function get_article_list($url)
{
     //獲取文章LI ID規則
    $rules = array(
        'article_id' => array('li', 'id'),//文章ID
        'inner_html' => array('li', 'html')
    );

    //遞歸獲取LI節點內容
    $data = QueryList::Query($url, $rules)->getData(function($li) {
        $id   = $li['article_id'];
        $info = QueryList::Query($li['inner_html'], array(
            'article_url'   => array(".wx-img-box > a", "href"), //文章地址
            'author_url'    => array(".pos-wxrw > a", "href"), //作者地址
            'author_avatar' => array(".pos-wxrw > a > p > img", "src"), //作者頭像
            'article_thumb' => array(".wx-img-box > a > img", "src"), //文章縮略圖
            'author_name'   => array(".pos-wxrw > a > p:eq(1)", "text"), //作者名稱
            'article_title' => array(".wx-news-info2 > h4", "text"), //文章標題
            'article_des'   => array(".wx-news-info", "text"), //文章簡介
            'article_create_at' => array(".wx-news-info2 [v]", "v"), //文章標題
            'article_hits' => array(".wx-news-info2 > .s-p", "text", "", function($i){ preg_match('/\d+/', $i, $ms); return (int)$ms[0];}), //文章標題
        ))->data;
        unset($info['inner_html']);

        $info[0]['article_id']   = $id;
        $info[0]['article_hits'] = intval($info[0]['article_hits']);

        return $info[0];
    });

    return $data;
}

Step4.獲取文章詳情

第三步僅采集了文章基本信息(標題,作者,簡介等),要獲取詳情信息需要打開原文地址爬取內容。代碼如下:

/**
* 獲取文章詳情(并返回文章基本信息用于更新)
* @param $url
* @return array
*/
protected function get_content($url)
{
    $option = array(
        'http' => array(
            'header' => "Referer:" . self::SET_REFER),
    );
    $url = file_get_contents($url, FALSE, stream_context_create($option));

    //去除微信干擾元素!!!否則亂碼
    $url = str_replace("<!--headTrap<body></body><head></head><html></html>-->", "", $url);
    $rules = array(
        'content' => array('#js_content', 'html'),//文章內容
    );
    $content = QueryList::Query($url, $rules)->getData();
    //原文鏈接
    preg_match("/var msg_link = \".*\"/", $url, $matches);
    $orUrl = html_entity_decode(urldecode($matches[0]));
    $orUrl = substr(explode('var msg_link = "', $orUrl)[1], 0, -4);

    //原文標題 !避免出現標題被截取
    preg_match("/var msg_title = \".*\"/", $url, $matches);
    $orTitle = $matches[0];
    $orTitle = substr(explode('var msg_title = "', $orTitle)[1], 0, -1);

    //原文作者頭像
    preg_match("/var round_head_img = \".*\"/", $url, $matches);
    $orAuthAvatar = $matches[0];
    $orAuthAvatar = substr(explode('var round_head_img = "', $orAuthAvatar)[1], 0, -1);

    //原文縮略圖
    preg_match("/var msg_cdn_url = \".*\"/", $url, $matches);
    $orImgUrl = $matches[0];
    $orImgUrl = substr(explode('var msg_cdn_url = "', $orImgUrl)[1], 0, -1);

    return array(
        'content'        => $content[0]['content'],
        'article_url'    => urldecode($orUrl),
        'article_title'  => html_entity_decode($orTitle),
        'author_avatar'  => $orAuthAvatar,
        'article_thumb'  => $orImgUrl
    );
}

Step5.數據入庫

數據庫大致設計如下:

wechat_article: 保存文章基本信息
wechat_article_content: 文章詳情信息
wechat_category: 欄目信息
wechat_article_ids: 已被導入的文章,避免重復導入(可以選用Redis等)

Step6.將文章同步到CMS

方便操作,我選用的是PHPCMS, 在后臺建好欄目,寫一個導入腳本,用定時任務執行,現情況如下:

其他

1.微信圖片防盜鏈:

微信原文圖片做了防盜鏈,在同步到CMS時,我將所有圖片鏈接替換為中轉地址如:
http://www.wxiread.com/api.php?op=ref_control&url=http://mmbiz.qpic.cn/mmbiz_gif/jxateR9eXe1x9yPwA89Rm8mtjZYCgMuiauGKMMOtsEVAyCrsicJVhNv5ON4QOfLJHXRdsUyj8kklDwzicIrNSRyNw/0?wx_fmt=gif

api.php 代碼如下:

$sogouPre = "http://img02.store.sogou.com/net/a/05/link?appid=100520091&url=";
/**
* 防盜鏈處理
*/
$url  = @trim($_REQUEST['url']);
if (empty($url) || !isUrl($url)) {
    return;
}

$imgType = getImgType($url);
$opts = array(
    'http'=>array(
        'method'=>"GET",
        'header'=>"Referer:http://weixin.sogou.com/ \n" .
            "User-Agent:Mozilla/5.0 (Macintosh; Intel Mac OS X 10_11_6) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/53.0.2785.116 Safari/537.36 \n".
            "Accept:text/html,application/xhtml+xml,application/xml;q=0.9,image/webp,*/*;q=0.8"
    )
);
$context = stream_context_create($opts);
$file    = file_get_contents($sogouPre . $url, FALSE, $context);
header("Content-type:image/{$imgType}");
echo $file;
最后編輯于
?著作權歸作者所有,轉載或內容合作請聯系作者
平臺聲明:文章內容(如有圖片或視頻亦包括在內)由作者上傳并發布,文章內容僅代表作者本人觀點,簡書系信息發布平臺,僅提供信息存儲服務。
  • 序言:七十年代末,一起剝皮案震驚了整個濱河市,隨后出現的幾起案子,更是在濱河造成了極大的恐慌,老刑警劉巖,帶你破解...
    沈念sama閱讀 229,732評論 6 539
  • 序言:濱河連續發生了三起死亡事件,死亡現場離奇詭異,居然都是意外死亡,警方通過查閱死者的電腦和手機,發現死者居然都...
    沈念sama閱讀 99,214評論 3 426
  • 文/潘曉璐 我一進店門,熙熙樓的掌柜王于貴愁眉苦臉地迎上來,“玉大人,你說我怎么就攤上這事。” “怎么了?”我有些...
    開封第一講書人閱讀 177,781評論 0 382
  • 文/不壞的土叔 我叫張陵,是天一觀的道長。 經常有香客問我,道長,這世上最難降的妖魔是什么? 我笑而不...
    開封第一講書人閱讀 63,588評論 1 316
  • 正文 為了忘掉前任,我火速辦了婚禮,結果婚禮上,老公的妹妹穿的比我還像新娘。我一直安慰自己,他們只是感情好,可當我...
    茶點故事閱讀 72,315評論 6 410
  • 文/花漫 我一把揭開白布。 她就那樣靜靜地躺著,像睡著了一般。 火紅的嫁衣襯著肌膚如雪。 梳的紋絲不亂的頭發上,一...
    開封第一講書人閱讀 55,699評論 1 327
  • 那天,我揣著相機與錄音,去河邊找鬼。 笑死,一個胖子當著我的面吹牛,可吹牛的內容都是我干的。 我是一名探鬼主播,決...
    沈念sama閱讀 43,698評論 3 446
  • 文/蒼蘭香墨 我猛地睜開眼,長吁一口氣:“原來是場噩夢啊……” “哼!你這毒婦竟也來了?” 一聲冷哼從身側響起,我...
    開封第一講書人閱讀 42,882評論 0 289
  • 序言:老撾萬榮一對情侶失蹤,失蹤者是張志新(化名)和其女友劉穎,沒想到半個月后,有當地人在樹林里發現了一具尸體,經...
    沈念sama閱讀 49,441評論 1 335
  • 正文 獨居荒郊野嶺守林人離奇死亡,尸身上長有42處帶血的膿包…… 初始之章·張勛 以下內容為張勛視角 年9月15日...
    茶點故事閱讀 41,189評論 3 356
  • 正文 我和宋清朗相戀三年,在試婚紗的時候發現自己被綠了。 大學時的朋友給我發了我未婚夫和他白月光在一起吃飯的照片。...
    茶點故事閱讀 43,388評論 1 372
  • 序言:一個原本活蹦亂跳的男人離奇死亡,死狀恐怖,靈堂內的尸體忽然破棺而出,到底是詐尸還是另有隱情,我是刑警寧澤,帶...
    沈念sama閱讀 38,933評論 5 363
  • 正文 年R本政府宣布,位于F島的核電站,受9級特大地震影響,放射性物質發生泄漏。R本人自食惡果不足惜,卻給世界環境...
    茶點故事閱讀 44,613評論 3 348
  • 文/蒙蒙 一、第九天 我趴在偏房一處隱蔽的房頂上張望。 院中可真熱鬧,春花似錦、人聲如沸。這莊子的主人今日做“春日...
    開封第一講書人閱讀 35,023評論 0 28
  • 文/蒼蘭香墨 我抬頭看了看天上的太陽。三九已至,卻和暖如春,著一層夾襖步出監牢的瞬間,已是汗流浹背。 一陣腳步聲響...
    開封第一講書人閱讀 36,310評論 1 293
  • 我被黑心中介騙來泰國打工, 沒想到剛下飛機就差點兒被人妖公主榨干…… 1. 我叫王不留,地道東北人。 一個月前我還...
    沈念sama閱讀 52,112評論 3 398
  • 正文 我出身青樓,卻偏偏與公主長得像,于是被迫代替她去往敵國和親。 傳聞我的和親對象是個殘疾皇子,可洞房花燭夜當晚...
    茶點故事閱讀 48,334評論 2 377

推薦閱讀更多精彩內容