python爬蟲:將本人博客園文章轉化為MarkDown格式

本周又和大家見面了,首先說一下兩周之后要進行研究生的期末考試,所以這次可能是考試之前的最后一更,我要忙著復習了,還請大家見諒,一般情況下我都是每周更新一篇技術原創。

好了,廢話不多說,咱們進入今天的主題。由于我在簡書也有自己的基地,所以每次在博客園文章更新完,還要在簡書進行更新。由于簡書文章的編輯格式是MarkDown,所以前幾次更新修改格式都是非常麻煩,浪費時間,尤其是有了圖片之后。于是,為了不讓自己的時間浪費在這么無聊的事情上,我就用學到的爬蟲知識,對我寫的文章進行格式的轉化(當然我只是按照我文章的格式進行解析的,不具有通用性,之后可以完善通用性)。

咱們就按照我寫的上面文章Scrapy爬取美女圖片第四集 突破反爬蟲(上)為例,進行格式的轉化。

來到這個界面:

你會發現文章中主要包含這幾種特殊對象:段落文本(有顏色和無顏色之分),圖片(主要是提取圖片鏈接),代碼框中的代碼。所以咱們需要對這幾種對象進行分別提取和轉化

老規矩,打開firebug,輸入鏈接,這次不僅需要觀察HTML結構,還要觀察網絡這個選項,捕獲這個get請求,會發現很大的不同。

同樣是表現的代碼內容,發現網絡請求返回的標簽和最后生成的標簽是不一樣的。這就是通過javascript動態修改html。那咱們該以什么為準呢?當然是以網絡請求的格式為準,因為在實際的網絡訪問中就是獲取的這個內容。

通過上面的可以看到代碼都是由pre標簽進行包裹,其他內容都是由p標簽進行包裹。所以為了統一格式,先將獲取到的pre標簽換成p標簽,并添加code屬性進行區分。當然用到的還是bs4這個神器。直接看一下代碼:


soup = BeautifulSoup(response)#,'html.parser',from_encoding='utf-8'

        pres = soup.findAll('pre')

        for pre in pres:

            pre.name ='p'  

            pre['code']='yes'

首先提取其中圖片的鏈接,并按照標簽的順序添加到list中存儲:


ps = soup.findAll('p')

        for p in ps:

            img = p.img

            if img !=None:

                self.content={'tag':'img','content':img['src']}

                self.papers.append(self.content)

接著提取code的代碼內容,并按照標簽的順序添加到list中存儲:


if p.get('code')=='yes':

                self.content={'tag':'code','content':p.text.replace('&nbsp:','').strip()}

                self.papers.append(self.content)

然后將正常段落中的顏色部分進行標注,我習慣是將加顏色的文字,最后轉化為加粗形式。從格式中看到,加顏色的字體使用span標簽進行包裹的。

咱們將標簽進行替換和標注,以便后續處理。


elif p.span != None:

                spans = p.findAll('span')#找到所有的span標簽

                for span in spans:

                    # print span.text

                    if span.get('style').find('color')!=-1:

                        # del span['style']

                        # span.name='color'

                        if span.string!=None:

                            span.string = 'c_start'+span.string+'c_end' #對有顏色的文本進行標注

有時候會發現,文本中有鏈接,咱們還要把鏈接進行按次序提取。


links =p.findAll('a')

                for link in links:

                    if link.string!=None:

                        link.string = '['+link.string+']'+'('+link.string+')'

                self.content={'tag':'text','content':p.text.replace('&nbsp:','').strip()} self.papers.append(self.content)

經過這幾個步驟就將所有要提取的內容都分離出來了,接下來進行轉化為markdown格式。


#coding:utf-8



class Convert(object):

    @classmethod

    def convert(self,papers):

        str = ''

        with open('D:\markdown.txt','w') as file_writer:

            for p in papers:

                if p['tag']=='text':

                    str = p['content'].replace('c_start','**').replace('c_end','**')  #這個是替換顏色,使用加粗

                    pass

                elif p['tag']=='code':

                    str = '```'+'\r\n'+p['content']+'\r\n'+'```'  #這個是代碼框的添加



                else:

                    #![](http://upload-images.jianshu.io/upload_images/1823443-7c4c920514b8f0cf.jpg?imageMogr2/auto-orient/strip%7CimageView2/2/w/1240)#這個是圖片鏈接的轉化

                    str = '[站外圖片上傳中……(6)]'%(p['content'])

                    str = '\r\n'+str+'\r\n'



                file_writer.write(str.encode('utf-8'))

                file_writer.write('\r\n'.encode('utf-8'))



        file_writer.close()

最后咱們看一下效果,將生成的markdown文本復制到簡書上去,是否顯示正確。這個就是最后簡書文章鏈接:http://www.lxweimin.com/p/9159111bcd87效果還是不錯的,可能需要一些微調,以前整理格式要花10幾分鐘,不超過兩分鐘就搞定

[站外圖片上傳中……(7)]


完整的代碼我已經上傳到github上:https://github.com/qiyeboy/html2Md


今天的分享就到這里,如果大家覺得還可以呀,記得打賞呦。

[站外圖片上傳中……(8)]

最后編輯于
?著作權歸作者所有,轉載或內容合作請聯系作者
平臺聲明:文章內容(如有圖片或視頻亦包括在內)由作者上傳并發布,文章內容僅代表作者本人觀點,簡書系信息發布平臺,僅提供信息存儲服務。

推薦閱讀更多精彩內容

  • Android 自定義View的各種姿勢1 Activity的顯示之ViewRootImpl詳解 Activity...
    passiontim閱讀 173,264評論 25 708
  • 發現 關注 消息 iOS 第三方庫、插件、知名博客總結 作者大灰狼的小綿羊哥哥關注 2017.06.26 09:4...
    肇東周閱讀 12,229評論 4 61
  • 史蒂芬柯維在高效能人士的七個習慣中將積極主動列為第一個習慣,是由內到外全面打造自己的基礎。 梭羅說,最令人鼓舞的事...
    向日小葵123閱讀 845評論 1 1
  • 又是一天,隨著年齡的增長,時間真的是一天過的比一天快,來到了北京之后,回家,真的不知道算是怎樣一個名詞。 記得剛來...
    第八族閱讀 218評論 0 0