SEO實操手冊|六、網(wǎng)絡(luò)爬蟲(蜘蛛)

本章主要介紹SEO優(yōu)化工作中,在網(wǎng)絡(luò)爬蟲方面需要了解的工作。

本文版權(quán)由“ 北朔潛龍 ”所有,僅供學(xué)習(xí)使用,請勿轉(zhuǎn)載或用于商業(yè)用途。

六、爬蟲

? 1、爬蟲定義

? ? ? ? 網(wǎng)絡(luò)爬蟲(也叫網(wǎng)絡(luò)蜘蛛)是一種自動獲取內(nèi)頁內(nèi)容的程序,爬蟲抓取的頁面將會被搜索引擎系統(tǒng)儲存,進行一定的分析、過濾、并建立索引,以便之后的用戶能夠查詢到這個頁面,這個獲取就是爬蟲。

? 2、爬蟲與搜索引擎的關(guān)系

? ? ? ? 爬蟲為搜索收集內(nèi)容,搜索引擎展示的內(nèi)容大部分是爬蟲收集的。

? 3、工作流程

? ? ? ? 爬蟲通過漫游的形式進行抓取,爬蟲爬到一個頁面后,看到一個鏈接,然后順著那個鏈接又爬到另一個頁面,爬蟲是不停的從一個頁面跳到另一個頁面,它一邊下載這個網(wǎng)頁,一邊提取這個網(wǎng)頁中的鏈接,那個頁面上所有的鏈接都放在一個待抓取表里,而且爬蟲有個特點,就是他在訪問你網(wǎng)站之前,不去判斷你這個網(wǎng)頁怎么樣,不對網(wǎng)頁內(nèi)容判斷就抓取,但是會有優(yōu)先級的劃分,盡可能不抓取反復(fù)內(nèi)容,盡量抓取網(wǎng)站的重要內(nèi)容(比如網(wǎng)站的公共部分)搜索引擎同時會分裂出多個爬蟲進行多線程的抓取,所有被爬蟲抓取的網(wǎng)頁將會被系統(tǒng)儲存,進行一定的分析,過濾(去重)并建立索引,以便之后的查詢和檢索。

? ? ? ? 分類:

? ? ? ? ? ? ? ? ? ?百度蜘蛛 ? ? ? ? ?baiduspider

? ? ? ? ? ? ? ? ? ?谷歌爬蟲 ? ? ? ? ?godglebot

? ? ? ? ? ? ? ? ? ?SOSO爬蟲 ? ? ? sosopider

? 4、搜索引擎入口:

? ? ? ? A)做搜索引擎優(yōu)化的第一步就是讓搜索引擎先知道你網(wǎng)站的存在

? ? ? ? B)為了達到目的,向搜索引擎提交您網(wǎng)站被認為是網(wǎng)站上線后要做的第一件事

? ? ? ? C)提交的地址就做搜索引擎提交入口

? 5、Robots

? ? ? ? A)概念

? ? ? ? ? ? ? 搜索引擎使用爬蟲程序自動訪問互聯(lián)網(wǎng)上的網(wǎng)頁并獲取網(wǎng)頁信息;爬蟲在訪問一個網(wǎng)站時,首先會檢查該網(wǎng)站的根目錄下是否有一個叫做robots.txt的純文本文件,這個文件是用于指定爬蟲在網(wǎng)站上的抓取范圍。

? ? ? ? B)robots就是一個協(xié)議

? ? ? ? ? ? ?您可以在您網(wǎng)站中創(chuàng)建一個robots.txt,在文件中聲明該網(wǎng)站不想被搜索引擎收錄的部分或者制定搜索引擎只收錄指定的部分,網(wǎng)站通過robots協(xié)議告訴搜索引擎哪些頁面可以抓取,哪些頁面不能抓取。

? ? ? ?C)用法舉例

? ? ? ? ? ? ? ? ?1.禁止所有搜索引擎訪問網(wǎng)站的任何部分

? ? ? ? ? ? ? ? ? ? ?User-agent:*

? ? ? ? ? ? ? ? ? ? ?Disallow://

? ? ? ? ? ? ? ? ? 2.允許所有robot訪問

? ? ? ? ? ? ? ? ? ? ?User-agent:*

? ? ? ? ? ? ? ? ? ? ?Allow://

? ? ? ? ? ? ? ? ? 3.僅禁止gaiduspired訪問您的網(wǎng)站

? ? ? ? ? ? ? ? ? ? ? User-agent:gaiduspider

? ? ? ? ? ? ? ? ? ? ? Disallow://

? ? ? ? ? ? ? ? ?4.工具(百度站長平臺)

? ? ? ? ? ? ? ? ? ? 百度站長平臺—網(wǎng)站分析—robots—生成robots.txt

最后編輯于
?著作權(quán)歸作者所有,轉(zhuǎn)載或內(nèi)容合作請聯(lián)系作者
平臺聲明:文章內(nèi)容(如有圖片或視頻亦包括在內(nèi))由作者上傳并發(fā)布,文章內(nèi)容僅代表作者本人觀點,簡書系信息發(fā)布平臺,僅提供信息存儲服務(wù)。

推薦閱讀更多精彩內(nèi)容

  • 網(wǎng)絡(luò)爬蟲的君子協(xié)議 網(wǎng)絡(luò)爬蟲的尺寸 網(wǎng)絡(luò)爬蟲引發(fā)的問題 性能騷擾 法律風(fēng)險 隱私泄露 網(wǎng)絡(luò)爬蟲的"性能騷擾"web...
    若與閱讀 33,672評論 2 43
  • 引言 推薦教材 關(guān)注搜索引擎的原因 互聯(lián)網(wǎng)上最重要的應(yīng)用系統(tǒng) 人類歷史上最大規(guī)模的信息集散平臺 學(xué)術(shù)界重要的研發(fā)平...
    Ycres閱讀 3,490評論 2 10
  • 我一般不太會在文章中放音樂,但這兩天我循環(huán)的聽著這首歌然后一邊看著這本小說——《房思琪的初戀樂園》。歌詞就好像說出...
    賞味不足閱讀 796評論 1 2
  • 2017年3月12日 雨 雨 聽雨 看雨 惆悵雨 路 找路 走路 遲疑路 景 盼景 憐景 慌亂景 人 愛人 等人 折磨人
    鮮栗子閱讀 225評論 0 0
  • 衡量關(guān)系重要性和親密度的系數(shù): 血親,90% 同學(xué),校友,80% 姻親,70% 鄉(xiāng)黨,60% 表示比較忽略這...
    四橫閱讀 206評論 0 1