本章主要介紹SEO優(yōu)化工作中,在網(wǎng)絡(luò)爬蟲方面需要了解的工作。
本文版權(quán)由“ 北朔潛龍 ”所有,僅供學(xué)習(xí)使用,請勿轉(zhuǎn)載或用于商業(yè)用途。
六、爬蟲
? 1、爬蟲定義
? ? ? ? 網(wǎng)絡(luò)爬蟲(也叫網(wǎng)絡(luò)蜘蛛)是一種自動獲取內(nèi)頁內(nèi)容的程序,爬蟲抓取的頁面將會被搜索引擎系統(tǒng)儲存,進行一定的分析、過濾、并建立索引,以便之后的用戶能夠查詢到這個頁面,這個獲取就是爬蟲。
? 2、爬蟲與搜索引擎的關(guān)系
? ? ? ? 爬蟲為搜索收集內(nèi)容,搜索引擎展示的內(nèi)容大部分是爬蟲收集的。
? 3、工作流程
? ? ? ? 爬蟲通過漫游的形式進行抓取,爬蟲爬到一個頁面后,看到一個鏈接,然后順著那個鏈接又爬到另一個頁面,爬蟲是不停的從一個頁面跳到另一個頁面,它一邊下載這個網(wǎng)頁,一邊提取這個網(wǎng)頁中的鏈接,那個頁面上所有的鏈接都放在一個待抓取表里,而且爬蟲有個特點,就是他在訪問你網(wǎng)站之前,不去判斷你這個網(wǎng)頁怎么樣,不對網(wǎng)頁內(nèi)容判斷就抓取,但是會有優(yōu)先級的劃分,盡可能不抓取反復(fù)內(nèi)容,盡量抓取網(wǎng)站的重要內(nèi)容(比如網(wǎng)站的公共部分)搜索引擎同時會分裂出多個爬蟲進行多線程的抓取,所有被爬蟲抓取的網(wǎng)頁將會被系統(tǒng)儲存,進行一定的分析,過濾(去重)并建立索引,以便之后的查詢和檢索。
? ? ? ? 分類:
? ? ? ? ? ? ? ? ? ?百度蜘蛛 ? ? ? ? ?baiduspider
? ? ? ? ? ? ? ? ? ?谷歌爬蟲 ? ? ? ? ?godglebot
? ? ? ? ? ? ? ? ? ?SOSO爬蟲 ? ? ? sosopider
? 4、搜索引擎入口:
? ? ? ? A)做搜索引擎優(yōu)化的第一步就是讓搜索引擎先知道你網(wǎng)站的存在
? ? ? ? B)為了達到目的,向搜索引擎提交您網(wǎng)站被認為是網(wǎng)站上線后要做的第一件事
? ? ? ? C)提交的地址就做搜索引擎提交入口
? 5、Robots
? ? ? ? A)概念
? ? ? ? ? ? ? 搜索引擎使用爬蟲程序自動訪問互聯(lián)網(wǎng)上的網(wǎng)頁并獲取網(wǎng)頁信息;爬蟲在訪問一個網(wǎng)站時,首先會檢查該網(wǎng)站的根目錄下是否有一個叫做robots.txt的純文本文件,這個文件是用于指定爬蟲在網(wǎng)站上的抓取范圍。
? ? ? ? B)robots就是一個協(xié)議
? ? ? ? ? ? ?您可以在您網(wǎng)站中創(chuàng)建一個robots.txt,在文件中聲明該網(wǎng)站不想被搜索引擎收錄的部分或者制定搜索引擎只收錄指定的部分,網(wǎng)站通過robots協(xié)議告訴搜索引擎哪些頁面可以抓取,哪些頁面不能抓取。
? ? ? ?C)用法舉例
? ? ? ? ? ? ? ? ?1.禁止所有搜索引擎訪問網(wǎng)站的任何部分
? ? ? ? ? ? ? ? ? ? ?User-agent:*
? ? ? ? ? ? ? ? ? ? ?Disallow://
? ? ? ? ? ? ? ? ? 2.允許所有robot訪問
? ? ? ? ? ? ? ? ? ? ?User-agent:*
? ? ? ? ? ? ? ? ? ? ?Allow://
? ? ? ? ? ? ? ? ? 3.僅禁止gaiduspired訪問您的網(wǎng)站
? ? ? ? ? ? ? ? ? ? ? User-agent:gaiduspider
? ? ? ? ? ? ? ? ? ? ? Disallow://
? ? ? ? ? ? ? ? ?4.工具(百度站長平臺)
? ? ? ? ? ? ? ? ? ? 百度站長平臺—網(wǎng)站分析—robots—生成robots.txt