當前位置:首頁 >  站長 >  搜索優(yōu)化 >  正文

爬蟲有哪些分類?白話說說SEO好朋友爬蟲

 2022-04-02 17:59  來源: A5專欄   我來投稿 撤稿糾錯

  域名預訂/競價,好“米”不錯過

本文大綱:

1、爬蟲是什么?反爬蟲又是什么?

2、爬蟲有哪些分類?

3、爬中流程與搜索引擎工作流程

4、http/https協(xié)議與狀態(tài)碼

5、robots協(xié)議

爬蟲是什么?反爬蟲又是什么?

這里的爬蟲不是我們生活中的爬蟲,如蜘蛛。這里的爬蟲更多指的是網(wǎng)絡(luò)爬蟲,即我們叫它網(wǎng)頁蜘蛛或網(wǎng)絡(luò)機器人。當然,在SEO里,叫網(wǎng)頁蜘蛛更多。

網(wǎng)絡(luò)爬蟲,是一種按照一定規(guī)則,自動地抓取互聯(lián)網(wǎng)上的信息的一種程序。他有一個英文名叫spider,比如百度網(wǎng)頁蜘蛛就叫baiduspider,那搜狗的就叫Sogou spider。

這也是我們SEO人員做網(wǎng)站優(yōu)化排名會聽說的一個詞。網(wǎng)站為啥沒收錄呢?原來蜘蛛沒來抓?。∪绾慰催@個爬蟲蜘蛛朋友來沒來呢,讓技術(shù)把網(wǎng)站日志下載給我們,我們就可以判斷了,你說算不算好朋友?

百度爬蟲是什么?Baiduspider是啥?

Baiduspider是百度搜索引擎的一個自動程序,它的作用是訪問互聯(lián)網(wǎng)上的網(wǎng)頁,建立索引數(shù)據(jù)庫,使用戶能在百度搜索引擎中搜索到網(wǎng)站上的網(wǎng)頁。百度還有哪些蜘蛛呢?如下圖。最多是圈中這個,記得哈~

圖片

反爬蟲是什么?

我們以門戶網(wǎng)站舉例,企業(yè)網(wǎng)站也同理哈。門戶網(wǎng)站通過相應(yīng)的策略和技術(shù)手段,防止爬蟲程序進行網(wǎng)站數(shù)據(jù)的爬取,這就叫反爬蟲。

當然,其實還有反反爬蟲,即爬蟲程序通過相應(yīng)的策略和技術(shù)手段,破解了門戶網(wǎng)站的反爬蟲手段,從而爬取到相應(yīng)的數(shù)據(jù),這就叫反反爬蟲。

再白話舉例:你要來采集我的內(nèi)容(爬蟲),我不給你采并且我做防采集(反爬蟲)。你呢,又搞了更高技術(shù)把我防采集攻破了采集(反反爬蟲),這樣理解了吧?

爬蟲有哪些分類?

爬蟲總共就分兩類:通用爬蟲與聚焦爬蟲。

通用爬蟲:簡單說就是盡可能的把網(wǎng)上的所有的網(wǎng)頁下載下來,放到服務(wù)器里再對這些網(wǎng)頁做相關(guān)處理,最后給用戶搜索用,通常指的搜索引擎爬蟲。比如:谷歌爬蟲、百度爬蟲、搜狗爬蟲、360爬蟲等。

聚焦爬蟲:它是根據(jù)指定的需求抓取網(wǎng)絡(luò)上指定網(wǎng)站的數(shù)據(jù)。比如:獲取知乎問答上的某一問題的瀏覽量和回答人數(shù),而不是獲取整個頁面中所有數(shù)據(jù)。它也可以理解叫特定爬蟲。

上面提到的反爬蟲與反反爬蟲,基本上都是在反這種聚焦爬蟲哈,你也可以理解為爬蟲攻防戰(zhàn)哈哈哈。

爬中流程與搜索引擎工作流程

爬蟲一般工作流程:確定某個URL——發(fā)送請求——響應(yīng)內(nèi)容——提取數(shù)據(jù)——保存數(shù)據(jù)。

搜索引擎蜘蛛工作流程:爬取網(wǎng)頁——存儲數(shù)據(jù)——數(shù)據(jù)預處理——提供用戶搜索網(wǎng)頁排名。

是不是感覺難理解?發(fā)送請求是什么,響應(yīng)內(nèi)容又是什么?這個往下看HTTP協(xié)議與狀態(tài)看完你就懂了。

關(guān)于搜索引擎數(shù)據(jù)預處理在處理什么,怎么理解?看公眾號白楊SEO兩年前寫過這篇《白楊SEO:大白話告訴你理解搜索引擎工作原理的意義和運用》,看完你就懂了。

http/https協(xié)議與狀態(tài)碼

HTTP協(xié)議是指Hyper Text Transfer Protocol(超文本傳輸協(xié)議)的縮寫,是用于從萬維網(wǎng) WWW(World Wide Web縮寫)服務(wù)器傳輸超文本到本地瀏覽器的傳送協(xié)議。默認端口號:80。

而HTTPS (Secure Hypertext Transfer Protocol)安全超文本傳輸協(xié)議指的是HTTPS是在HTTP上建立SSL加密層,并對傳輸數(shù)據(jù)進行加密,是HTTP協(xié)議的安全版。默認端口號:443。

你是不是理解不了這個HTTP到底什么東東?簡單白話來說這個就是用來傳輸和接收頁面的,保證你的電腦能快速傳輸文本文檔并且讓你看到哈。

至于HTTP的請求頭,響應(yīng)頭,都是各種代碼,白楊SEO就不在這里寫了,如果你要真的想了解,自己去搜索,這里只講一下我們SEO中會看到的HTTP請求響應(yīng)狀態(tài)碼,一般狀態(tài)碼如下:

圖片

上面只要是2或者3開頭都是好的,比如查白楊SEO博客的:

圖片

圖片

輸入http://www.baiyangseo.com返回是301,而輸入https://www.baiyangseo.com 返回的是200正常的你知道為什么嗎?

其實,這在SEO里來說,是因為兩個不同URL內(nèi)容是一模一樣,為了讓搜索引擎避免認為作弊,所以做了301永久重定向。簡單理解,你用不帶s的HTTP那個域名打開就是這個帶的了哈。

關(guān)于這個狀態(tài)碼,如果你想學習了解更深入一點,同樣可以白楊SEO公眾號上這篇:《白楊SEO:SEO入門學習之搜索引擎蜘蛛與網(wǎng)站HTTP狀態(tài)碼》

robots協(xié)議

最后,來到針對搜索引擎網(wǎng)頁蜘蛛robots協(xié)議了。這個如果你是學SEO的,肯定要學的。

robots協(xié)議是什么?簡單理解就是網(wǎng)站通過Robots協(xié)議告訴搜索引擎,網(wǎng)站上哪些頁面可以抓取,那些頁面不能抓??!但是,它僅僅是互聯(lián)網(wǎng)中的一種約定而已。所以有些人說我明明禁止XXX蜘蛛還是被抓取了哈哈哈。

它長啥樣?到底有什么用?

圖片

長啥樣,如上圖,作用就是上面說的,在SEO里就是告訴蜘蛛來爬我這里,一般每個站都會做這個,因為蜘蛛首先要爬取一個頁面這個地方是最先爬取的,也會反復爬取。

不要問我為啥要給蜘蛛爬取,你做一個網(wǎng)站目的是啥,不就是要讓蜘蛛爬取然后用戶搜索的時候看到你帶來流量嗎?當然,你說我做網(wǎng)站只是用來存儲我自己看除外哈哈哈。

作者簡介:

白楊SEO,專注SEO研究十年,SEO、流量實戰(zhàn)派,對互聯(lián)網(wǎng)精準流量有深入研究。個人微信:baiyang2047

申請創(chuàng)業(yè)報道,分享創(chuàng)業(yè)好點子。點擊此處,共同探討創(chuàng)業(yè)新機遇!

相關(guān)標簽
百度爬蟲

相關(guān)文章

  • 淺談百度爬蟲的HTTP狀態(tài)碼返回機制

    HTTP狀態(tài)碼我們都很熟悉,SEO工作中我們也需要迎合百度蜘蛛對常見的HTTP返回碼來做相關(guān)調(diào)整,下面我們就來淺談百度爬蟲的HTTP狀態(tài)碼返回機制

  • 百度爬蟲是什么

    百度爬蟲是一種網(wǎng)絡(luò)機器人,它可以根據(jù)一定的規(guī)則,在各個網(wǎng)站爬行,對訪問過的網(wǎng)頁、圖片、視頻等內(nèi)容進行收集整理,分類建立數(shù)據(jù)庫,呈現(xiàn)在搜索引擎上,讓用戶通過搜索某些關(guān)鍵字,就可以看到企業(yè)網(wǎng)站的網(wǎng)頁、圖片、視頻等。

    標簽:
    百度爬蟲
  • 百度蜘蛛爬蟲的工作原理

    百度是中國目前的第一大搜索引擎,擁有完善的一套爬蟲算法,了解百度蜘蛛的爬蟲原理,對我們SEO優(yōu)化工作有著舉足輕重的作用。我們可以從下面這張圖片來詳細了解百度蜘蛛爬取網(wǎng)頁的一整套流程和體系

  • 影響百度爬蟲對網(wǎng)站抓取量的因素

    影響百度爬蟲對網(wǎng)站抓取量的因素有哪些?

    標簽:
    爬蟲
    百度爬蟲
  • 哪些網(wǎng)站優(yōu)化的細節(jié)會影響百度爬蟲的抓取

    大多站長都知道百度爬蟲的重要性,一般你的網(wǎng)頁參與排名要分四個步驟,分別是抓取、收錄、索引、展現(xiàn),其中抓取是我們站長做SEO網(wǎng)站優(yōu)化的第一步,那么問題來了,濟南SEO培訓告訴你站長做SEO的哪些操作會影響到濟南seo網(wǎng)站優(yōu)化百度蜘蛛的抓取呢哪些網(wǎng)站優(yōu)化的細節(jié)會影響百度爬蟲的抓取看看你的IP上有沒有大站

    標簽:
    百度爬蟲

熱門排行

信息推薦