域名預(yù)訂/競(jìng)價(jià),好“米”不錯(cuò)過(guò)
事件:
只要了解SEO的朋友都知道最近利用搜狐微博搶奪百度長(zhǎng)尾詞流量的事情。由于各種原因,蘇笛康并未攙和進(jìn)這件事。2011年6月9日,蘇笛康所在的團(tuán)隊(duì)QQ群突然轉(zhuǎn)發(fā)一個(gè)消息,稱(chēng)搜狐微博屏蔽百度蜘蛛了,并提供了一個(gè)Admin5論壇的帖子的URL。經(jīng)過(guò)分析,蘇笛康認(rèn)為,搜狐微博并未屏蔽百度蜘蛛,上述言論是對(duì)搜狐微博的Robots.txt文件誤讀引起的。
材料:
搜狐微博Robots.txt文件內(nèi)容(2011年6月9日晚):
User-agent: Baiduspider
Disallow:
User-agent: Sogou
Allow: /
User-agent: *
Disallow: /
分析:
首先,我們看搜狐微博Robots.txt第一部分,針對(duì)的是百度蜘蛛。
在百度搜索幫助中心的指南()可以找到這么一句——“Disallow:”說(shuō)明允許robot訪問(wèn)該網(wǎng)站的所有URL。
因此,第一部分的語(yǔ)句,允許百度蜘蛛抓取所有的URL。
第二部分就不用看了,界定的是搜狗搜索引擎的蜘蛛抓取權(quán)限。
最后我們看第三部分,這部分使用通配符,限定所有的搜索引擎,不允許抓取根目錄(相當(dāng)于不允許抓取任何URL)。這里我們?nèi)匀恍枰P(guān)注百度搜索幫助中心的解釋。百度官方的文件是這樣說(shuō)的——需要特別注意的是Disallow與Allow行的順序是有意義的,robot會(huì)根據(jù)第一個(gè)匹配成功的Allow或Disallow行確定是否訪問(wèn)某個(gè)URL。所以,第三部分的禁止指令,對(duì)百度蜘蛛而言,是無(wú)效的。百度蜘蛛根據(jù)第一部分的要求,可以抓取所有URL。
實(shí)測(cè):
空口無(wú)憑,我們可以實(shí)際測(cè)試一下。已知百度和Google對(duì)待Robots.txt文件的處理方式是一樣的,故而我們可以使用谷歌網(wǎng)站管理員工具中的“抓取工具的權(quán)限”功能來(lái)測(cè)試一下。
由于谷歌網(wǎng)站管理員工具只能測(cè)試已經(jīng)驗(yàn)證所有權(quán)的網(wǎng)站,我這里用自己的博客來(lái)測(cè)試。
首先在測(cè)試用的Robots.txt中填寫(xiě)如下信息:
User-agent: Googlebot
Disallow:
User-agent: Sogou
Allow: /
User-agent: *
Disallow: /
(注意,受測(cè)試環(huán)境影響,使用Googlebot代替百度蜘蛛,不過(guò)這不影響測(cè)試結(jié)果)
然后用谷歌網(wǎng)站管理員工具測(cè)試Googlebot抓取首頁(yè)()的結(jié)果,反饋如下:
第 2 行 Disallow: 允許訪問(wèn)此網(wǎng)址
檢測(cè)為目錄;具體文件可能有不同限制
實(shí)測(cè)證明,搜狐微博的Robots.txt沒(méi)有屏蔽百度蜘蛛。
經(jīng)驗(yàn):
從事SEO工作,要重視兩個(gè)東西:第一,搜索引擎官方的公開(kāi)文檔,尤其是百度和Google的正式資料,這些資料會(huì)透露很多搜索引擎對(duì)網(wǎng)頁(yè)的處理方法;第二,要重視谷歌提供的各種工具,尤其是網(wǎng)站管理員工具,可以通過(guò)這些工具進(jìn)行各種測(cè)試。
本文作者:網(wǎng)絡(luò)營(yíng)銷(xiāo)分析師蘇笛康,國(guó)內(nèi)第一批通過(guò)中國(guó)電子商務(wù)協(xié)會(huì)認(rèn)證SEO工程師。個(gè)人博客: (郵件訂閱該博客贈(zèng)送微博營(yíng)銷(xiāo)電子書(shū))。
申請(qǐng)創(chuàng)業(yè)報(bào)道,分享創(chuàng)業(yè)好點(diǎn)子。點(diǎn)擊此處,共同探討創(chuàng)業(yè)新機(jī)遇!