當(dāng)前位置:首頁(yè) >  站長(zhǎng) >  搜索優(yōu)化 >  正文

「案例解讀」解決網(wǎng)站不收錄的必備思路

 2019-03-11 16:02  來(lái)源: A5專(zhuān)欄   我來(lái)投稿 撤稿糾錯(cuò)

  域名預(yù)訂/競(jìng)價(jià),好“米”不錯(cuò)過(guò)

網(wǎng)站不收錄可謂說(shuō)是老生常談了,太多SEO從業(yè)者有遇到這樣的問(wèn)題而無(wú)從下手,導(dǎo)致苦惱萬(wàn)分。我們解決網(wǎng)站不收錄的問(wèn)題前,應(yīng)該思考一個(gè)問(wèn)題:“讓網(wǎng)站收錄的影響因素都有哪些呢?”,先弄明白這件事情,然后再去解決收錄的問(wèn)題就會(huì)變得很有頭緒。

下面我以一個(gè)案例的形式針對(duì)性的描述下如果一步一步解決網(wǎng)站不收錄。

我在剛加入環(huán)球網(wǎng)校的時(shí)候,他們的網(wǎng)站已經(jīng)將近1年的時(shí)間在百度的收錄少之又少。在我去應(yīng)聘的時(shí)候,CEO知道我在SEO方面有些能力,就令我盡快解決網(wǎng)站不收錄的問(wèn)題。

首先,我只是聽(tīng)到公司的人和我說(shuō)這個(gè)網(wǎng)站不收錄,那到底是哪里不收錄、怎么不收錄我完全不清楚,所以我開(kāi)始了數(shù)據(jù)整理和問(wèn)題排查的工作。

將網(wǎng)站按照類(lèi)型做分類(lèi),分為了頻道頁(yè)、列表頁(yè)、專(zhuān)題頁(yè)、聚合頁(yè)以及新聞頁(yè)5類(lèi)。然后核技術(shù)溝通將這5類(lèi)URL全部導(dǎo)出給我(新聞頁(yè),由于很多考試相關(guān)的新聞具有時(shí)效性,所以我只導(dǎo)出了30天的數(shù)據(jù)),然后我按照不同的分類(lèi)開(kāi)始收錄查詢(xún)工作。最后收錄查詢(xún)的結(jié)果如下:

如上圖,我發(fā)現(xiàn)公司人員和我反饋的網(wǎng)站不收錄,具體的問(wèn)題是在新聞頁(yè)。而環(huán)球網(wǎng)校的新聞是面向考試的信息發(fā)布、資料發(fā)布等。是具有一定時(shí)效性的文章,按理說(shuō)這么大的網(wǎng)站應(yīng)該秒收才對(duì)。

于是,我和相關(guān)人員要了網(wǎng)站最近7天的網(wǎng)站日志,技術(shù)給我的是原始的網(wǎng)站日志,既包含了爬蟲(chóng)數(shù)據(jù)也包含了用戶(hù)數(shù)據(jù)等等,沒(méi)辦法,只能自己清洗一下這些數(shù)據(jù)了。

SEO清洗網(wǎng)站爬蟲(chóng)日志的流程

1、我先按照user-agent包含baiduspider的進(jìn)行過(guò)濾,只保留包含baiduspider的數(shù)據(jù),這樣我就擁有了百度爬蟲(chóng)的數(shù)據(jù);

2、但百度爬蟲(chóng)數(shù)據(jù)中,也有很多假爬蟲(chóng),按照ip反查的思路,我先把所有baiduspider的ip地址拿下來(lái),然后去重;

3、得到600多個(gè)不重復(fù)的唯一ip地址。我對(duì)這些ip地址通過(guò)程序批量識(shí)別真假爬蟲(chóng),最后是真爬蟲(chóng)的ip地址有82個(gè);

4、我再在第一步的所有爬蟲(chóng)數(shù)據(jù)中進(jìn)行過(guò)濾,只保留ip地址為真的百度爬蟲(chóng)的這82個(gè)。最后得到的數(shù)據(jù)就是真的爬蟲(chóng)數(shù)據(jù)了;

5、我將最近7天內(nèi)發(fā)布的url在這個(gè)清洗后的日志中進(jìn)行查詢(xún),最后發(fā)現(xiàn)所有的新頁(yè)面在發(fā)布后的1分鐘內(nèi)爬蟲(chóng)都有抓取,可想抓取是多么的及時(shí),并且在第二天、第三天都還會(huì)有對(duì)這篇文章的抓取。

最終我看到爬蟲(chóng)抓取的行為數(shù)據(jù)表現(xiàn)很好,應(yīng)該不是抓取上出了問(wèn)題。

然而,在我分析日志之前,也和技術(shù)、產(chǎn)品、運(yùn)維同步了一個(gè)需求,我需要1年前網(wǎng)站突然開(kāi)始不收錄那個(gè)大概時(shí)間節(jié)點(diǎn)他們各部門(mén)都做了什么改動(dòng)。就在我分析完日志的晚上,技術(shù)老大找到我說(shuō),他想起來(lái)當(dāng)年是因?yàn)榫W(wǎng)站被攻擊,大量注入了很多的垃圾數(shù)據(jù)后,網(wǎng)站收錄才出現(xiàn)異常的。

我可能知道問(wèn)題就出在這里,但為了更全面的考究問(wèn)題,我還是讓他們按規(guī)定把之前做的一些改動(dòng)同步給我。

第二天早上我就開(kāi)始圍繞網(wǎng)站被攻擊的問(wèn)題與技術(shù)進(jìn)行了徹底的排查,看網(wǎng)站之前被注入的垃圾信息有沒(méi)有清除干凈。最后確認(rèn)垃圾信息早就徹底清除了,且正確返回了404狀態(tài)碼和404錯(cuò)誤頁(yè)面。

然后我懷疑是不是百度沒(méi)有修正我們的狀態(tài),被攻擊的時(shí)候開(kāi)始不收錄正常,畢竟檢測(cè)到了我們網(wǎng)站的風(fēng)險(xiǎn),那時(shí)隔一年還是如此,一定是百度的問(wèn)題。我通過(guò)百度的反饋中心詳細(xì)的說(shuō)明了問(wèn)題的始末,然后百度的技術(shù)也在一直排查,我等了有一周時(shí)間沒(méi)見(jiàn)回復(fù),其他部門(mén)也把之前的一些調(diào)整和改動(dòng)都給我了,我也確認(rèn)那時(shí)大家的做法沒(méi)有問(wèn)題。

于是,我主動(dòng)聯(lián)系了百度站長(zhǎng)平臺(tái)的朋友,希望他們能夠盡快處理,查明問(wèn)題。

可最后我得到的結(jié)論是百度也沒(méi)發(fā)現(xiàn)什么問(wèn)題,據(jù)說(shuō)幾個(gè)部門(mén)的技術(shù)針對(duì)我的問(wèn)題還各自篩查一遍,沒(méi)找到問(wèn)題。好吧,百度的兄弟已經(jīng)給足了面子,能這么幫咱跟進(jìn)需求很到位了。還是靠自己,這畢竟是我入職CEO的第一個(gè)托付,一定要搞定。

我也找了我們的編輯,詢(xún)問(wèn)并且檢查文章本身的質(zhì)量問(wèn)題,大家和幾年前一樣,一直按部就班的發(fā)著信息,沒(méi)什么變化。及時(shí)性、可讀性、需求滿(mǎn)足度都可以保證。具體是哪出了問(wèn)題呢?

我思前想后,會(huì)想到問(wèn)題的本質(zhì)是開(kāi)始于網(wǎng)站被攻擊開(kāi)始的,那如果真的是百度沒(méi)反應(yīng)過(guò)來(lái)的話(huà),我就要讓百度重新對(duì)我的新聞頁(yè)進(jìn)行計(jì)算,以重新評(píng)估這類(lèi)頁(yè)面。于是我有了對(duì)新聞頁(yè)改版的念頭。

開(kāi)始與產(chǎn)品溝通,但他們忙,無(wú)奈下,我獨(dú)挑大梁,自己畫(huà)原型開(kāi)干了。

通過(guò)對(duì)頁(yè)面的重新設(shè)計(jì)、豐富了內(nèi)鏈的鏈接策略,也增加了很多廣告自定義的場(chǎng)景。通過(guò)20多天的努力,新的頁(yè)面上線(xiàn)了。

由于網(wǎng)站每天發(fā)布的新聞很多,大約在幾百條,所以我寫(xiě)了一個(gè)收錄查詢(xún)的程序,每天這個(gè)程序都會(huì)自動(dòng)幫我查收錄,然后以excel附件的形式發(fā)到我的郵箱,我進(jìn)行查看。

就在新版的新聞頁(yè)上線(xiàn)的第4天,收錄率從之前每天的1~5個(gè),突然有100多個(gè)了,收錄率之前都是零點(diǎn)零幾,現(xiàn)在有40%多了,又過(guò)一天82%,再過(guò)一天79%,又過(guò)一天85%,就這樣80%上下持續(xù)了一周的時(shí)間,到了下周突然達(dá)到了97%,而且是秒收的。然后中間也有個(gè)別的天是浮動(dòng)的。但整體都在95%上下。

到這,我認(rèn)為收錄問(wèn)題徹底解決了,很多編輯的同事也早就知道了這個(gè)事情?,F(xiàn)在幾年過(guò)去了,我策劃的新聞頁(yè)仍在,且收錄情況一直良好。

下圖是我剛查詢(xún)環(huán)球網(wǎng)校最近一天的收錄情況:

時(shí)間上有10分鐘前、15分鐘的。由于你也想查一下的話(huà),而且整體數(shù)量也在幾百條的數(shù)量上。

那我們來(lái)總結(jié)一下當(dāng)網(wǎng)站不收錄后的解決這個(gè)問(wèn)題的思路:

1、鎖定網(wǎng)站不收錄的是哪類(lèi)型的頁(yè)面,就像案例所說(shuō),最終我鎖定到了新聞頁(yè);

2、思考網(wǎng)站不收錄的這個(gè)時(shí)間點(diǎn)內(nèi),對(duì)網(wǎng)站有改動(dòng)權(quán)限的人都做了什么,這些改動(dòng)會(huì)不會(huì)是網(wǎng)站不收錄的原因;

3、分析網(wǎng)站的日志,看不收錄的那個(gè)網(wǎng)站類(lèi)目是不是有抓取,沒(méi)抓取就是抓取問(wèn)題,有抓取就不存在問(wèn)題;

4、當(dāng)網(wǎng)站改動(dòng)上沒(méi)問(wèn)題,抓取沒(méi)問(wèn)題。就在站長(zhǎng)工具反饋中進(jìn)行詳細(xì)的反饋;

5、反饋的同時(shí)也可以對(duì)該類(lèi)型的模版頁(yè)面進(jìn)行適當(dāng)?shù)恼{(diào)整,例如增加鏈接入口、增加網(wǎng)頁(yè)豐富度,新聞頁(yè)提高原創(chuàng)比例,文章內(nèi)容的質(zhì)量程度。

6、要是還不能收錄的話(huà),就對(duì)當(dāng)前類(lèi)型的模版頁(yè)面進(jìn)行大改版,重構(gòu)頁(yè)面進(jìn)行嘗試。

我從業(yè)的公司以及幫助一個(gè)企業(yè)解決網(wǎng)站不收錄問(wèn)題不下15個(gè)了,一直沿用這套思路,本文案例網(wǎng)址:(www.hqwx.com)

申請(qǐng)創(chuàng)業(yè)報(bào)道,分享創(chuàng)業(yè)好點(diǎn)子。點(diǎn)擊此處,共同探討創(chuàng)業(yè)新機(jī)遇!

相關(guān)文章

熱門(mén)排行

信息推薦