問:搜索引擎在高峰時(shí)段大量抓取頁(yè)面,導(dǎo)致服務(wù)器出現(xiàn)負(fù)載問題。但是我不希望屏蔽它的抓取,應(yīng)該如何處理?能否在高峰時(shí)段對(duì)spider返回 202 狀態(tài)碼,告知spider“服務(wù)器已接受請(qǐng)求,但尚未處理。”?這會(huì)對(duì)網(wǎng)站造成什么影響?
答:會(huì)延遲百度對(duì)新網(wǎng)頁(yè)的收錄速度。
正常情況下,Baiduspider的抓取頻率大致上和網(wǎng)站新資源產(chǎn)生的速度相符,并不會(huì)給網(wǎng)站帶來很大的壓力。但現(xiàn)在網(wǎng)站結(jié)構(gòu)通常都比較復(fù)雜,多種url形式指向的可能是相同的內(nèi)容,或者會(huì)自動(dòng)產(chǎn)生大量無檢索價(jià)值的網(wǎng)頁(yè)。
我們目前發(fā)現(xiàn)的問題,主要來源于此,建議先分析一下spider的抓取日志,看看是否抓取了你不希望搜索引擎收錄的形式,如果有,robots掉它們可以節(jié)省大量的資源。