加入收藏 | 设为首页 | 会员中心 | 我要投稿 汽车网 (https://www.0577qiche.cn/)- 科技、建站、经验、云计算、5G、大数据,站长网!
当前位置: 首页 > 运营中心 > 搜索优化 > 正文

浅谈百度爬虫的HTTP状态码重返机制

发布时间:2023-03-27 13:56:21 所属栏目:搜索优化 来源:
导读:相信研究seo的一定能够很清楚的了解下面这些关键词返回链接码的含义了,对于这些不是很熟悉的朋友也应该了解一下基本的比如200是请求成功,301重定向,404找不到等等。下面首先会介绍一下百度对于各个状态吗的处理逻
相信研究seo的一定能够很清楚的了解下面这些关键词返回链接码的含义了,对于这些不是很熟悉的朋友也应该了解一下基本的比如200是请求成功,301重定向,404找不到等等。下面首先会介绍一下百度对于各个状态吗的处理逻辑。

百度 spider 对常用的 http 返回码的处理逻辑是这样的 :

301 301返回码的含义是“Moved Permanently”,百度会认为 网页当前跳转至新url。当遇到站点迁移,域名更换、站点改版的情况时,推荐使用301返回码,尽量减少改版带来的流量损 失。虽然百度spider现在对301跳转的响应周期较长,但我们 还是推荐大家这么做。

404 404返回码的含义是“NOT FOUND”,百度会认为网页已经失效,那么通常软件会从我们的搜索结果中删除,并且短期内spider再次发现这条url也不会抓取。

503 503返回码的含义是“Service Unavailable”,百度会认为该网页临时不可访问,通常网站临时关闭,带宽有限等会产生这种情况。对于网页返回503,百度spider不会把这条url直接删除,短期内会再访问。届时如果网页已恢复,则正常抓取;如果继续返回503,短期内还会反复访问几次。但是如果网页长期返回503,那么这个url仍会被百度认为是失效链接,从搜索结果中删除。

如果站点临时关闭,当网页不能打开时,不要立即返回404,建议使用503状态。503可以告知百度spider该页面临时不可访问,这个时候请停下来过段时间再打开重试。

有一些网站希望百度只收录部分内容,例如审核后的内容,累积一段时间的新用户页等等。在这种情况,建议新发内容暂时返回403,等审核或做好其他方面的处理之后
,再返回正常状态的返回码。这样就可以避免出现重复计算的情况。

(编辑:汽车网)

【声明】本站内容均来自网络,其相关言论仅代表作者个人观点,不代表本站立场。若无意侵犯到您的权利,请及时与联系站长删除相关内容!

    推荐文章