如何改进你的网站,以应对 404 错误页面对优化造成的障碍
发布时间:2023-11-14 09:51:45 所属栏目:搜索优化 来源:
导读:Http404或notfound错误消息是HTTP的“标准响应信息”(HTTP状态码)之一,这意味着客户端浏览网页时服务器无法正常提供信息,或者服务器无故无法响应。
百度站长工具有一个抓取异常,那么这个工具是如何
百度站长工具有一个抓取异常,那么这个工具是如何
|
Http404或notfound错误消息是HTTP的“标准响应信息”(HTTP状态码)之一,这意味着客户端浏览网页时服务器无法正常提供信息,或者服务器无故无法响应。 百度站长工具有一个抓取异常,那么这个工具是如何产生异常数据的呢? 由于服务器、空间或程序问题,网站暂时无法访问,导致大量服务器错误页面,返回代码为500。 当单个爬虫程序提取页面URL时,它们只提取URL的一部分或正常URL之后的文本或字符。 在网站修改过程中,未经301跳转到相应页面直接删除旧页面,或301跳转后部分旧页面无法访问。 网页异常中的许多错误页都是由程序员的疏忽或我们的程序问题引起的。它们应该是普通的页面,因为由于错误而无法访问。对于这样的页面,请尽快修复。 但是必须有许多错误的页面不应该存在,所以我们需要找到一种方法来获取这些页面的URL,主要有以下三种方式: (1) 百度站长工具-抓取异常-页面未找到-复制数据[修复:这里不需要提交死链,百度站长工具自动提交死链]; (2) 删除页面时,管理员手动或自动保存被删除页面的URL; (3) 使用相关的爬虫软件对整个站点进行爬虫,获得死链,如Xenu。 如果大量错误的url具有某些规则,则可以在robots文件中编写规则,以防止爬行器获取此类链接,但前提是要妥善处理正常页面,避免阻止规则损坏正常页面。 将规则添加到robots文件后,必须到百度站长的robots工具进行验证,将指定的错误页面放入,查看拦截是否成功,然后将正常页面放入,查看是否被错误拦截。 相关注意事项: 1、在百度站长工具中提交死链接之前,请确保提交的死链接数据中没有活链接。一旦有一个活动链,它将显示提交失败,无法删除。 2、由于很多网站程序问题,很多无法打开的页面返回码都不是404,这是一个很大的问题。例如,无法打开的页的返回码是301、200、500。如果他们是200,不同的网址将出现在网站上,以获得相同的内容。例如,在我的一个网站上,社区帖子被删除后,返回代码实际上是500。后来,我发现了,立即处理。我们尝试从里到外地找出发生所有类似的错误的URL格式,并将HTTP请求的状态代码错误地设置为404。 3、机器人只能解决蜘蛛不再抓取此类页面的问题,但不能解决删除包含页面的快照的问题。如果你的网站是黑色的,并且黑色页面被删除,除了被人工智能机器人禁止的黑色垃圾邮件页面外,这些非法页面也可以或者应该不能再提交到人工智能的死链。 (编辑:汽车网) 【声明】本站内容均来自网络,其相关言论仅代表作者个人观点,不代表本站立场。若无意侵犯到您的权利,请及时与联系站长删除相关内容! |
推荐文章
站长推荐
