通常,网站管理员会抱怨蜘蛛以304状态获取返回代码,爬行次数越来越少。搜索引擎将尽最大努力提高检索调用率、准确性和新鲜度,以满足自己的用户体验,这将导致搜索引擎不得不专注于具有高质量内容源的网站。只有这样,搜索结果的质量才能更符合搜索者的体验
因此,我们认为搜索引擎爬虫更喜欢频繁更新内容源的网站。通过对在特定时间内返回到网站的状态代码进行爬网,可以调整网站的爬网频率。如果站点在一段时间内处于304状态,引擎爬虫可能会减少其对站点的爬网次数。相反,如果网站变化很快,每个爬虫都可以得到一个新版本,爬虫的返回率会随着时间的推移而增加
无论是少还是304,这都是现象,而不是问题的原因。我们能把网站的流量增加200吗?相反,我们应该考虑生产304的原因。变更对网站目标有何影响?我们不能忽视一般目的。标签强调了过程的细节,并解决了304/200
304的状态是如何形成的
为了提高网站的访问速度,服务器为一些以前访问过的页面建立了缓存机制。当客户端在此处请求这些页面时,服务器将根据缓存的内容判断这些页面是否相同。如果页面相同,它将直接返回到304。此时,客户端调用缓存的内容,而不进行第二次调用。下载时,可以说304在一定程度上起到了减少服务器带宽和提高爬行器爬行效率的作用
304为什么会生成状态码
页面更新周期长或无更新
2。纯静态页面或强制静态HTML生成
304状态处理方法
1。首先细分生成的304页。什么样的页面返回304?如果这些页面返回304
2。这些页面是如何生成的?是否有更新机制?更新机制是否与蜘蛛爬行网站的频率一致
3。页面更新区域的位置是否合理?是否位于页面主要内容的托管区
4、304状态码过多可能导致以下问题:
停止网站快照
减少收集量
减轻重量
如何减少304返回码
首先,内容更新要迎合百度蜘蛛,分析日志,记录蜘蛛访问的时间,大致得到蜘蛛访问的频率。然后,根据以下内容更新文章:原创+复制,而不是纯粹的收藏。复制还需要新的优质资源,以便爬行器获取,这将返回200多个普通代码;其次,尝试添加一个交互式部分。现在大型网站基本上都做到了这一点,比如评论、消息等等。大型网站的更新可能变化不大,但通过这些交互,用户会发送一些内容,网站会有很多新东西。