??
今天企业易推送网站优化就为大家分析一下蜘蛛抓取页面,存储我们网站内容之前需要做哪些数据处理,希望能帮助大家更深入的了解搜索引擎的原理。
??
百度蜘蛛在抓取网站页面后需要有一个页面数据处理的过程,一般包括:页面分割、内容质量评价、内容原创度检测、网站分类、锚文本处理、网站恶意度检测、内容布局检测、广告检测等。
百度根据这些测试结果,将大致给网站一个分类,这将涉及到网站未来的发展。
??
页面分词
??
百度首先抓取页面获取页面内容,然后对页面进行字处理,第一步是删除停止字(停止字是,甚至,甚至,mo,the,one等等)。
停止词对于网站的实际主题没有任何意义,所以百度的第一步是删除停止词。
然后根据词性标注、过滤处理、需求分析、属性标注、搜索出来等对页面进行分词处理,然后对页面进行对应。
??
内容质量测量
??
抓取页面后的内容质量评价,内容质量搜索引擎主要从内容获取、内容完整性、信息真实性和有效性几个方面进行评价,如果是搜索结果页面会添加搜索词相关性等等。
??
内容原创检测
??
内容原创性检测的原理是比较词库,词库内容是停止词类集,所以百度抓取页面后经过分词处理,得到一个词集,经过与词库比较,匹配水平越高,创意程度越低。
??
网站分类
??
百度根据页面上的语句标签、内容词聚合程度、网站结构等对网站进行分类。
对于不同类别的网站,将使用不同的算法进行索引排序。
最明显的例子是移动站和PC站的分类,两种分类算法不一致。
??
锚文本处理
??
百度会对页面锚文本进行分析和处理,网站内部的锚文本就是所谓的内链,对于内链来说要避免所有的锚文本都和链接页面一样,这显然是一个过度优化的特点。
尽量遵循自然合理的原则来构建锚文本和链接。
??
恶意网站检测
??
它将检测几种类型的恶意网站,如黑和第五网站,如BC,QP和CP,或一些跳过页面和用户不友好的页面。
百度会对这些页面进行判断,如果有任何问题,很有可能会对减权进行处罚。
??
内容布局检测
??
内容布局检测主要针对网站内容结构、关键词布局等方面,合理的内容布局就相当于房子的地基,房子的地基越稳固,就能建得越高。
??
广告检测
??
广告检测很大程度上主要是针对用户体验服务的,如果网站比较大,主要内容广告很多,那么用户体验自然是不友好的,百度就会识别出这样的网站进行处理。
??
SEO风险规避
??
SEO要做的就是避免百度蜘蛛抓取发现的风险,这甚至是网站优化调整的很大一部分,而且很多都应该在网站上线之前就做好。