分析网站内容处理和索引的原理，以及搜索引擎的爬行和爬行规则_搜索引擎,搜索引擎原理,索引,网站分析,分词

当网站内容被搜索引擎蜘蛛爬行和捕获时，网站捕获的内容将被特殊筛选，称为索引，主要处理方法包括提取文本、中文单词、停止单词、重量、正索引、倒排索引、链接关系计算等。

一、搜索引擎建立索引库的原理

一般来说，搜索引擎捕获的原始页面不直接参与排名和处理，因为搜索引擎数据库中有成千上万的内容。输入关键词后，我们的用户需要搜索引擎根据排名顺序逐一分析相关页面，几秒钟内无法回复，因此，搜索引擎通常会调查捕获的页面，建立相应的索引库，为用户在查询结果时做好准备。

二、采用提取文字的方法，逐个排查文字内容

目前，搜索引擎主要基于文本内容，在蜘蛛抓取网站页面html在代码中，用户不仅可以在浏览器上看到文，还包含了大量的文本html标签、java程序和其他无法参与排名的相关内容。因此，搜索引擎需要从预处理开始html删除文件中的标签和程序，提取可以参与网页排名的文本内容。

三、利用中文分词法处理文章段落问题

在我们的中文搜索引擎中，特殊的处理步骤是中文单词，因为中文单词和单词之间没有分离符，每个句子中的所有单词都连接在一起，我们的搜索引擎需要识别这些单词是一个单词，这些单词本身是一个单词或句子。其中，中文单词分割法有两种方法，一种是词典匹配法，另一种是统计法。

词典匹配法是指将等待分析的文本与事先词典库中现成的条目进行匹配，然后在等待分析的汉字中成功扫描条目匹配。

相比之下，统计方法的优点是对新词的处理反应相对较快，便于消除每个词之间的歧义。事实上，搜索引擎分词的方式主要取决于词库的规模，无论分词算法的好坏。seo从业人员能做的就是在页面上用特殊的方式提醒搜索引擎做某个指令而已，例如，某个字是否与某个词关联或者产生企业的时候，我们都可以人工提示搜索引擎。

分析网站内容处理和索引的原理，以及搜索引擎的爬行和爬行规则(图1)