第一步:爬行
搜索引擎通过一个特定规则的软件跟踪网页的链接,从一个链接爬到另一个链接,就像蜘蛛在蜘蛛网上爬行一样,所以它被称为蜘蛛,也被称为机器人。搜索引擎蜘蛛的爬行输入了一定的规则,需要遵循一些生命或文件。
第二步:抓取存储
搜索引擎通过蜘蛛跟踪链接爬行到网页,并将爬行数据存储到原始页面数据库中。页面数据和用户浏览器获得的HTML完全一样。搜索引擎蜘蛛在抓取页面时也会做一些重复的内容测试。一旦有大量的剽窃、收集或复制内容在低重量的网站上,它很可能不会再爬行。
第三步:预处理
搜索引擎将蜘蛛抓取的页面进行各种步骤的预处理。
第四步:排名
用户在搜索框中输入关键字后,排名程序调用索引库数据,计算排名显示给用户,排名过程直接与用户互动。然而,由于搜索引擎的大量数据,虽然每天都有小的更新,但搜索引擎的排名规则通常是根据每天、每周和每月的不同范围更新的。