前面我们众腾网络分享了《搜索引擎工作原理之预处理和索引与链接关系的计算》,当搜索引擎蜘蛛爬行和抓取网页之后,会对得到的网页进行一系列的预处理,最后得到关于网页的反向索引集合,这时搜索引擎就可以根据用户输入的搜索词对网页做出排名了。
当然,从用户输入搜索词到搜索引擎展示出相关的网页排名结果,中间还要经过相当复杂的计算过程!
搜索引擎会对用户输入的搜索词进行分词处理和去噪,如果对分词处理和去噪还不是很了解的小伙伴,大家可以到《参考搜索引擎工作原理:预处理这篇文章》,这里就不多做介绍了,当搜索引擎分词和去噪完毕之后,会得到几个关键词,然后按照这几个关键词的逻辑“与”关系到反向索引集合中去进行匹配,比如网友输入“桂林网站建设”最后会被搜索引擎分词成“桂林”,“网站”,“建设”这三个关键词,然后再去爬行和抓取的网页反向索引库中查找同时包含这三个关键词的页面,因为这样得到的网页相关性更高。
当搜索引擎得到这些网页之后会发现,这些网页的数量是相当庞大的,而用于展示在用户面前的搜索结果页面不超过1000个,百度也只展示了760个页面,所以搜索引擎会对这些页面进行相关性之外的计算,其中影响较大的一个因素就是网页的权重,根据网页权重的高低排序会筛选出一批页面,至于筛选出多少页面,这里不得而知,但肯定大于1000个页面。
在选出这些权重较高相关性较强的页面之后,接下来搜索引擎会对这些页面进行更加细微的相关性计算,这个过程也是我们seoer更为关心的一个过程,因为这个过程中的很多因素是我们这些seoer可以控制的。
关键词的常见指数,比如用户搜索“桂林旅游”,经过搜索引擎分词可以分成“桂林”,“旅游”,我们可以很明显的看出“旅游”这个词在我们生活中经常会出现,而“桂林”就出现的比较少了,针对都包含“桂林”和“旅游”关键词的两个页面,显然在标题中出现关键词“桂林”比内容中出现“桂林”的相关性更强。
关键词的频率及密度,这个比较好理解,如果关键词在页面中的出现的频率很高,密度也很大(这里不考虑关键词的堆砌),那么这个页面和这个关键词的相关性很强。
关键词的位置和表现形式,就像在上面说的搜索引擎工作原理:索引与链接关系的计算这篇文章中提到的,关键词的位置和表现形式都会被列入相关性计算中,比如一些标题标签的使用,文字加粗和颜色变化,H1标签等。
关键词是否完整匹配,如果关键词能够完整匹配用户的搜索词,则相关性高,即使没能完整匹配,但是关键词之间距离很短,这样也会被认为相关性较高。
锚文本和权重,页面的权重对关键词的相关性影响非常大,而锚文本的重要性与页面的权重几乎相当,如果锚文本的锚点采用的是用户搜索的关键词,那么这个锚文本会给这个关键词带来很大的链接权重,包括锚文本周围的文字也需要重点布局。
经过以上这些关于页面与关键词之间相关性计算之后,网页的排名结果页就浮出水面了,接下来的工作就是搜索引擎调用页面的标题,页面描述,网址,快照等数据显示在搜索结果页面中。
我们通过几篇文章介绍了搜索引擎的工作原理,要想做好网站优化,理解搜索引擎的工作原理还是非常重要的,这样我们的优化才会更有目的性,希望能对大家有所帮助!