搜索引擎工作原理之蜘蛛如何爬行和抓取网页

标签：搜索引擎工作原理 | 作者：众腾网络 | VISITORS:3435 | 来源：www.zt-web.com

SEP
2015

搜索引擎工作的流程是非常复杂的，今天桂林众腾网络介绍在蜘蛛在对网页进行爬行和抓取过程中，对我们网站优化有重要影响的几个部分。

当搜索引擎蜘蛛准备爬行某个网页的时候，会对服务器发出访问申请，申请通过后，搜索引擎会先去爬行网站的robots.txt文件，针对robots.txt文件中所禁止搜索引擎抓取的部分，搜索引擎将不会去抓取。接着服务器就会给搜索引擎返回当前页面的html代码，现在有很多的站长工具中都会有模仿蜘蛛抓取网页代码的功能，大家有兴趣可以去查询，这里值得注意的就是页面代码中汉字所占的比例，因为搜索引擎在预处理阶段会把汉字部分筛选出来分析网页的内容和关键词，汉字所占比例越多说明网页返回的有效信息越多，越有利于搜索引擎对页面的分析。这也就是为什么大家在编写网站代码的时候，会对CSS和Javascript代码进行外部调用，对图片要添加alt属性，对链接要添加title属性的缘故，都是为了降低页面代码所占的比例，提高文字所占比例，当然相关性也是一方面。

搜索引擎爬行网页都是沿着链接进行爬行的，在爬行网页的时候并不是一个蜘蛛在爬行，一般都是由多个蜘蛛进行爬行，爬行的方式有两种，一种是深度爬行，一种是广度爬行，两种方式都可以爬遍一个网站的所有链接，通常都是两种方式并行的，但实际上由于资源的限制，搜索引擎并不会爬遍一个网站的所有链接。

既然搜索引擎不可能爬遍整个网站的所有链接，那么我们seoer接下来的工作就是要吸引蜘蛛尽可能多的去爬行网站链接，为蜘蛛的爬行创造轻松便利的环境，尤其是针对一些重要的链接。

如何去吸引蜘蛛呢？影响蜘蛛爬行的因素有哪些呢？

1.网站的权重。一个权重高的网站，蜘蛛往往会爬行的很深，关于如何提高网站的权重，大家可以去参考狄吉堂网站seo博客中的影响网站权重计算的因素有哪些和如何提高网站权重的五种方式两篇文章。

2.页面是否经常更新。这是一个老生常谈的问题了，虽然网站的更新和维护工作异常的辛苦，但是没办法，人家搜索引擎就喜欢新鲜的血液，如果网站的更新比较勤快的话，搜索引擎自然来的也勤快，来的多了，新链接被抓取的几率当然也就大了。

3.高质量导入链接。一个页面的导入链接相当于页面的入口，原理很简单，导入链接多了，搜索引擎进入你网页的渠道也就多了，如果是一条高质量的导入链接，那么搜索引擎对网页链接爬行的深度也会增加。

4.与首页距离越近的链接，被爬行的几率越大。一个网站的首页是权重最高的，那么距离它越近的页面，被赋予的权重也会越高，被蜘蛛爬行的几率当然越大，这是网站seo优化中常用到的一个就近原理，可以应用到很多方面，比如网站的主导航中第一个栏目比最后一个栏目的权重高，距离锚文本越近的文字是搜索引擎重点照顾的地方等等。

当搜索引擎对页面进行抓取之后，会将页面中的链接解析出来，通过与地址库中的链接进行匹配对比分析，将没有进行爬行的新链接放入到待访问地址库，然后派出蜘蛛对新链接进行爬行。

在搜索引擎对网页进行爬行和抓取的时候，并不是进行简单的爬行和抓取工作，而是同时并发有大量的其他操作，其中很重的一项工作就是对网页内容进行检测，通过截取网页上的内容与数据库中的信息做对比，如果是一些权重比较低的网站出现大量转载或者伪原创，可能蜘蛛爬行到一半就会离开，这也就是为什么通过网站日志看到有蜘蛛来，但是页面没被收录的原因。所以说，即使是进行伪原创，也是需要一定的技巧的，除非你的网站权重特别高。

转载声明：本文由桂林众腾网络原创文章
转载请注明来源： http://zt-web.com/shows.php?id=519

上一篇：思考这几个问题，网站离赚钱就不远了

搜索引擎工作原理之网页关键词排名机制：下一篇