淄博网站优化理论上Spider不论采用深度优先策略还是广度优先策略,只要时间足够,都可以把整个互 联网上的网页抓取一遍。但是搜索引擎本身的资源也是有限的,快速抓取全互联网有价值的页 面只是一种奢望而已,所以搜索引擎的Spider不是只使用一种策略无限地抓取新页面,而是采 用两种策略相结合的方式来进行抓取。一般Spider可以在域名级别的页面使用广度优先抓取策 略,尽可能地收集更多的网站。在网站内页级别一般会根据网站的权重综合使用广度和深度优 先抓取策略,也就是说网站的权重越高,抓取量也会越大,刚上线的网站可能只会被抓一个首 页。这也是很多新网站在一定时间内,在搜索引擎中只被索引首页的原因之二。
上面讨论的两个策略是站在Spider只是单纯想抓取全互联网数据的基础上,所需要选择的 策略。实际在搜索引擎中,虽然Spider在尽力保证抓取页面的全面性,但是由于自身资源有限, 所以在尽力抓取全网的同时,还要考虑对重要页面的优先抓取。这个“重要页面”的定义应该 是指在互联网中比较重要的页面,该页面内容应该具有影响力比较大、需要了解该内容的网民 比较多或时效传播性比较强的特点。体现到抓取策略上,就是这个页面的导入链接很多,或者 是权重高的大站中的网页。总结来说,就是两个策略:重要网页优先抓取策略和大站链接优先 抓取策略。