搜索引擎蜘蛛的工作过程
搜索器在工作过程中主要需考虑以下几个问题:
(1)Web信息的选择
在大多数情况下,搜索器不可能搜集所有Web信息,只能选择下载其中一部分。这样,如何下载比较“重要”的Web信息就是一个很现实的问题。判断一个网页是否重要的依据主要有兴趣驱动、流行性驱动和位置驱动三个指标。
(2)Web页面的更新频率
当网页被下载后,搜索器应以一定的频率对全部网页进行刷新或对网页重新访问,其频率应与网页自身更新的频率相适应,但不是成正比。
(3)减少搜索器对Web服务器的负担
当很多搜索器在工作时,将大大消耗服务器资源,对Web服务器而言是一个不小的负担,如何减少服务器负担和避免阻塞也是设计搜索器应该考虑的问题。例如,有的搜索引擎与网站达成协议,只有在网站服务器端放置特殊标记文件,搜索器才采集,有的网站服务器按照搜索器的要求建立索引文件,搜索器只采集这个索引文件即可。
(4)并行工作
由于网页数量庞大,许多搜索器在多台机器上工作,并行下载网页,从而使得在最短的时间内下载更多的网页,而这些并行工作的搜索器必须协同工作,以便使得不同搜索器不会重复访问。并行工作处理的好坏,将直接影响搜索器的效率。目前的搜索引擎蜘蛛已经不在是以前的发现一张网页,并收录。现在网页的收录,将比以往更加严格。以前搜索引擎蜘蛛面临的问题是大部分站点的网页不太友好,不利于搜索引擎的蜘蛛爬取。而现在的问题,网页的路径很友好,但是搜索引擎蜘蛛需要分辨其价值,从而再决定要不要收录。也正是这个原因,让很多内容主要是靠采集但是网站结构很有利于搜索引擎蜘蛛爬行的网站,并没有得到搜索引擎大量收录的原因。
通过网站结构、外部链接等因素来促进搜索引擎的收录,依然是主要的方法之一。但是相比较而言,现在搜索引擎已经不那么依赖这两者的作用了。所以对SEO来说,难度已经明显增加。