google在收录站点网页时是通过一个叫做robot(“机器人”)程序实现的,baidu类似的程序被叫做sprider("蜘蛛")。一个站点被机器人或蜘蛛抓取的页面越多,搜索引擎能为用户提供的信息越丰富,因此机器人和蜘蛛算法的优劣对搜索引擎性能有直接的影响。下面就请静观机器人和蜘蛛的较量。
第一回合:对动态网页的抓取
搜索引擎对动态网页(asp、jsp、php、cfm等动态脚本语言编写的网页)抓取能力有限,特别是当动态网页链接后带有参数时,更不利于抓取程序抓取。但动态网页因其强大的交互功能在网站开发中得到了广泛的应用,目前很多网站都是通过动态网页来展示网站主要信息的。机器人和蜘蛛只有去不断提升对动态网页的抓取能力,才能收录更多的站点页面。通过Google、baidu对网站www.ftchinese.com动态页面story.jsp的收录情况分析发现:
机器人对story.jsp动态页面参数达到3个时不再收录
蜘蛛对story.jsp动态页面参数达到2个时不再收录
Ftchinese.com的主要页面信息(新闻信息)都是通过story.jsp产生的,这样直接导致baidu比google对ftchinese.com页面的收录少了一个数量级。通过site:www.ftchinese.com发现,google收录页面数:11000篇,baidu收录页面数:571篇。
当然,对页面是否被收录,还有其他因素的影响,比如url长度等。但从机器人和蜘蛛在对具体网站收录情况的比较分析,可以发现,我们的“蜘蛛侠”,在动态网页抓取方面,还要苦练内功!
第二回合:对深层目录下网页的抓取
(待续…..)