google　“机器人”与baidu“蜘蛛侠”较量（一）--樊孝山的博客

google “机器人”与baidu“蜘蛛侠”较量（一）

google在收录站点网页时是通过一个叫做robot（“机器人”）程序实现的，baidu类似的程序被叫做sprider("蜘蛛")。一个站点被机器人或蜘蛛抓取的页面越多，搜索引擎能为用户提供的信息越丰富，因此机器人和蜘蛛算法的优劣对搜索引擎性能有直接的影响。下面就请静观机器人和蜘蛛的较量。

第一回合：对动态网页的抓取

搜索引擎对动态网页（asp、jsp、php、cfm等动态脚本语言编写的网页）抓取能力有限，特别是当动态网页链接后带有参数时，更不利于抓取程序抓取。但动态网页因其强大的交互功能在网站开发中得到了广泛的应用，目前很多网站都是通过动态网页来展示网站主要信息的。机器人和蜘蛛只有去不断提升对动态网页的抓取能力，才能收录更多的站点页面。通过Google、baidu对网站www.ftchinese.com动态页面story.jsp的收录情况分析发现：

机器人对story.jsp动态页面参数达到3个时不再收录

蜘蛛对story.jsp动态页面参数达到2个时不再收录

Ftchinese.com的主要页面信息（新闻信息）都是通过story.jsp产生的，这样直接导致baidu比google对ftchinese.com页面的收录少了一个数量级。通过site:www.ftchinese.com发现，google收录页面数：11000篇，baidu收录页面数：571篇。

当然，对页面是否被收录，还有其他因素的影响，比如url长度等。但从机器人和蜘蛛在对具体网站收录情况的比较分析，可以发现，我们的“蜘蛛侠”，在动态网页抓取方面，还要苦练内功！

第二回合：对深层目录下网页的抓取

（待续…..）

樊孝山发表于 2007/6/27 9:09:40
[ 阅读全文(1831) | 回复(0) | 编辑 ]

分享到：

发表评论：