18910140161

降龙分析:百度蜘蛛爬取的原理及先后顺序

顺晟科技

2019-08-16 15:38:19

214

这几日正好在分析新东家服务器日志上的百度蜘蛛抓取记录,可以一起探讨下。

1.一般大型网站百度蜘蛛重复抓取率较低,而中小型网站重复抓取率较高,因此看到百度蜘蛛爬得很勤,不必太高兴,只能说明百度记不住这个网站,需要多爬几次以免忘记。

2.前面子桥也回答了,一般百度看不到网站根目录,但可以在根目录下放张sitemap,然后在robots文件里注明这个网站有地图可查,告诉蜘蛛网站大致是什么样的。

3.根据英特网的特性,互联网非常之宽,无边无际,但路径却很短。百度蜘蛛主要是从导航站和权威网站作为爬行的开端。

4.互联网宽而浅,蜘蛛亦是优先横向爬行,再纵深抓取。

譬如1个网站有有2个一级目录、一级目录下各有1个二级目录,二级目录下各有1篇文章,且互相链接。

百度在首页上放出3个蜘蛛,A爬一级目录1,B爬二级目录1,C爬文章1。

A抓取一级目录1后,可以选择爬一级目录2;二级目录1,2;文章1,2。共5个页面。

B抓取二级目录1后,能爬二级目录2;一级目录2;文章1,2。共4个页面。

C抓完文章1后,只能爬文章2;一级目录2;二级目录2。共3个页面。

5.百度蜘蛛从首页往下爬后,一般不会回到首页。不像百度权重既可以从首页传递给产品页,产品页也可以传递权重给首页。

6.百度蜘蛛分许多种,常见的有百度蜘蛛(Baiduspider2.0),百度图片蜘蛛(Baiduspider-image)。而百度联盟蜘蛛(Baiduspider-cpro),百度商务蜘蛛(Baiduspider-ads)可以不遵守robots文件协议,当然也不会建立索引,只是把抓取过的网页存到页面库里。

7.通常情况下,只有被百度蜘蛛抓取过的页面,才会进入网址索引库,也就是常说的百度收录。

8.一个网站权重较高的话,同1个蜘蛛爬行的页面数量较多,反之,爬行页面较少。

9.百度蜘蛛是从上往下沿着网页代码爬行,因此在代码行数中靠前的链接被抓取次数较代码底部的链接为多。

10.百度蜘蛛很聪明,许多只在源代码里出现的链接,只要还没爬过,都可能会去爬下。

我一直很稀奇一件事情,百度站长平台中的站长资讯给的资料已经够好的了,我做这行五年了,现在里面的文章过段时间就看看。可发现很多人都不知道?

里面有个搜索引擎抓取系统概述一和搜索引擎抓取系统概述二,看完之后,或许对你有很大帮助。

百度蜘蛛他进不了你的服务器去查看你的网站根目录的,他只能通过网站前台的链接往里抓取。

所以这就要求我们,尽量做成扁平式结构:通过首页抓取所有目录页面,再通过所有目录页面抓取内容页。

相关文章
我们已经准备好了,你呢?
2024我们与您携手共赢,为您的企业形象保驾护航