在这个网站建设高速发展的时代我们不墨迹

1、需求:做一个怎样的网站?不会没关系我们给建议!
2、成本:我们考虑的是性价比,欢迎货比三家!
3、服务:享受过才知道,我们承诺9:00-21:00秒回!

您也别犹豫了!来吧,把需求填一下吧!

地 址:

中国·深圳

深圳市龙岗区龙城街道爱南路435号2楼

中国·广州

广州市天河区车陂路70号悦华商务大厦南215

咨询热线:

TEL:0755-33177707

TEL:13715157675

小哥哥小姐姐,我们在等您!

您的需求

  • 网站定制
  • 微信开发
  • 微商城
  • APP开发
  • 小程序开发
  • 商城系统
  • 物业系统
  • 直销系统
  • 其他




看不清?点击更换 看不清?点击图片更换!

SEO如何用robots引导蜘蛛抓取之自己打理网站的老板|深圳网站建设

robots.txt协议引导蜘蛛对页面进行抓取这个工作对于一个网站来说似乎是必不可少的一步!

Robots.txt协议是放在网站的根目录下面的一个协议,在蜘蛛访问网站的时候,会第一时间访问robots.txt这个文件,这是蜘蛛第一个访问的文件,我们在这个文件里面设置好,那个页面蜘蛛可以抓取,哪个页面蜘蛛不能抓取,这是一个技术细节的问题了。

那么robots文件怎么设置呢?

对于可以抓取的页面,我们是不需要去设置的,而对于那些不想让蜘蛛抓取爬行的页面呢,我们通常会通过设定disallow(这个是禁止抓取的命令)来告诉蜘蛛,这个页面是不可以抓取的,设置disallow就可以实现蜘蛛不抓取页面的设置了!

那么,对于一些比较复杂的情况下的呢,我们怎么设置?

例如在整个网站都设置了HTTPS协议的情况下,但是有些页面是需要蜘蛛进行爬行抓取的,那怎么办呢?我们可以按照下面的去做!

(1)复制一份到http下面;

(2)使用user-agent判断来访者,将蜘蛛引导到HTTP页面;

关于robots文件,下面我们来详细的说一下!

(1)特定的页面已经不需要蜘蛛去抓取的,可以进行Disallow禁止访问;

(2)一些特定的某个类集中的页面具有共同的URL参数,可以实现批量禁止抓取功能。在操作批量禁止抓取的时候呢,这个我们需要避免错误的将其他需要抓取爬行的页面设置错误,这里我们叫误伤。

关于特征类URL的一个特殊应用就是批量精致动态URL的抓取,比如一个动态内容的网站,初始页面都是动态页面来的,从SEO角度考虑的话,这些动态页面全部批量生成对应的静态页面,例如下面这样:

http://www.lijinwangluo.com/?Id=1

http://www.lijinwangluo.com/?Id=2

...

已经全部生成了HTML静态文件,如下形式:

http://www.lijinwangluo.com/1.html

http://www.lijinwangluo.com/2.html

...

如果是这种情况下的话,就会出现这样的问题,蜘蛛同时会抓取到动态页面和静态页面,但是动态和静态页面都是相同内容的,每个页面都有重复的内容出现,这样对于SEO来说是很不好的,可以通过robots这个文件去设置一下,统一禁止动态URL的抓取,例如在robots文件里面写

Disallow:/*?*

在抓取方面,蜘蛛会根据实际情况做一个对网站的抓取频次的调整,就是说分配抓取定额,每天定量抓取网站的内容,这个定量的这个词意味着蜘蛛的抓取是有限的,一个门户网站如果一次性提交10万条URL的话,并不意味着蜘蛛会很快的把这10万条数据全部抓取回去,所以,我们必须要有耐心的跟踪搜索蜘蛛在网站每天的爬行和收录情况的!

今天对于robots协议文件的讲解就到这里,下一节我们将介绍影响页面抓取的几个重要原因!尽请期待!




上一篇:什么是网站地图|网站地图的全面解析|布吉网站建设

下一篇:SEO影响页面抓取的几个重要原因之自己打理网站的老板|龙岗网站建设