点击登录
  • 欢迎访问玩机大肥虫网站,有意思的应用分享,有味道的硬件评测,欢迎加入玩机大肥虫 QQ群
  • 如果您觉得本站非常有看点,那么赶紧使用Ctrl+D 收藏玩机大肥虫吧

七牛云robots.txt 允许抓取图片禁止抓取网页的写法

小白建站 虫子 1259次浏览 已收录 0个评论 扫描二维码

这几天百度搜索我的网站玩机大肥虫,发现百度收录了我绑定在七牛云以提供网站加速的二级域名。用七牛云加速自然而然会镜像我主站的全部内容,如果百度发现了一个内容和你网站一模一样的网站,就有可能会被百度K站降权。虽然玩机大肥虫只是一个因我的个人爱好建起来的小站没什么流量,但作为大肥虫的第一个“亲儿子”我还是很爱惜他的,就算不从百度降权的角度考虑,每当我搜索玩机大肥虫就能看到首页两个一样的网站也会感觉很别扭。

七牛云robots.txt 允许抓取图片禁止抓取网页的写法

首页重复

七牛云robots.txt 允许抓取图片禁止抓取网页的写法

用以加速的二级域名被收录

于是,大肥虫决定干掉他,有耐心的朋友继续阅读,没耐心的朋友翻到文章末看具体的解决方案。

原因1:无法屏蔽七牛云镜像html文件

镜像的内容被被收录必须满足两个原因,一个是网站内容被镜像,另一个是空间设置的robots.txt有问题。打开我的wordpress后台,看了允许被镜像的文件类型确实没有html和text。于是删了七牛云空间已经被镜像的html文件并刷新缓存,结果发现被百度收录的ULR依然能被打开,再次查看七牛云空间的文件发现之前被删除的文件的又回来了。

给七牛提交了如何避免html文件被镜像的工单,七牛官网一直没有正式的回复,后来自己查资料好像是七牛云会在网页被访问的时候自动镜像到空间(也就是本来空间没有tu.shaoxianchong.com首页的内容,但是我访问了tu.shaoxianchong.com这个URL后,七牛云空间会自动从我的主站shaoxianchong.com镜像一份)

原因2:robots.txt文件设置出现错误

防止七牛云镜像html文件的暂时无法实现。为了避免用以七牛云镜像加速的二级域名下的更多的URL被百度收录,只能通过robots.txt来实现了。检查了二级域名下的robots.txt发现确实没有防止百度蜘蛛的抓取。大肥虫记得robots.tx是七牛云默认的,不知道为什么robots.txt变成了和主站一样的内容,后来删了七牛云内的robots.tx文件,选择七牛云默认的robots.txt,但是刷新之后七牛云空间又多出来一个robots.txt文件而之前默认七牛云robots.tx的选项又变成了使用自己上传的robots.txt。也就是说七牛云会优先使用用户自己上传的robots.txt

看来只好自己上传一个robots.txt文件了。那么这个robots.txt要怎么写呢?虽然我不希望各大搜索引擎的蜘蛛抓取tu.shaoxianchong.com的网页,但是我用七牛云主要就是给主站做图床,所以不希望影响我的主站shaoxianchong.com图片的被收录。也就是我需要一个能够屏蔽蜘蛛们抓取网页但是允许抓取图片的robots.txt

为了这样一个robots.txt大肥虫捉摸了一天多,很庆幸最终获得这么一个robots.txt,并且在解决这个问题的过程中又学习了很多不能了解过的知识。

允许抓取图片禁止抓取网页的七牛云Robots.txt写法:

1、首先是发现两个Robots.txt爬虫规则检测工具,一个是能用文字解读Robots命令的 http://www.5118.com/robots/ihuan.me,另一个是可以在线检测百度蜘蛛抓取效果的百度站长工具(一定要访问这个URL才能更新自己的robot.txt文件 http://zhanzhang.baidu.com/robots/index)不但有robots.txt检查功能还能直接测试URL。

七牛云robots.txt 允许抓取图片禁止抓取网页的写法

5118检测

七牛云robots.txt 允许抓取图片禁止抓取网页的写法

百度站长工具检测

2、并且经过测试七牛云默认的robots.txt屏蔽了百度蜘蛛对所有内容抓取包括图片,我们wordpress用七牛云很多都是当图床用的,所以肯定不希望屏蔽图片的被收录。(不过需要注意七牛云是百度图片蜘蛛,大肥虫不确定能够允许图片蜘蛛的抓取,但是肯定是影响了百度搜索蜘蛛的抓取。)

3、综合上述,一个能够屏蔽抓取网页但允许抓取图片的robots.txt是这样的:
七牛云robots.txt 允许抓取图片禁止抓取网页的写法

禁止抓取首页

七牛云robots.txt 允许抓取图片禁止抓取网页的写法

禁止抓取网页

七牛云robots.txt 允许抓取图片禁止抓取网页的写法

允许抓取图片

可以直接从这里下载robots.txt 文件上传到你的七牛云,也可以复制下以下内容新建TXT文档上传到七牛云:
直接下载

robots.txt generated at http://portal.qiniu.com
User-agent: Baiduspider
Allow:/*.jpg$
Allow:/*.gif$
Allow:/*.png$
Allow:/*.bmp$
Allow: /wp-content/uploads/*
Disallow: /
User-agent: Sosospider
Allow:/*.jpg$
Allow:/*.gif$
Allow:/*.png$
Allow:/*.bmp$
Allow: /wp-content/uploads/*
Disallow: /
User-agent: sogou spider
Allow:/*.jpg$
Allow:/*.gif$
Allow:/*.png$
Allow:/*.bmp$
Allow: /wp-content/uploads/*
Disallow: /
User-agent: YodaoBot
Allow:/*.jpg$
Allow:/*.gif$
Allow:/*.png$
Allow:/*.bmp$
Allow: /wp-content/uploads/*
Disallow: /
User-agent: Googlebot
Allow:/*.jpg$
Allow:/*.gif$
Allow:/*.png$
Allow:/*.bmp$
Allow: /wp-content/uploads/*
Disallow: /
User-agent: Bingbot
Allow:/*.jpg$
Allow:/*.gif$
Allow:/*.png$
Allow:/*.bmp$
Allow: /wp-content/uploads/*
Disallow: /
User-agent: Slurp
Allow:/*.jpg$
Allow:/*.gif$
Allow:/*.png$
Allow:/*.bmp$
Allow: /wp-content/uploads/*
Disallow: /
User-agent: MSNBot
Allow:/*.jpg$
Allow:/*.gif$
Allow:/*.png$
Allow:/*.bmp$
Allow: /wp-content/uploads/*
Disallow: /
User-agent: googlebot-image
Allow:/*.jpg$
Allow:/*.gif$
Allow:/*.png$
Allow:/*.bmp$
Allow: /wp-content/uploads/*
Disallow: /
User-agent: googlebot-mobile
Allow:/*.jpg$
Allow:/*.gif$
Allow:/*.png$
Allow:/*.bmp$
Allow: /wp-content/uploads/*
Disallow: /
User-agent: yahoo-blogs/v3.9
Allow:/*.jpg$
Allow:/*.gif$
Allow:/*.png$
Allow:/*.bmp$
Allow: /wp-content/uploads/*
Disallow: /
User-agent: psbot
Allow:/*.jpg$
Allow:/*.gif$
Allow:/*.png$
Allow:/*.bmp$
Allow: /wp-content/uploads/*
Disallow: /
User-agent: *
Allow:/*.jpg$
Allow:/*.gif$
Allow:/*.png$
Allow:/*.bmp$
Allow: /wp-content/uploads/*
Disallow: /

玩机大肥虫, 版权所有丨如若未注明 , 均为原创丨本网站采用BY-NC-SA协议进行授权 , 转载请注明七牛云robots.txt 允许抓取图片禁止抓取网页的写法
喜欢 (8)
[谢谢!]
分享 (0)
发表我的评论
取消评论
表情 贴图 加粗 删除线 居中 斜体 签到