• 关注微信公众号 玩个机吧网 获取最新动态

七牛云 robots.txt 允许抓取图片禁止抓取网页的写法

七牛云 robots.txt 允许抓取图片禁止抓取网页的写法

这几天百度搜索我的网站玩机大肥虫,发现百度收录了我绑定在七牛云以提供网站加速的二级域名。用七牛云加速自然而然会镜像我主站的全部内容,如果百度发现了一个内容和你网站一模一样的网站,就有可能会被百度 K 站降权。

虽然玩机大肥虫只是一个因我的个人爱好建起来的小站没什么流量,但作为大肥虫的第一个“亲儿子”我还是很爱惜他的,就算不从百度降权的角度考虑,每当我搜索玩机大肥虫就能看到首页两个一样的网站也会感觉很别扭。
七牛云 robots.txt 允许抓取图片禁止抓取网页的写法

首页重复

七牛云 robots.txt 允许抓取图片禁止抓取网页的写法

用以加速的二级域名被收录

于是,大肥虫决定干掉他,有耐心的朋友继续阅读,没耐心的朋友翻到文章末看具体的解决方案。

原因 1:无法屏蔽七牛云镜像 html 文件

镜像的内容被被收录必须满足两个原因,一个是网站内容被镜像,另一个是空间设置的robots.txt 有问题。打开我的wordpress后台,看了允许被镜像的文件类型确实没有 html 和 text。于是删了七牛云空间已经被镜像的 html 文件并刷新缓存,结果发现被百度收录的 ULR 依然能被打开,再次查看七牛云空间的文件发现之前被删除的文件的又回来了。

给七牛提交了如何避免 html 文件被镜像的工单,七牛官网一直没有正式的回复,后来自己查资料好像是七牛云会在网页被访问的时候自动镜像到空间(也就是本来空间没有 tu.shaoxianchong.com 首页的内容,但是我访问了 tu.shaoxianchong.com 这个 URL 后,七牛云空间会自动从我的主站 shaoxianchong.com 镜像一份)

原因 2:robots.txt 文件设置出现错误

防止七牛云镜像 html 文件的暂时无法实现。为了避免用以七牛云镜像加速的二级域名下的更多的 URL 被百度收录,只能通过 robots.txt 来实现了。检查了二级域名下的 robots.txt 发现确实没有防止百度蜘蛛的抓取。大肥虫记得 robots.tx 是七牛云默认的,不知道为什么 robots.txt 变成了和主站一样的内容,后来删了七牛云内的 robots.tx 文件,选择七牛云默认的 robots.txt,但是刷新之后七牛云空间又多出来一个 robots.txt 文件而之前默认七牛云 robots.tx 的选项又变成了使用自己上传的 robots.txt。也就是说七牛云会优先使用用户自己上传的 robots.txt

看来只好自己上传一个 robots.txt 文件了。那么这个 robots.txt 要怎么写呢?虽然我不希望各大搜索引擎的蜘蛛抓取 tu.shaoxianchong.com 的网页,但是我用七牛云主要就是给主站做图床,所以不希望影响我的主站 shaoxianchong.com 图片的被收录。也就是我需要一个能够屏蔽蜘蛛们抓取网页但是允许抓取图片的 robots.txt

为了这样一个 robots.txt大肥虫捉摸了一天多,很庆幸最终获得这么一个 robots.txt,并且在解决这个问题的过程中又学习了很多不能了解过的知识。

允许抓取图片禁止抓取网页的七牛云 Robots.txt 写法:

1、首先是发现两个 Robots.txt 爬虫规则检测工具,一个是能用文字解读 Robots 命令的 http://www.5118.com/robots/ihuan.me,另一个是可以在线检测百度蜘蛛抓取效果的百度站长工具(一定要访问这个 URL 才能更新自己的 robot.txt 文件 http://zhanzhang.baidu.com/robots/index)不但有 robots.txt 检查功能还能直接测试 URL。

七牛云 robots.txt 允许抓取图片禁止抓取网页的写法

5118 检测

七牛云 robots.txt 允许抓取图片禁止抓取网页的写法

百度站长工具检测

2、并且经过测试七牛云默认的 robots.txt 屏蔽了百度蜘蛛对所有内容抓取包括图片,我们 wordpress 用七牛云很多都是当图床用的,所以肯定不希望屏蔽图片的被收录。(不过需要注意七牛云是百度图片蜘蛛,大肥虫不确定能够允许图片蜘蛛的抓取,但是肯定是影响了百度搜索蜘蛛的抓取。)

3、综合上述,一个能够屏蔽抓取网页但允许抓取图片的 robots.txt 是这样的:
七牛云 robots.txt 允许抓取图片禁止抓取网页的写法

禁止抓取首页

七牛云 robots.txt 允许抓取图片禁止抓取网页的写法

禁止抓取网页

七牛云 robots.txt 允许抓取图片禁止抓取网页的写法

允许抓取图片

可以直接从这里下载 robots.txt 文件上传到你的七牛云,也可以复制下以下内容新建 TXT 文档上传到七牛云:
直接下载

robots.txt generated at http://portal.qiniu.com
User-agent: Baiduspider
Allow:/*.jpg$
Allow:/*.gif$
Allow:/*.png$
Allow:/*.bmp$
Allow: /wp-content/uploads/*
Disallow: /
User-agent: Sosospider
Allow:/*.jpg$
Allow:/*.gif$
Allow:/*.png$
Allow:/*.bmp$
Allow: /wp-content/uploads/*
Disallow: /
User-agent: sogou spider
Allow:/*.jpg$
Allow:/*.gif$
Allow:/*.png$
Allow:/*.bmp$
Allow: /wp-content/uploads/*
Disallow: /
User-agent: YodaoBot
Allow:/*.jpg$
Allow:/*.gif$
Allow:/*.png$
Allow:/*.bmp$
Allow: /wp-content/uploads/*
Disallow: /
User-agent: Googlebot
Allow:/*.jpg$
Allow:/*.gif$
Allow:/*.png$
Allow:/*.bmp$
Allow: /wp-content/uploads/*
Disallow: /
User-agent: Bingbot
Allow:/*.jpg$
Allow:/*.gif$
Allow:/*.png$
Allow:/*.bmp$
Allow: /wp-content/uploads/*
Disallow: /
User-agent: Slurp
Allow:/*.jpg$
Allow:/*.gif$
Allow:/*.png$
Allow:/*.bmp$
Allow: /wp-content/uploads/*
Disallow: /
User-agent: MSNBot
Allow:/*.jpg$
Allow:/*.gif$
Allow:/*.png$
Allow:/*.bmp$
Allow: /wp-content/uploads/*
Disallow: /
User-agent: googlebot-image
Allow:/*.jpg$
Allow:/*.gif$
Allow:/*.png$
Allow:/*.bmp$
Allow: /wp-content/uploads/*
Disallow: /
User-agent: googlebot-mobile
Allow:/*.jpg$
Allow:/*.gif$
Allow:/*.png$
Allow:/*.bmp$
Allow: /wp-content/uploads/*
Disallow: /
User-agent: yahoo-blogs/v3.9
Allow:/*.jpg$
Allow:/*.gif$
Allow:/*.png$
Allow:/*.bmp$
Allow: /wp-content/uploads/*
Disallow: /
User-agent: psbot
Allow:/*.jpg$
Allow:/*.gif$
Allow:/*.png$
Allow:/*.bmp$
Allow: /wp-content/uploads/*
Disallow: /
User-agent: *
Allow:/*.jpg$
Allow:/*.gif$
Allow:/*.png$
Allow:/*.bmp$
Allow: /wp-content/uploads/*
Disallow: /

七牛云 robots.txt 允许抓取图片禁止抓取网页的写法


玩机大肥虫, 版权所有丨如若未注明 , 均为原创丨本网站采用BY-NC-SA协议进行授权 , 转载请注明七牛云 robots.txt 允许抓取图片禁止抓取网页的写法
喜欢 (16)

您必须 登录 才能发表评论!

(2)个小伙伴在吐槽
  1. 虽然看不懂,但是我还是我知道热心的楼楼在以小白的视角帮大家理解网站建设,沙发沙发,赞赞赞!
    匿名2017-10-20 17:58