Typecho的robots.txt

libo · 发表于 2020-10-18 11:08:29

Robots.txt：
Robots协议（也称为爬虫协议、机器人协议等）全称是“网络爬虫排除标准”（Robots Exclusion Protocol），是国际互联网界通行的道德规范，Robots是站点与spider沟通的重要渠道，站点通过robots告诉搜索引擎哪些页面可以抓取，哪些页面不能抓取。其目的是保护网站数据和敏感信息、确保用户个人信息和隐私不被侵犯。因其不是命令，故需要搜索引擎自觉遵守

简单来说，robots.txt 是为了告诉搜索引擎哪些内容要收录，哪些不要收录，还可以告诉搜索引擎网站的 sitemap 地址。

robots.txt基本语法：
注意：robots.txt必须放置在一个站点的根目录下，而且文件名必须全部小写

User-agent：描述搜索引擎robot的名字，即 : 你可以指定该规则只对baidu 或者google 或者其它指定搜索引擎有效可用通配符 *表示全部
Disallow:描述不希望被访问的一组URL，即：设定禁止访问的部分，可以用完整url，也可以用相对路径，可以是单个目文件，也可以是整个文件夹，也可以用通配符限定指定类型
Allow:描述希望被访问的一组URL，即：设定允许访问的部分，不过因为默认是全部允许的，这个语法通常是配合disallow使用的，用它来完成如“除了xxx.html该目录下全部不能访问”这样的设定。要注意的是allow和disallow的顺序是有讲究的，搜索引擎会以它先看到的规则为判断标准。
Sitemap：指示蜘蛛去爬取网站的sitemap文件，通配符："$" 匹配行结束符；"*" 匹配0或多个任意字符

如何辨别自己网站是否配置了robots.txt呢？
第一种方法：访问网址 http(s):你的域名/robots.txt即可
第二种方法：通过 [百度站长工具] 来检测

创建
创建 robots.txt 方法很简单：在网站根目录位置新建 robots.txt 文件，文件内容为下方格式
[pre]
#
# robots.txt for typecho
#
User-agent: *
Disallow: /admin/
Disallow: /install/
Disallow: /var/
Disallow: /config.inc.php
Disallow: /install.php
Sitemap: https://blog.bbskali.cn/sitemap.xml
[/pre]

Typecho的robots.txt

浏览过的版块

注册会员

活跃会员

热心会员