搜索
查看: 595|回复: 0

Typecho的robots.txt

[复制链接]

273

主题

389

帖子

858

积分

vip用户

Rank: 6Rank: 6

积分
858

注册会员活跃会员热心会员

QQ
发表于 4 天前 来自手机 | 显示全部楼层 |阅读模式
Robots.txt:
Robots协议(也称为爬虫协议、机器人协议等)全称是“网络爬虫排除标准”(Robots Exclusion Protocol),是国际互联网界通行的道德规范,Robots是站点与spider沟通的重要渠道,站点通过robots告诉搜索引擎哪些页面可以抓取,哪些页面不能抓取。其目的是保护网站数据和敏感信息、确保用户个人信息和隐私不被侵犯。因其不是命令,故需要搜索引擎自觉遵守

简单来说,robots.txt 是为了告诉搜索引擎哪些内容要收录,哪些不要收录,还可以告诉搜索引擎网站的 sitemap 地址。

robots.txt基本语法:
注意:robots.txt必须放置在一个站点的根目录下,而且文件名必须全部小写

User-agent:描述搜索引擎robot的名字,即 : 你可以指定该规则只对baidu 或者google 或者其它指定搜索引擎有效 可用通配符 *表示全部
Disallow:描述不希望被访问的一组URL,即:设定禁止访问的部分,可以用完整url,也可以用相对路径,可以是单个目文件,也可以是整个文件夹,也可以用通配符限定指定类型
Allow:描述希望被访问的一组URL,即:设定允许访问的部分,不过因为默认是全部允许的,这个语法通常是配合disallow使用的,用它来完成 如“除了xxx.html该目录下全部不能访问”这样的设定。 要注意的是allow和disallow的顺序是有讲究的,搜索引擎会以它先看到的规则为判断标准。
Sitemap:指示蜘蛛去爬取网站的sitemap文件,通配符:"$" 匹配行结束符;"*" 匹配0或多个任意字符

如何辨别自己网站是否配置了robots.txt呢?
第一种方法:访问网址 http(s):你的域名/robots.txt即可
第二种方法:通过 [百度站长工具] 来检测

创建
创建 robots.txt 方法很简单:在网站根目录位置新建 robots.txt 文件,文件内容为下方格式
#
# robots.txt for typecho
#
User-agent: *
Disallow: /admin/
Disallow: /install/
Disallow: /var/
Disallow: /config.inc.php
Disallow: /install.php
Sitemap: https://blog.bbskali.cn/sitemap.xml
回复

使用道具 举报

您需要登录后才可以回帖 登录 | 注册

本版积分规则

温馨提示
1:发帖请遵守《中华人民共和国网络安全法》,发帖内容不得维护国家的、集体的、个人的利益。
2:请勿发布恶意攻击他人的技术文章、工具、和使用教程,发现后删帖处理。
3:本站的目的在于让更多的人了解网络安全,避免受到他人的恶意攻击。
4:本站中的部分文章,可能会出现一些“技术类手段”,但这仅仅为学习演示所用,而非恶意传播技术。
5:本站中的部分文章,可能转载自互联网。如有侵权行为,联系我们删除即可。
6:学习仅是充实头脑,切勿恶意攻击个人、企业等。所造成的法律后果一切由自己承担,本站及其站长概不负责。
我知道了
快速回复 返回顶部 返回列表