robots.txt的用途及网站爬虫类型

robots.txt 写给爬虫的规则说明文件，它位于网站的根目录下（例如 https://www.example.com/robots.txt），用于向网络爬虫（搜索引擎蜘蛛、机器人等）提供指令，告诉它们哪些页面或部分网站可以爬取（抓取），哪些不可以。

robots.txt写法

User-agent： 告诉搜索引擎（或其他爬虫）：“这些规则是专门为你准备的”
Disallow： 指定不允许爬虫访问的 URL 路径。可以禁止爬取特定目录（如 /admin/）、特定文件（如 /private.html），或者Disallow: /不允许爬取整个网站
Allow： 写在 Disallow 指令之后，可以用来允许访问被禁止的路径中的特定子路径或文件（例如 Disallow: /private/ Allow: /public/）。Allow 指令通常用于更精细的控制。

列如：

# 针对Googlebot的规则，允许抓取整个网站
User-agent: Googlebot
Disallow: 

# 针对其他所有爬虫的规则（使用通配符*）
User-agent: * 
# 禁止抓取/private/目录下的所有内容
Disallow: /private/
# 禁止抓取以.html、.php结尾的特定目录（例如/admin/目录下的所有PHP和HTML文件）
Disallow: /admin/*.php$
Disallow: /admin/*.html$
# 允许抓取公共目录（即使上面有全局禁止，这里可以覆盖）
# Allow: /public/

# 指定站点地图的位置（推荐使用）
Sitemap: https://www.example.com/sitemap.xml

爬虫类型

Bot名称	所属	类型
Amazonbot	Amazon(亚马逊)	AI Crawler(AI爬虫)
Anchor Browser	Anchor	AI Crawler(AI爬虫)
Bytespider	ByteDance(字节跳动)	AI Crawler(AI爬虫)
CCBot	Common Crawl(通用爬虫项目)	AI Crawler(AI爬虫)
ClaudeBot	Anthropic	AI Crawler(AI爬虫)
Claude-SearchBot	Anthropic	AI Crawler(AI爬虫)
Claude-User	Anthropic	AI Crawler(AI爬虫)
FacebookBot	Meta(原来的Facebook)	AI Crawler(AI爬虫)
Google-CloudVertexBot	Google(谷歌)	AI Crawler(AI爬虫)
GPTBot	OpenAI	AI Crawler(AI爬虫)
Meta-ExternalAgent	Meta	AI Crawler(AI爬虫)
Novellum AI Crawl	Novellum	AI Crawler(AI爬虫)
PetalBot	Huawei(华为)	AI Crawler(AI爬虫)
ProRataInc	ProRata.ai	AI Crawler(AI爬虫)
Timpibot	Timpi	AI Crawler(AI爬虫)
BingBot	Microsoft(微软)	Search Engine Crawler(搜索引擎爬虫)
Googlebot	Google(谷歌)	Search Engine Crawler(搜索引擎爬虫)
archive.org_bot	Internet Archive(互联网档案馆)	Archiver(归档爬虫)
Applebot	Apple(苹果)	AI Search(AI搜索)
OAI-SearchBot	OpenAI	AI Search(AI搜索)
PerplexityBot	Perplexity	AI Search(AI搜索)
ChatGPT-User	OpenAI	AI Assistant(AI助手)
DuckAssistBot	DuckDuckGo	AI Assistant(AI助手)
Meta-ExternalFetcher	Meta	AI Assistant(AI助手)
MistralAI-User	Mistral	AI Assistant(AI助手)
Perplexity-User	Perplexity	AI Assistant(AI助手)

robots.txt的用途及网站爬虫类型

robots.txt写法

爬虫类型

相关推荐

php禁止直接输入网址访问页面的方法

禁用WordPress自动保存文章草稿和修订功能-Gutenberg古腾堡编辑器

WordPress服务器搬家后WP Super Cache缓存插件报错

css单位中px、em、rem的区别详情介绍

共有 0 条评论

全站搜索

标签云

最新文章

1robots.txt的用途及网站爬虫类型

2Claude Code开发使用命令中文版

3获取吉比特HG6145F移动宽带光猫...