robots.txt的用途及网站爬虫类型

2025-9-10 12 9/10

robots.txt 写给爬虫的规则说明文件,它位于网站的根目录下(例如 https://www.example.com/robots.txt),用于向网络爬虫(搜索引擎蜘蛛、机器人等)提供指令,告诉它们哪些页面或部分网站可以爬取(抓取),哪些不可以。

robots.txt写法

  • User-agent 告诉搜索引擎(或其他爬虫):“这些规则是专门为你准备的”
  • Disallow 指定不允许爬虫访问的 URL 路径。可以禁止爬取特定目录(如 /admin/)、特定文件(如 /private.html),或者Disallow: /不允许爬取整个网站
  • Allow 写在 Disallow 指令之后,可以用来允许访问被禁止的路径中的特定子路径或文件(例如 Disallow: /private/ Allow: /public/)。Allow 指令通常用于更精细的控制。

列如:

# 针对Googlebot的规则,允许抓取整个网站
User-agent: Googlebot
Disallow: 

# 针对其他所有爬虫的规则(使用通配符*)
User-agent: * 
# 禁止抓取/private/目录下的所有内容
Disallow: /private/
# 禁止抓取以.html、.php结尾的特定目录(例如/admin/目录下的所有PHP和HTML文件)
Disallow: /admin/*.php$
Disallow: /admin/*.html$
# 允许抓取公共目录(即使上面有全局禁止,这里可以覆盖)
# Allow: /public/

# 指定站点地图的位置(推荐使用)
Sitemap: https://www.example.com/sitemap.xml

爬虫类型

Bot名称 所属 类型
Amazonbot Amazon(亚马逊) AI Crawler(AI爬虫)
Anchor Browser Anchor AI Crawler(AI爬虫)
Bytespider ByteDance(字节跳动) AI Crawler(AI爬虫)
CCBot Common Crawl(通用爬虫项目) AI Crawler(AI爬虫)
ClaudeBot Anthropic AI Crawler(AI爬虫)
Claude-SearchBot Anthropic AI Crawler(AI爬虫)
Claude-User Anthropic AI Crawler(AI爬虫)
FacebookBot Meta(原来的Facebook) AI Crawler(AI爬虫)
Google-CloudVertexBot Google(谷歌) AI Crawler(AI爬虫)
GPTBot OpenAI AI Crawler(AI爬虫)
Meta-ExternalAgent Meta AI Crawler(AI爬虫)
Novellum AI Crawl Novellum AI Crawler(AI爬虫)
PetalBot Huawei(华为) AI Crawler(AI爬虫)
ProRataInc ProRata.ai AI Crawler(AI爬虫)
Timpibot Timpi AI Crawler(AI爬虫)
BingBot Microsoft(微软) Search Engine Crawler(搜索引擎爬虫)
Googlebot Google(谷歌) Search Engine Crawler(搜索引擎爬虫)
archive.org_bot Internet Archive(互联网档案馆) Archiver(归档爬虫)
Applebot Apple(苹果) AI Search(AI搜索)
OAI-SearchBot OpenAI AI Search(AI搜索)
PerplexityBot Perplexity AI Search(AI搜索)
ChatGPT-User OpenAI AI Assistant(AI助手)
DuckAssistBot DuckDuckGo AI Assistant(AI助手)
Meta-ExternalFetcher Meta AI Assistant(AI助手)
MistralAI-User Mistral AI Assistant(AI助手)
Perplexity-User Perplexity AI Assistant(AI助手)
- THE END -
最后修改:2025年9月10日
0

非特殊说明,本博所有文章均为博主原创。

共有 0 条评论