robots.txt 写给爬虫的规则说明文件,它位于网站的根目录下(例如 https://www.example.com/robots.txt),用于向网络爬虫(搜索引擎蜘蛛、机器人等)提供指令,告诉它们哪些页面或部分网站可以爬取(抓取),哪些不可以。
robots.txt写法
User-agent
: 告诉搜索引擎(或其他爬虫):“这些规则是专门为你准备的”Disallow
: 指定不允许爬虫访问的 URL 路径。可以禁止爬取特定目录(如/admin/
)、特定文件(如/private.html
),或者Disallow: /
不允许爬取整个网站Allow
: 写在Disallow
指令之后,可以用来允许访问被禁止的路径中的特定子路径或文件(例如Disallow: /private/
Allow: /public/
)。Allow
指令通常用于更精细的控制。
列如:
# 针对Googlebot的规则,允许抓取整个网站
User-agent: Googlebot
Disallow:
# 针对其他所有爬虫的规则(使用通配符*)
User-agent: *
# 禁止抓取/private/目录下的所有内容
Disallow: /private/
# 禁止抓取以.html、.php结尾的特定目录(例如/admin/目录下的所有PHP和HTML文件)
Disallow: /admin/*.php$
Disallow: /admin/*.html$
# 允许抓取公共目录(即使上面有全局禁止,这里可以覆盖)
# Allow: /public/
# 指定站点地图的位置(推荐使用)
Sitemap: https://www.example.com/sitemap.xml
爬虫类型
Bot名称 | 所属 | 类型 |
---|---|---|
Amazonbot | Amazon(亚马逊) | AI Crawler(AI爬虫) |
Anchor Browser | Anchor | AI Crawler(AI爬虫) |
Bytespider | ByteDance(字节跳动) | AI Crawler(AI爬虫) |
CCBot | Common Crawl(通用爬虫项目) | AI Crawler(AI爬虫) |
ClaudeBot | Anthropic | AI Crawler(AI爬虫) |
Claude-SearchBot | Anthropic | AI Crawler(AI爬虫) |
Claude-User | Anthropic | AI Crawler(AI爬虫) |
FacebookBot | Meta(原来的Facebook) | AI Crawler(AI爬虫) |
Google-CloudVertexBot | Google(谷歌) | AI Crawler(AI爬虫) |
GPTBot | OpenAI | AI Crawler(AI爬虫) |
Meta-ExternalAgent | Meta | AI Crawler(AI爬虫) |
Novellum AI Crawl | Novellum | AI Crawler(AI爬虫) |
PetalBot | Huawei(华为) | AI Crawler(AI爬虫) |
ProRataInc | ProRata.ai | AI Crawler(AI爬虫) |
Timpibot | Timpi | AI Crawler(AI爬虫) |
BingBot | Microsoft(微软) | Search Engine Crawler(搜索引擎爬虫) |
Googlebot | Google(谷歌) | Search Engine Crawler(搜索引擎爬虫) |
archive.org_bot | Internet Archive(互联网档案馆) | Archiver(归档爬虫) |
Applebot | Apple(苹果) | AI Search(AI搜索) |
OAI-SearchBot | OpenAI | AI Search(AI搜索) |
PerplexityBot | Perplexity | AI Search(AI搜索) |
ChatGPT-User | OpenAI | AI Assistant(AI助手) |
DuckAssistBot | DuckDuckGo | AI Assistant(AI助手) |
Meta-ExternalFetcher | Meta | AI Assistant(AI助手) |
MistralAI-User | Mistral | AI Assistant(AI助手) |
Perplexity-User | Perplexity | AI Assistant(AI助手) |
- THE END -
最后修改:2025年9月10日
非特殊说明,本博所有文章均为博主原创。
如若转载,请注明出处:http://dcoet.com/2050.html
共有 0 条评论