robots.txt 写给爬虫的规则说明文件,它位于网站的根目录下(例如 https://www.example.com/robots.txt),用于向网络爬虫(搜索引擎蜘蛛、机器人等)提供指令,告诉它们哪些页面或部分网站可以爬取(抓取),哪些不可以。
robots.txt写法
User-agent: 告诉搜索引擎(或其他爬虫):“这些规则是专门为你准备的”Disallow: 禁止爬虫访问的 网页或目录。可以禁止爬取特定目录(如/admin/)、特定文件(如/private.html),或者Disallow: /禁止爬取整个网站Allow: 允许访问被禁止的路径中的特定子路径或文件
列如:
# 针对Googlebot的规则,允许抓取整个网站
User-agent: Googlebot
Allow: /
# 针对其他所有爬虫的规则(使用通配符*)
User-agent: *
Disallow: /private/ # 禁止抓取/private/目录下的所有内容
Disallow: /admin/*.php$ # 禁止抓取以.html、.php结尾的特定目录(例如/admin/目录下的所有PHP和HTML文件)
Disallow: /admin/*.html$
# Allow: /public/ # 允许抓取公共目录(即使上面有全局禁止,这里可以覆盖)
Sitemap: https://www.example.com/sitemap.xml # 指定站点地图的位置(推荐使用)
直接粘贴使用
User-agent: *
Allow: /
Sitemap: https://www.example.com/sitemap.xml
爬虫类型
| Bot名称 | 所属 | 类型 |
|---|---|---|
| Amazonbot | Amazon(亚马逊) | AI Crawler(AI爬虫) |
| Anchor Browser | Anchor | AI Crawler(AI爬虫) |
| Bytespider | ByteDance(字节跳动) | AI Crawler(AI爬虫) |
| CCBot | Common Crawl(通用爬虫项目) | AI Crawler(AI爬虫) |
| ClaudeBot | Anthropic | AI Crawler(AI爬虫) |
| Claude-SearchBot | Anthropic | AI Crawler(AI爬虫) |
| Claude-User | Anthropic | AI Crawler(AI爬虫) |
| FacebookBot | Meta(原来的Facebook) | AI Crawler(AI爬虫) |
| Google-CloudVertexBot | Google(谷歌) | AI Crawler(AI爬虫) |
| GPTBot | OpenAI | AI Crawler(AI爬虫) |
| Meta-ExternalAgent | Meta | AI Crawler(AI爬虫) |
| Novellum AI Crawl | Novellum | AI Crawler(AI爬虫) |
| PetalBot | Huawei(华为) | AI Crawler(AI爬虫) |
| ProRataInc | ProRata.ai | AI Crawler(AI爬虫) |
| Timpibot | Timpi | AI Crawler(AI爬虫) |
| BingBot | Microsoft(微软) | Search Engine Crawler(搜索引擎爬虫) |
| Googlebot | Google(谷歌) | Search Engine Crawler(搜索引擎爬虫) |
| archive.org_bot | Internet Archive(互联网档案馆) | Archiver(归档爬虫) |
| Applebot | Apple(苹果) | AI Search(AI搜索) |
| OAI-SearchBot | OpenAI | AI Search(AI搜索) |
| PerplexityBot | Perplexity | AI Search(AI搜索) |
| ChatGPT-User | OpenAI | AI Assistant(AI助手) |
| DuckAssistBot | DuckDuckGo | AI Assistant(AI助手) |
| Meta-ExternalFetcher | Meta | AI Assistant(AI助手) |
| MistralAI-User | Mistral | AI Assistant(AI助手) |
| Perplexity-User | Perplexity | AI Assistant(AI助手) |
- THE END -
最后修改:2025年10月1日
非特殊说明,本博所有文章均为博主原创。
如若转载,请注明出处:https://dcoet.com/2050.html
共有 0 条评论