robots.txt 测试模拟器 - 验证爬虫规则

SEO工具开发 robots.txt 模拟爬虫规则

Robots.txt 测试模拟器

模拟搜索引擎爬虫行为，验证 robots.txt 规则是否按预期生效。支持通配符匹配、多 User-Agent 测试及规则可视化。

User-Agent 组：0

Disallow：0

Allow：0

Sitemap：0

Crawl-delay：0

从网站获取 robots.txt

快捷模板：

robots.txt

测试规则

User-Agent（爬虫身份）

测试 URL 路径

输入完整URL或路径（如 /private/data.html），路径自动以 / 开头

规则解析预览

行	User-Agent	类型	路径/值
暂无解析数据

常见问题 & 知识点

robots.txt 是什么？有什么作用？

robots.txt 是放置在网站根目录下的文本文件，用于告知搜索引擎爬虫哪些页面或目录不应被抓取。它是 Robots Exclusion Protocol（爬虫排除协议）的一部分，被 Google、Bing、百度等主流搜索引擎广泛支持。需要注意的是，robots.txt 仅是一种建议性协议，恶意的爬虫可能会忽略它。对于需要严格保密的页面，应使用密码保护或 noindex meta 标签。

Allow 和 Disallow 规则的优先级是怎样的？

当 Allow 和 Disallow 规则同时匹配一个 URL 时，采用最长匹配优先原则。即选择路径长度更长、更具体的规则。例如：Disallow: /admin/ 和 Allow: /admin/login.php，访问 /admin/login.php 时 Allow 规则更长，因此允许爬取。如果两条规则长度相同，Google 的策略是 Allow 优先。

robots.txt 支持通配符 * 和 $ 吗？

是的，虽然原始规范不支持，但Google 扩展了语法，现在主流搜索引擎普遍支持：
* — 匹配任意字符序列（0个或多个字符），如 /*.pdf 匹配所有 PDF 文件；
$ — 表示 URL 结尾，如 /page$ 仅匹配 /page，不匹配 /page/extra。本工具完整支持这两种通配符的模拟匹配。

robots.txt 和 meta robots 标签有什么区别？

robots.txt 控制的是爬虫是否抓取页面内容，而 meta robots 标签（<meta name="robots" content="noindex">）控制的是页面是否被索引。一个被 robots.txt 禁止抓取的页面仍然可能出现在搜索结果中（作为仅URL的引用），而使用 noindex 标签的页面则完全不会被索引。两者结合使用效果最佳。

如何正确配置多个 User-Agent 的规则？

每个 User-Agent 声明开始一个新的规则组，直到遇到下一个 User-Agent 声明为止。例如：
User-agent: Googlebot
Disallow: /private/
User-agent: *
Disallow: /
这样 Googlebot 只禁止 /private/，而其他所有爬虫禁止全部内容。规则组之间用空行分隔是最佳实践，能提高可读性并避免解析歧义。

Crawl-delay 指令有什么用？

Crawl-delay 用于指定爬虫两次请求之间的等待秒数，帮助减轻服务器压力。例如 Crawl-delay: 10 表示爬虫每次抓取后等待10秒。需要注意的是：Googlebot 不遵守 Crawl-delay（Google 使用 Search Console 中的速率设置），但 Bing、Yandex 等搜索引擎支持此指令。对于网站性能优化，建议在服务器端通过限速来控制爬取频率。

robots.txt 对 SEO 有什么影响？

正确配置 robots.txt 对 SEO 至关重要：① 防止抓取浪费 — 阻止爬虫抓取无意义页面（后台、搜索页、筛选结果），将抓取预算集中在核心内容上；② 避免重复内容 — 屏蔽打印版本、归档页面等可能产生重复内容的路径；③ 保护隐私 — 虽非安全措施，但可减少敏感目录暴露；④ Sitemap 发现 — 在 robots.txt 中声明 Sitemap 位置有助于搜索引擎快速发现站点地图。

常见的 robots.txt 配置错误有哪些？

① 路径缺少前导 / — 如 Disallow: admin 应为 Disallow: /admin（缺少/可能不生效）；② 大小写混淆 — URL 路径通常区分大小写，/Admin 和 /admin 是不同的；③ 依赖 robots.txt 保护敏感数据 — robots.txt 不能替代安全措施；④ 忘记 Allow 例外 — 使用 Disallow 屏蔽整个目录时，需要单独 Allow 关键页面（如登录页）；⑤ 在 Disallow 路径末尾多余空格 — 可能导致规则失效。

本工具在浏览器本地完成所有解析与匹配，不会上传您的 robots.txt 内容。模拟结果基于 Google 扩展的 Robots Exclusion Protocol 规范。

最新

Handlebars 模板在线测试 - 输入数据和模板渲染

编写 Handlebars 模板并提供 JSON 数据，即时渲染结果，支持 helpers 自定义，纯前端执行。

开发工具 Handlebars 模板测试渲染

最新

CSS 容器查询演示 - @container 根据父元素响应

设置容器宽度阈值，改变容器大小观察组件内部样式的变化，学习容器查询用法。

CSS CSS 容器查询演示

基础风格迁移演示 - 载入预训练小型模型

利用预训练的轻量变换网络在浏览器中简单演示将图片转换成特定风格。

AI演示 AI 滤镜风格迁移

最新

XSS 过滤器测试沙盒 - 输入转义与过滤演示

输入可能的攻击向量，选择不同的转义或过滤策略，实时查看是否被安全处理，教育安全开发。

安全工具 XSS 安全演示过滤

Go 语言 WebAssembly 演练 - 编译 Go 代码到浏览器运行

编写 Go 代码并在线编译为 WASM，在浏览器中调用并显示输出。

WebAssembly Go WASM WebAssembly 编译

颜色变量命名工具 - 语义化名称建议

输入颜色十六进制值，根据色相和明度给出类似`--color-primary-500`的命名建议。

前端设计 CSS 命名颜色

最新

Web 字体优化建议器 - 分析字体加载对性能的影响

输入网页 URL，检测所用 Web 字体，评估加载策略并给出优化建议。

开发工具 Web 字体优化加载性能

Webmention发送测试 - 手动Ping引用

输入源页和引用页URL，构造Webmention请求通知被引用页面，演示独立博客协议。

开发工具 Webmention 协议发送

CSS缓动函数生成器 - Cubic-Bezier曲线编辑

直观拖拽曲线控制点，生成CSS transition/animation的cubic-bezier()值，并即时播放动画效果预览。

前端设计 CSS Cubic-Bezier 缓动

结构化数据代码快速检查 - 验证 JSON-LD 语法与必填属性

粘贴 JSON-LD 代码，校验语法并提示常见类型的必填属性缺失，辅助 SEO 调试。

SEO JSON-LD SEO 结构化数据验证

最新

代码语言检测工具 - 根据语法特征推断编程语言

粘贴代码片段，基于关键字和语法模式自动推断编程语言，适合未命名文件的快速识别。

分析代码分析识别语言检测

黏菌群体模拟 - 基于代理的路径形成

模拟黏菌释放信息素并追踪轨迹形成网络的过程，可用于可视化物流路径。

模拟模拟群体路径黏菌

SVG转JSX组件生成器 - 自动化React SVG

粘贴SVG代码，将其转换为可复用的React组件，注意驼峰属性名和自闭合标签。

开发工具 JSX SVG 组件

仿生阅读文本生成器 - 单词前半加粗提升速读

将英文文本转换为单词前几个字母加粗的格式，引导视线跳跃式阅读，模拟Bionic Reading效果。

效率工具仿生阅读加粗速读

最新

观察者模式实验室 - 交互式学习设计模式

实现观察者模式，添加被观察者和观察者，观察状态变化时的通知流程。

开发工具学习观察者模式设计模式

戒指尺寸测量器 - 屏幕虚拟量圈

将已有戒指放在屏幕上对照圆圈，或测量手指周长以确定戒指码数。

测量工具尺寸戒指测量

SVM 决策边界可视化 - 交互式支持向量机演示

添加二维点并选择核函数，直观展示SVM决策边界与支持向量，理解最大间隔分类原理。

教育工具 SVM 分类可视化支持向量机

仿生阅读转换器 - 实时加粗前半部分字母

输入网址或文本，将单词首部字母人工加粗，引导视线快速移动，提升阅读速度。

效率工具仿生阅读加粗速读

组件预览沙盒 - 隔离测试 React/Vue 组件

在一个隔离环境中渲染单个组件，调整 props 查看变化，类似于 Storybook 的轻量替代。

开发工具沙盒测试组件预览

知识面板预览工具 - 模拟 Google 商家信息

填写企业信息，模拟在 Google 搜索右侧可能出现的知识面板卡片。

SEO Google SEO 知识面板预览

ResizeObserver演示 - 响应元素尺寸变化

拖拽改变一个div的大小，通过ResizeObserver API实时显示其新的宽度和高度。

前端设计 ResizeObserver 演示监听

代码行数统计工具 - 忽略注释空行

粘贴代码，计算总行数、有效代码行数、注释行数和空行数。

分析工具代码行数分析统计

Datalist 自动建议增强演示 - 动态数据源

演示如何动态更新 datalist 选项以实现搜索建议，并处理键盘选择。

HTML datalist HTML5 演示自动建议

WebSocket压力测试 - 并发连接发送

配置WebSocket地址，模拟多个并发连接，发送自定义消息并记录响应延迟。

开发工具 WebSocket 压力测试并发

SVG转React组件 - 自动生成JSX代码

粘贴SVG代码，自动转换为React函数组件格式，处理属性名驼峰化。

开发工具 React SVG 组件

JSON Schema生成器 - 从JSON数据推断结构

粘贴JSON示例数据，自动分析并生成对应的JSON Schema，支持类型推断和必填标记。

开发工具 JSON JSON Schema 生成器

手写体识别互动 - Canvas写字母机器判断

在Canvas上写一个字母，程序尝试识别，帮助调整笔迹清晰度。

书写字母手写练习识别

机器人变声效果 - Web Audio 录制添加特效

录制一段音频，实时添加机器人、外星人、回声等音效并下载，不依赖服务器。

趣味工具变声机器人特效

缓动函数沙盒 - 自定义贝塞尔及steps试玩

可视化调整cubic-bezier和steps()缓动，并可实时看到动画球左右移动。

前端设计 CSS 动画缓动

最新

Liquid 模板引擎预览器 - 在线测试 Shopify 模板语法

输入 Liquid 模板代码和 JSON 数据，实时查看输出，支持循环、过滤器等常用语法。

开发工具 Liquid 模板测试渲染

robots.txt 测试模拟器 - 验证爬虫规则