这个工具有问题吗?

关于「robots.txt 生成 在线」

该工具为您的网站构建 robots.txt 文件,告诉搜索引擎爬虫和机器人应该和不应该索引哪些路径。指定每个 user-agent(Googlebot、Bingbot、通用 *)的规则,列出 allow/disallow 路径,添加 sitemap URL,工具会输出可立即部署的 robots.txt。

正确的 robots.txt 可防止对管理区域、搜索结果页面和私有内容的浪费性爬取,同时明确邀请爬虫访问您的站点地图。缺失或配置错误的 robots.txt 可能导致索引膨胀、网站爬行缓慢,或意外阻止公共页面。

将生成的文件放在域的根目录(https://example.com/robots.txt)。该文件只是对行为良好的机器人的提示——它不执行访问控制,因此不要依赖它来隐藏敏感内容免受执着的抓取者。

如何使用这个工具

如何为站点生成 robots.txt

  1. 选择预设

    「Preset」在 `allow-all`(让所有爬虫抓取一切)、`disallow-all`(屏蔽所有爬虫所有 URL,常用于 staging)、`disallow-admin`(大多放行,禁止 `/admin` 与 `/private`)之间选择,会决定写出的 `User-agent: *` 段。

  2. Sitemap URL(可选)

    「Sitemap URL」会在末尾追加一行 `Sitemap:` 指向你的 XML 站点地图。能读到它的搜索引擎不用你再单独提交。使用绝对 URL,如 `https://example.com/sitemap.xml`。

  3. 点击运行

    结果只有 `robotsTxt`。把内容存成名为 `robots.txt` 的真实文件,放在网站根目录——必须能在 `https://example.com/robots.txt`(不是 `/blog/robots.txt`)访问到。

  4. robots.txt 不能做什么

    它只是请求,不是强制。守规则的爬虫(Googlebot、Bingbot)会遵守,恶意爬虫直接忽略。真正的访问控制请用鉴权、IP 阻断或速率限制——而且别在 robots.txt 列出私密路径(那等于把它们公开。)