这个工具有问题吗?
关于「从文本提取链接 在线」
该工具扫描任何文本并提取它找到的每个 URL。粘贴聊天记录、文档、HTML 源代码或电子邮件中的内容,工具返回去重的、可复制的链接列表。
模式匹配识别 HTTP、HTTPS、FTP 和其他常见协议,以及如果您选择加入,还识别裸域名引用,如"example.com"。每个唯一链接在输出中只出现一次,无论它在源中出现多少次。
在审计长文档中的链接、从研究论文收集引用、根据聊天记录构建提到的网站列表,或分析评论区垃圾链接时非常有用。
如何使用这个工具
如何从任意文本中抽取 URL
粘贴文本
把源文本放入「Text」字段。工具按 `http://` 与 `https://` 前缀扫描;像 `example.com` 这种无协议域名不匹配——它们语义模糊。
点击运行
结果返回 `urls`(去重后的 URL 数组)与 `count`(数量)。按首次出现顺序去重。结尾是 `.`、`,`、`)`、`]` 的 URL 会被裁掉这些尾标点,避免段落结束把匹配污染。
正则会抓到什么
标准的 `scheme://host/path?query#fragment` 形式。追踪参数、片段、端口都保留。非 ASCII 主机名(`https://例え.jp`)能识别;URL 编码的路径原样保留,不做解码。
抓不到的
FTP/file/mailto/data 等协议(只支持 http/https)、纯域名、被换行误切的 URL。要识别奇怪协议,先在文本里给每个关心的域名加上 `https://` 再喂入。