这个工具有问题吗?

关于「文本清理 在线」

该工具规范化杂乱文本。它可以将多个空格合并为一个、从每行去除首尾空白、删除空行、规范化行尾(CR、LF、CRLF)、删除不可打印字符,以及将智能引号替换为直引号——所有这些都在您选择的选项下一次完成。

在从 Word 文档或 PDF 复制粘贴时(其中通常会附带不可见的格式字符)、在规范化用户提交的表单数据时,或在为应忽略外观差异的 diff 比较准备文本时非常有用。

每个选项都可以独立切换,因此您可以根据来源保持清理保守或激进。

如何使用这个工具

如何归一化杂乱的空白与控制字符

  1. 粘贴文本

    把源文本放入「Text」字段。常见输入:从 PDF 复制过来、行换得奇怪的文本;带不间断空格的爬取字符串;藏着零宽字符(追踪器常用)的消息。

  2. 点击运行

    结果只有 `cleaned`:连续空格压成一个、连续换行压到最多一个空行、Tab 变单个空格、零宽与 BOM 字符消失。

  3. 动什么、不动什么

    字母、数字、普通标点、ASCII 之外的 Unicode(emoji、CJK 等)都不动。只对空白、控制码与不可见的格式字符做归一化。

  4. 什么时候别用

    对空白敏感的源码(YAML、Python、Markdown 缩进)会被毁掉——Tab→空格改变语义。CSV 里如果首尾空格代表空字段,可能丢字段。先 diff 或抽样验证。