这个工具有问题吗?
关于「文本清理 在线」
该工具规范化杂乱文本。它可以将多个空格合并为一个、从每行去除首尾空白、删除空行、规范化行尾(CR、LF、CRLF)、删除不可打印字符,以及将智能引号替换为直引号——所有这些都在您选择的选项下一次完成。
在从 Word 文档或 PDF 复制粘贴时(其中通常会附带不可见的格式字符)、在规范化用户提交的表单数据时,或在为应忽略外观差异的 diff 比较准备文本时非常有用。
每个选项都可以独立切换,因此您可以根据来源保持清理保守或激进。
如何使用这个工具
如何归一化杂乱的空白与控制字符
粘贴文本
把源文本放入「Text」字段。常见输入:从 PDF 复制过来、行换得奇怪的文本;带不间断空格的爬取字符串;藏着零宽字符(追踪器常用)的消息。
点击运行
结果只有 `cleaned`:连续空格压成一个、连续换行压到最多一个空行、Tab 变单个空格、零宽与 BOM 字符消失。
动什么、不动什么
字母、数字、普通标点、ASCII 之外的 Unicode(emoji、CJK 等)都不动。只对空白、控制码与不可见的格式字符做归一化。
什么时候别用
对空白敏感的源码(YAML、Python、Markdown 缩进)会被毁掉——Tab→空格改变语义。CSV 里如果首尾空格代表空字段,可能丢字段。先 diff 或抽样验证。