2020-07-03 删除Oracle导出的文本文件中的多余换行

2020-07-03 本文已影响0人硅谷少年

同事说经常遇到导出的文本文件，用excel打开后有些地方自动换行了，导致错列，要手动逐行在excel中调整后才能透视，很不方便。今天这个文件比较大，里面有问题的行比较多，问我有没有办法处理。
我看了下，23M多的文本文件，初步怀疑是有手动换行符出现在不该出现的地方，即 LF，ASCII码0x0A。把文件放我电脑上，winhex打开是乱码，用notepad++打开不方便确认到底是不是换行符，视图->显示符号->显示所有字符，看到是LF，基本确定了，用UltraEdit看了下，确实是0A，确定了就想办法处理。
观察了下，每行是数据库中的一条记录，以 | 竖线分隔字段，行以 LF 结尾。有问题的行，在描述列或其它某列出现了 LF ，那就要把这些不应该出现的去掉，也就是选择性替换一些 | 为空。肯定用正则替换啦，看上去不难，以前写过简单的正则。
查找里写 ([^|])\n ，替换里写 \1 ，so easy，替换（文件大，Notepad++花了约1分钟才替换完，真的慢），另存，搞定，导入excel看看。
咦，怎么还报错，对A列筛选下，发现有1行有问题。仔细对照原来的内容，发现是有一行没替换，这行是 | 后面跟了LF然后跟了 20位条码，这种情况也要替换掉，咋整？
再观察，发现正常的是 | 后跟 LF 再跟 7位数字的请求号，那就这样，凡是不满足 LF后面跟7位数字的，统统把 LF 干掉！
继续写正则：
\n[^(\d{7})]
先查找一下看看写的对不对，试了下，咦，不对啊，明明刚才有问题的那行就在眼前，总是提示找不到指定的字符？看来正则表达式写的不对，继续百度找资料，看了几篇，有一篇讲到了，(hello) 可以匹配 hello这个单词，但 ^(hello) 不能匹配不等于 hello的单词，原来如此。继续看，要想匹配除 hello 以外的内容，要用到

(?!pattern) 零宽负向先行断言

举例：
/^((?!hello).)+$/

由于断言 (?!hello)是不占位的，后跟的 . 在原位置匹配任意字符，再用括号将其括起来，用+重复一次或多次，前后加上^和$，若是字符串中存在hello，则匹配到h字符之前的时候，断言(?!hello)匹配失败，正则匹配结果为false，若是字符串中不存在hello，则匹配结果是整个字符串。

实话说，我也是看的云里雾里，管他，既然有效果，我就试试，照葫芦画瓢，查找里，\n[^(\d{7})] 改成 \n(?!(\d{7}).) ,试试，连续点查找下一个，不错，居然能正常查找到我要替换的地方，太好了，替换里写 \1 ，全部替换，反复替换到第5次，终于提示找不到指定字符了，好，处理好了。另存，用Excel导入，正常了，不报错，不错行了。
Notepad++替换实在是慢，换UE试试？UE里要注意，默认正则是 UltraEdit 自己家的，【要换成 Perl 或 Unix 才行】，零宽负向先行断言有点高级，不是所有正则都支持，例如 MS word 就只支持简单的正则，不支持这些。UE替换确实比notepad++快好几倍，每次点了全部替换，不到10秒就替换完了，Notepad++要大约一分钟，等的急，程序无响应。
另外，UE支持批量处理，用【搜索->在文件中替换】这个功能就行，这样一个文件夹里即使有很多文件，替换起来也省事多了。
由于样本文件涉及工作中的数据保密，此处就不贴图了，遇到或遇到过这问题的，自然知道我在说什么，没遇到过的，大概知道这样处理能解决就行，文章先收藏，用时能找到就好。

2020-07-03 删除Oracle导出的文本文件中的多余换行

(?!pattern) 零宽负向先行断言

猜你喜欢

热点阅读