2020-07-03 删除Oracle导出的文本文件中的多余换行

2020-07-03  本文已影响0人  硅谷少年

同事说经常遇到导出的文本文件,用excel打开后有些地方自动换行了,导致错列,要手动逐行在excel中调整后才能透视,很不方便。今天这个文件比较大,里面有问题的行比较多,问我有没有办法处理。
我看了下,23M多的文本文件,初步怀疑是有手动换行符出现在不该出现的地方,即 LF,ASCII码0x0A。把文件放我电脑上,winhex打开是乱码,用notepad++打开不方便确认到底是不是换行符,视图->显示符号->显示所有字符,看到是LF,基本确定了,用UltraEdit看了下,确实是0A,确定了就想办法处理。
观察了下,每行是数据库中的一条记录,以 | 竖线分隔字段,行以 LF 结尾。有问题的行,在描述列或其它某列出现了 LF ,那就要把这些不应该出现的去掉,也就是选择性替换一些 | 为 空。肯定用正则替换啦,看上去不难,以前写过简单的正则。
查找里写 ([^|])\n ,替换里写 \1 ,so easy,替换(文件大,Notepad++花了约1分钟才替换完,真的慢),另存,搞定,导入excel看看。
咦,怎么还报错,对A列筛选下,发现有1行有问题。仔细对照原来的内容,发现是有一行没替换,这行是 | 后面跟了LF然后跟了 20位条码,这种情况也要替换掉,咋整?
再观察,发现正常的是 | 后跟 LF 再跟 7位数字的请求号,那就这样,凡是不满足 LF后面跟7位数字的,统统把 LF 干掉!
继续写正则:
\n[^(\d{7})]
先查找一下看看写的对不对,试了下,咦,不对啊,明明刚才有问题的那行就在眼前,总是提示找不到指定的字符?看来正则表达式写的不对,继续百度找资料,看了几篇,有一篇讲到了,(hello) 可以匹配 hello这个单词,但 ^(hello) 不能匹配不等于 hello的单词,原来如此。继续看,要想匹配除 hello 以外的内容,要用到

(?!pattern) 零宽负向先行断言

举例:
/^((?!hello).)+$/

由于断言 (?!hello)是不占位的,后跟的 . 在原位置匹配任意字符,再用括号将其括起来,用+重复一次或多次,前后加上^和$,若是字符串中存在hello,则匹配到h字符之前的时候,断言(?!hello)匹配失败,正则匹配结果为false, 若是字符串中不存在hello,则匹配结果是整个字符串。

实话说,我也是看的云里雾里,管他,既然有效果,我就试试,照葫芦画瓢,查找里,\n[^(\d{7})] 改成 \n(?!(\d{7}).) ,试试,连续点 查找下一个,不错,居然能正常查找到我要替换的地方,太好了,替换里写 \1 ,全部替换,反复替换到第5次,终于提示 找不到指定字符了,好,处理好了。另存,用Excel导入,正常了,不报错,不错行了。
Notepad++替换实在是慢,换UE试试?UE里要注意,默认正则是 UltraEdit 自己家的,【要换成 Perl 或 Unix 才行】,零宽负向先行断言 有点高级,不是所有正则都支持,例如 MS word 就只支持简单的正则,不支持这些。UE替换确实比notepad++快好几倍,每次点了全部替换,不到10秒就替换完了,Notepad++要大约一分钟,等的急,程序无响应。
另外,UE支持批量处理,用【搜索->在文件中替换】这个功能就行,这样一个文件夹里即使有很多文件,替换起来也省事多了。
由于样本文件涉及工作中的数据保密,此处就不贴图了,遇到或遇到过这问题的,自然知道我在说什么,没遇到过的,大概知道这样处理能解决就行,文章先收藏,用时能找到就好。

上一篇下一篇

猜你喜欢

热点阅读