Unix文本多^M的问题

2019-05-16  本文已影响0人  Zeda_BAE

结构化解决问题的步骤
1、识别问题:明确具体是什么问题。
2、定义问题:将问题分解成可管理的小问题。
3、调查:收集数据和信息。
4、分析:找出问题的根本原因。
5、解决:从众多解决方案中选择最合适的一个。
6、检查解决方案:确认是否已经解决了问题。

最近,测试本地飞行计划引擎服务器时,从Windows系统下生成了一个.txt文件,上传到UNIX服务器上后,每行数据末尾多了很多^M。折腾了一翻终于解决,备忘一下吧。

一、识别问题:明确具体是什么问题

1、明确具体是什么问题?
后台测试数据时反馈数据有异常,多了很多异常字符:

UNIX系统下多了很多^M

检查Windows系统下的原文件,并未发现异常:


Windows原文件正常

2、什么情况下出现的?
文件从Windows通过winscp传送到UNIX服务器上后出现的问题。

二、定义问题:将问题分解成可管理的小问题

通过将问题分解成可管理的小问题,进一步定位最本质的问题。
针对本问题,具体步骤如下:
1、提供的原文件有问题?
经认真检查,并咨询同产品客户,确认原文件不存在问题。

2、传输过程有问题?
惯用的工具,传输稳定性、完整性和可靠性可以得到保障,但也不确保传输工具设置的问题。

3、UNIX服务器文件有问题?
有这种可能,需要进一步分析、排除。

三、调查:收集数据和信息

1、搞清楚业务系统之间逻辑。
通过咨询供应商和相关专家,了解到详细的系统逻辑,进一步分析每一个可能出错的环节。

2、从问题提示入手

根据提示的信息查询相关资料,找出可能的原因。
网上类是问题很多,均指向系统间的兼容性。

四、分析:找出问题的根本原因

通过汇总分析及供应商协助:清晰定位问题,初步制定以下解决方案。

问题根本原因

Window系统中用/r/n来表示换行,linux和UNIX中用/n来表示换行,Windows的文本文件,直接拿到linux和UNIX中使用可能会会出错,因为多出了“/r”字符,这就是我们看到的^M。

DOS/Windows和Linux/Unix的文件换行回车格式不同,基于 DOS/Windows的文本文件在每一行末尾有一个 CR (回车)和 LF (换行),而 UNIX 文本只有一个换行。

LF: Line Feed, U+000A 正则表达式:/n
LCR: Carriage Return, U+000D 正则表达式:/r
Windows中的换行符为CRLF, 即正则表达式的\r\n(ASCII码为13和10), 而Unix(或Linux)换行符为LF, 即正则表达式的\n。
在Windows和Linux下协同工作的时候, 往往这个细小的差别就导致问题

解决方案:网上给出了很多种方法。

✔方法1:windows上传unix时,WinScp选择ASCII方式传输。
FTP有ASCII和Binary两种传输模式。
Binary模式不会对数据进行任何处理。
AscII模式会将回车换行转换为本机的回车字符。
由于WINDOWS和UNIX的行结束符不一样。所以从WINDOWS用Binary传输方式传输文本文件到UNIX时可能会出现^M。同样从UNIX用Binary方式传输文件到WINDOWS时,也可能出现回车换行显示不正确的问题。

方法2:dos2unix工具(最常用的方法)
在终端下敲命令:

dos2unix filename 

直接转换成unix格式,就OK了!

方法3:利用VIM的命令行
用vim打开需要修改的文件,输入‘:’,进入命令模式下输入:

%s/^M//g 

然后,回车即可替换。
解释:
% 指匹配整个文件,s 是置换的意思,其中”^M”在vim下的输入分别是“Ctrl+v<----> ^”、“Ctrl+M<----> M”键生成的,M 后面的 $ 代表匹配行尾的内容。最后的 g 则表示每行中匹配到的内容都要置换。

方法4: 使用vi打开文本文件
vi dos.txt
命令模式下输入

:set fileformat=unix 
:w 

方法5: 使用sed 工具

sed ’s/^M//’ filename > tmp_filename 

方法6: 既然window下的回车符多了‘\r’,那么当然通过删除‘\r’ ,也可以实现:

 tr -d ‘\r’ 

五、解决:从众多解决方案中选择最合适的一个

通过修改WinSCP设置为ASCII模式传输。 WinSCP设置为ASCII模式传输

六、检查解决方案:确认是否已经解决了问题

经验证,业务数据已能正常导入。
至此,问题解决~!

总结
Windows和Linux或UNIX中文件的换行符的不同,导致文件见的一些“不兼容”问题,通过unix2dos 和dos2unix来实现互相转换。

七、后续问题:确认是否有待进一步完善的问题

如何在每次使用WinSCP传输完数据后都不忘记进行转换,这需要进一步思考一个长效的解决办法。





补充知识:[Linux命令学习总结:dos2unix - unix2dos]

命令简介:

dos2unix是将Windows格式文件转换为Unix、Linux格式的实用命令。Windows格式文件的换行符为\r\n ,而Unix&Linux文件的换行符为\n. dos2unix命令其实就是将文件中的\r\n 转换为\n。

而unix2dos则是和dos2unix互为孪生的一个命令,它是将Linux&Unix格式文件转换为Windows格式文件的命令。

命令语法:

dos2unix [options] [-c convmode] [-o file ...] [-n infile outfile ...]
unix2dos [options] [-c convmode] [-o file ...] [-n infile outfile ...]

命令参数:

此命令参数是Red Hat Enterprise Linux Server release 5.7下dos2unix命令参数,不同版本Linux的dos2nnix命令参数有可能不同。


上一篇下一篇

猜你喜欢

热点阅读