Python加载txt数据乱码问题升级版解决方法

2019-04-23 本文已影响0人数据人阿多

确定文件编码
当不知道别人给的txt文件不知道是什么编码时，可以通过chardet模块来判断是属于什么编码
chardet模块是第三方模块，需要手动安装

import chardet

data= open('111.TXT','rb').readline()         
#读取一行数据即可，不用全部读取，节省时间，'rb' 指定打开文件时用二进制方法

print(data)      #预览一下二进制数据
chardet.detect(data)     #判断编码

111.png

由输出结果可以判定，该txt是'GB2312'编码概率是99%，confidence: 0.99 ，所以可以确定该txt编码格式就是'GB2312'

用判断出来的编码打开txt文件

f = open('111.TXT','r',encoding='gb2312')        #gb2312<gbk<gb18030
data=f.readlines()           #把数据读取到列表里面
f.close()

222.png

这时出现错误，为什么已经判断文件就是'GB2312'，打开还是报错呢？？？
难道是判断的编码错误的，然后再去读取原txt文件，多读取了一些数据再判断是什么编码，结果还是'GB2312'，这是为什么呢？？？

设置忽略非法字符参数
查看了open函数的参数后，里面有个errors参数，有三个级别可选，一般选择ignore即可

333.png
再次去打开文件
设置errors='ignore'后，成功打开文件

f = open('111.TXT','r',encoding='gb2312',errors='ignore')        
#忽略非法字符  gb2312<gbk<gb18030

data=f.readlines()           #把数据读取到列表里面
f.close()

思考：为什么会有不能识别的字符呢
1.网络爬取的文字，里面有一些表情、其他语言，例如：韩语、日语，不是中文的所能包含的，在再次解码时可能会报错
2.由于文件比较大，在文件拷贝时由于磁盘原因，可别字符被修改或遗漏
3.网络爬取时，信息包里面的字符错误，众所周知信息在传输时是1或0，在网线里面是波形或者激光，如果在较远传输过程中，有可能会丢失信息等一些情况，能确保99%的信息量已经很好了
参考
1.https://www.cnblogs.com/sesshoumaru/p/6047046.html
2.https://www.liaoxuefeng.com/wiki/0014316089557264a6b348958f449949df42a6d3a2e542c000/001510905171877ca6fdf08614e446e835ea5d9bce75cf5000
3.https://baike.baidu.com/item/bytes/6743146?fr=aladdin

以上是自己在处理数据时遇到的一些阻碍，分享出来供大家参考，欢迎指正与交流

Python加载txt数据乱码问题升级版解决方法

猜你喜欢

热点阅读