Python加载txt数据乱码问题升级版解决方法

2019-04-23  本文已影响0人  数据人阿多
import chardet

data= open('111.TXT','rb').readline()         
#读取一行数据即可,不用全部读取,节省时间,'rb' 指定打开文件时用二进制方法

print(data)      #预览一下二进制数据
chardet.detect(data)     #判断编码
111.png

由输出结果可以判定,该txt是'GB2312'编码概率是99%,confidence: 0.99 ,所以可以确定该txt编码格式就是'GB2312'

f = open('111.TXT','r',encoding='gb2312')        #gb2312<gbk<gb18030
data=f.readlines()           #把数据读取到列表里面
f.close()
222.png

这时出现错误,为什么已经判断文件就是'GB2312',打开还是报错呢???
难道是判断的编码错误的,然后再去读取原txt文件,多读取了一些数据再判断是什么编码,结果还是'GB2312',这是为什么呢???

f = open('111.TXT','r',encoding='gb2312',errors='ignore')        
#忽略非法字符  gb2312<gbk<gb18030

data=f.readlines()           #把数据读取到列表里面
f.close()

以上是自己在处理数据时遇到的一些阻碍,分享出来供大家参考,欢迎指正与交流

上一篇下一篇

猜你喜欢

热点阅读