Pandas读取csv文件报错处理

2019-07-11  本文已影响0人  践行数据分析

pd.read_csv(路径)直接读取文件报错uft-8的错

UnicodeDecodeError: 'utf-8' codec can't decode byte 0xc9 in position 0: invalid continuation byte

这是因为:csv文件的编码格式与python读入文件的指定的encoding参数不一致,

encoding参数默认为 utf-8

中文字符的Unicode编码0x0800-0xFFFF之间,(utf-8包含了部分汉字)

当你试图将该“中文字符”转成U码的utf-8时超出了其范筹

而GBK 规范收录了 ISO 10646.1 中的全部 CJK 汉字和符号,并有所补充,

所以解决方法是将.encoding('utf-8')改为.encoding('gbk')

补充知识点:

read_csv() :从文件中加载带有分隔符的数据,默认分隔符是指逗号

read_table():从文件中加载带有分隔符的数据,默认分隔符是制表符

如果用read_table加载csv的文件,会把csv的原始数据显示出来,我们知道csv的文件是逗号分隔符的

这是因为没有指定分隔符是什么,如果指定分隔符参数sep=''' 也是可以加载正确的

上一篇下一篇

猜你喜欢

热点阅读