Pandas读取csv文件报错处理
2019-07-11 本文已影响0人
践行数据分析
pd.read_csv(路径)直接读取文件报错uft-8的错
UnicodeDecodeError: 'utf-8' codec can't decode byte 0xc9 in position 0: invalid continuation byte
这是因为:csv文件的编码格式与python读入文件的指定的encoding参数不一致,
encoding参数默认为 utf-8
中文字符的Unicode编码0x0800-0xFFFF之间,(utf-8包含了部分汉字)
当你试图将该“中文字符”转成U码的utf-8时超出了其范筹
而GBK 规范收录了 ISO 10646.1 中的全部 CJK 汉字和符号,并有所补充,
所以解决方法是将.encoding('utf-8')改为.encoding('gbk')
补充知识点:
read_csv() :从文件中加载带有分隔符的数据,默认分隔符是指逗号
read_table():从文件中加载带有分隔符的数据,默认分隔符是制表符
如果用read_table加载csv的文件,会把csv的原始数据显示出来,我们知道csv的文件是逗号分隔符的
这是因为没有指定分隔符是什么,如果指定分隔符参数sep=''' 也是可以加载正确的