Python3 读写中文txt备忘

2018-07-12  本文已影响18人  望鱼跃

廖雪峰曾经曰过:用记事本编辑的时候,从文件读取的UTF-8字符被转换为Unicode字符到内存里,编辑完成后,保存的时候再把Unicode转换为UTF-8保存到文件(链接)

事件:在网上下载《西游记》txt做文本分析,发现一只read不成功,编码是GBK

用Cmder file 命令查看文本编码,发现文本是UTF-8 编码


所以把编码改成encoding= "utf-8"后,成功输出

如果使用Windows系统做中文文本分析,建议先把文本编码修改成UTF-8格式。

使用Notepad++ -》编码-》转为UTF-8编码

上一篇 下一篇

猜你喜欢

热点阅读