python 读取带BOM的utf-8格式文件

2018-06-13 本文已影响0人 HELLOTREE1

UTF-8分为两种，一种是不带BOM的，一种是带BOM的。其中第一种不带BOM的是标准形式，第二种带BOM的主要是微软的习惯。

微软在UTF-8中使用BOM（Byte order mark）是因为这样可以将UTF-8和ASCII等编码明确区分开。

windows对于utf-8格式的文件存储默认是带有BOM的格式

因为在UNIX环境下，很多的UNIX程序不认识BOM。主要是在UNIX所有脚本语言首行为#！标示，它依赖于shell解析，而很多shell出于兼容的考虑不检测BOM，所以加进BOM时shell会把它解释为某个普通字符输入导致破坏#！标示。比如很多现代脚本语言，例如python，其解释器本身是能处理BOM的，但是shell卡在这里。

因此我们在linux服务器上读取这些txt文件时，会遇到如下报错：

\xef\xbb\xbf…

解决方法

import codecs

with open("xx.txt",'r','utf-8-sig') as file:

line = file.readlines()

或者：

#打开文件,此次应指定编码，

fr=open(filename,'r',encoding='utf-8')

#读取文件所有内容

arrayOLines=fr.readlines()

#针对有BOM的UTF-8文本，应该去掉BOM，否则后面会引发错误。

arrayOLines[0]=arrayOLines[0].lstrip('\ufeff')

python 读取带BOM的utf-8格式文件

猜你喜欢

热点阅读