13_爬虫字符问题

2019-11-27  本文已影响0人  过桥

简述

记录抓取古老网页,遇到编码问题

Unicode 编码 转中文

# 方法一
eval('u"%s"' % column_0)

# 方法二
import json
json.loads('"%s"' % column_0)

\xa0 字符无法解析

\xa0表示不间断空白符

# 方法一
column_0.replace(u'\xa0', u'')

Window bat 执行乱码

设置chcp

@echo off
chcp 65001
F:  
cd F:\spider_demo16_xxxx
start "spider_xxxx" python spider_xxxx.py
exit  
上一篇 下一篇

猜你喜欢

热点阅读