python学习日记三（简单爬虫）

2017-12-16 本文已影响87人 HaleyLiu

一、什么是爬虫
网络爬虫（又被称为网页蜘蛛，网络机器人，在FOAF社区中间，更经常的称为网页追逐者），是一种按照一定的规则，自动地抓取万维网信息的程序或者脚本。另外一些不常使用的名字还有蚂蚁、自动索引、模拟程序或者蠕虫。
简而言之就是自动抓取网页的工具。

二、urllib的使用
（1）用urlopen(url, data, timeout)获取网页内容

发现问题：
python3

import urllib.request
html = urllib.request.urlopen('http://www.google.com').read().decode('utf-8')
print(html)

python2

# coding=UTF-8
import urllib2  #调用urllib2  
url='http://www.baidu.com/s?wd=cloga' #把等号右边的网址赋值给url
html=urllib2.urlopen(url).read()   #html随意取名 等号后面的动作是打开源代码页面，并阅读
print html #打印

python2.6里面必须加# coding=UTF-8否则报未设定字符编码错误，pvm编译都无法通过。
SyntaxError: Non-ASCII character '\xe8' in file E:\Eclipse_Project\Test\lrq_init_.py on line 2, but no encoding declared; see http://www.python.org/peps/pep-0263.html for details

python学习日记三（简单爬虫）

猜你喜欢

热点阅读