Python玩耍Python首页投稿(暂停使用,暂停投稿)

4.Python3爬虫入门

2016-07-25  本文已影响942人  KaelQ

1.爬虫概述

1.1 抓取网页

import urllib.request
url="http://www.baidu.com"
page=urllib.request.urlopen(url).read()
print(page)

urllib.request.urlopen(url) 用来打开网页
read() 用来读取网页
输出的结果是网页代码。

1.2 书写需要抓取信息的正则表达式

import urllib.request
import re
url="http://www.baidu.com"
page=urllib.request.urlopen(url).read()
page=page.decode('utf8') #转码
title=re.findall('<title>(.*?)</title>',page,re.S)#re.S表示.可以代表\n
print(title)

输出为:

['百度一下,你就知道']

1.3 总结表

方法 所需库 作用
urllib.request.urlopen() urllib.request 打开网页
read() urllib.request 读取网页代码
re.findall('正则表达式',文本) re 使用正则表达式找所需信息

下面是个例子也是我写的
我是例子

上一篇 下一篇

猜你喜欢

热点阅读