python爬虫豆瓣250top电影作业
2022-05-04 本文已影响0人
VivaVida
from bs4 import BeautifulSoup
import re
import os
import urllib.request, urllib.error
import urllib.parse # 解析器
import xlwt
import sqlite3
#主函数
def main():
baseurl="https://movie.douban.com/top250?start="
#1.爬取网页
datalist = getData(baseurl)
#savepath=".\\data.xls" #excel保存方法
dbpath="movie.db"
#3.保存数据
#saveData(datalist,savepath)
save2dbPath=(datalist,dbpath)
#定义全局变量:用于筛选的几种规则
#re.compile-创建正则表达式对象,表示字符串格式(规则)
#链接格式是 <a href= “这里是链接有各种字符” >; ()一个组; .表示一个字符; *表示0个或多个字符; ?表示0次或1次
#‘’表示字符串
findLink = re.compile(r'<a href="(.*?)">')
findImgSrc=re.compile(r'<img.*src="(.*?)"',re.S) # .*表示有若干字符;re.S 让换行符包含在字符中
findTitles = re.compile(r'<span class="title">(.*)</span>')
findRating = re.compile(r'<span class="rating_num" property="v:average">(.*)</span>')
findJudge = re.compile(r'<span>(\d*)人评价</span>')#\d 表示数字
findInq = re.compile(r'<span class="inq">(.*)</span>')
findBd=re.compile(r'<p class="">(.*?)</p>',re.S)
#爬取网页
def getData(baseurl):
datalist=[]
for i in range(0,10): #调用获取页面信息的函数
url=baseurl+str(i*25)
html = askURL(url) #保存获取的网页源码
#2.逐一解析数据
soup= BeautifulSoup(html,"html.parser")#用html.parser这个html解析器来解析html
for item in soup.find_all('div',class_='item'):
#查找所需内容形成列表,注意class_是避免class类别报错
#查找div 里面属性class的内容是”docsum-content“
data=[] #保存一部电影所有信息
item=str(item)
#影片详情的连接
# 用正则表达式查找指定字符串
link=re.findall(findLink,item)[0] #用findLink模式从item里面找符合的内容,获取第一个[0]
data.append(link) #添加连接
imgSrc =re.findall(findImgSrc,item)[0]
data.append(imgSrc)#添加图片
titles = re.findall(findTitles, item)
# 可能有中英文名
if (len(titles)==2):
Ctitle=titles[0]
data.append(Ctitle)
Ftitle=titles[1].replace("/","")#去斜杠
data.append(Ftitle)
else:
data.append(titles[0])
data.append(' ') #注意留空
rates = re.findall(findRating, item)[0]
data.append(rates)
judge = re.findall(findJudge, item)[0]
data.append(judge)
inq = re.findall(findInq, item) #有可能没有概述
if len(inq)!=0:
inq=inq[0].replace("。","")#去掉句号
data.append(inq)
else:
data.append(" ") #留空
bd = re.findall(findBd, item)[0]
bd=re.sub('<br(\s+)?/>(\s+)?',' ',bd)#替换不需要的成分<br/>
bd = re.sub('/', ' ', bd) #替换/
data.append(bd.strip())#去掉前后空格
datalist.append(data) #把处理好一部电影的信息放入datalist
# print(datalist)
return datalist
#得到指定一个URL的网页内容,askURL函数调用可以时多个url被调用
def askURL(url):
head={ #模拟浏览器头部信息,向服务器发送消息
"User-Agent": "Mozilla/5.0 (Macintosh; Intel Mac OS X 10_9_5) AppleWebKit 537.36 (KHTML, like Gecko) Chrome6 Edg/89.0.774.63"
}
#用户代理,表示告诉豆瓣服务器,我们是什么类型的机器,浏览器(本质是告诉浏览器,我们可以接受什么水平的文件内容)
request=urllib.request.Request(url,headers=head) #库.对象.封装(url,头部信息),携带头部信息访问url
html = ""#用字符串 存储访问
try:
response=urllib.request.urlopen(request) #发出信息后返回一个对象response包含所有网页信息
html=response.read().decode("utf-8") #.read 方式读取
# print(html)
except urllib.error.URLError as e: #可能会遇到404,500等访问异常
if hasattr(e,"code"):#hasattr(e,"code")判断e这个对象里面是否包含了code这个属性
print(e.code)#打印错误变量
if hasattr(e,"reason"):
print(e.reason)#打印错误原因
return html
#保存数据
def saveData(datalist,savepath):
print("save...")
workspace=xlwt.Workbook(encoding="utf-8") #创建excel
worksheet=workspace.add_sheet("豆瓣电影250",cell_overwrite_ok=True) #创建工作表,可以覆盖输入
col=("链接","图片链接","影片中文名","影片英文名","影片评分","影片评分人数","一句话介绍","详情")
for i in range(0,8):
worksheet.write(0,i,col[i]) #在第1行,沿着i列写入列名
for j in range(0,250):
print("第%d行"%j)
data= datalist[j]#读取datalist 第j行
for i in range(0,8):
worksheet.write(j+1,i,data[i])#从第2行开始,写入i列数据
workspace.save(savepath)# 保存
#创建数据库
#初始化数据库
def init_db(dbpath):
#sql="" #创建数据表
sql='''
create table movie250
(
id integer primary key autoincrement,
info_link text,
pic_link text,
cname varchar,
ename varchar,
score numeric ,
rated numeric ,
instroduction text,
info text
)
'''
#create table 表格名(
# 变量名 integer整数型 primary key主键 autoincrement自增长,
# 变量名 text文本格式,
# 变量名 varchar,
# 变量名 numeric数值(可小数)
# )
conn=sqlite3.connect(dbpath)
cursor=conn.cursor()#创建游标 进行操作
cursor.execute(sql)#用cursor调用执行的sql语句
conn.commit()#提交
conn.close()#关闭数据库
#保存到数据库
def save2db(datalist,dbpath):
print("....")
#函数入口
if __name__=="__main__": #当主函数执行时
#__name__表明当前执行的程序的名字
#如果执行的程序名name=main
# main()#调用函数
init_db('movie250.db')
print("爬取完毕!")