python爬虫豆瓣250top电影作业

2022-05-04  本文已影响0人  VivaVida

from bs4 import BeautifulSoup
import re
import os
import urllib.request, urllib.error
import urllib.parse  # 解析器
import xlwt
import sqlite3

#主函数
def main():
    baseurl="https://movie.douban.com/top250?start="
    #1.爬取网页
    datalist = getData(baseurl)
    #savepath=".\\data.xls" #excel保存方法
    dbpath="movie.db"
    #3.保存数据
    #saveData(datalist,savepath)
    save2dbPath=(datalist,dbpath)
#定义全局变量:用于筛选的几种规则
#re.compile-创建正则表达式对象,表示字符串格式(规则)
#链接格式是 <a href= “这里是链接有各种字符” >;  ()一个组;   .表示一个字符;  *表示0个或多个字符;   ?表示0次或1次
#‘’表示字符串
findLink = re.compile(r'<a href="(.*?)">')
findImgSrc=re.compile(r'<img.*src="(.*?)"',re.S) # .*表示有若干字符;re.S 让换行符包含在字符中
findTitles = re.compile(r'<span class="title">(.*)</span>')
findRating = re.compile(r'<span class="rating_num" property="v:average">(.*)</span>')
findJudge = re.compile(r'<span>(\d*)人评价</span>')#\d 表示数字
findInq = re.compile(r'<span class="inq">(.*)</span>')
findBd=re.compile(r'<p class="">(.*?)</p>',re.S)



#爬取网页
def getData(baseurl):

    datalist=[]
    for i in range(0,10): #调用获取页面信息的函数
        url=baseurl+str(i*25)
        html = askURL(url) #保存获取的网页源码

        #2.逐一解析数据
        soup= BeautifulSoup(html,"html.parser")#用html.parser这个html解析器来解析html
        for item in soup.find_all('div',class_='item'):
        #查找所需内容形成列表,注意class_是避免class类别报错
        #查找div 里面属性class的内容是”docsum-content“
            data=[] #保存一部电影所有信息
            item=str(item)

            #影片详情的连接
            # 用正则表达式查找指定字符串
            link=re.findall(findLink,item)[0] #用findLink模式从item里面找符合的内容,获取第一个[0]
            data.append(link) #添加连接
            imgSrc =re.findall(findImgSrc,item)[0]
            data.append(imgSrc)#添加图片
            titles = re.findall(findTitles, item)
            # 可能有中英文名
            if (len(titles)==2):
                Ctitle=titles[0]
                data.append(Ctitle)
                Ftitle=titles[1].replace("/","")#去斜杠
                data.append(Ftitle)
            else:
                data.append(titles[0])
                data.append(' ') #注意留空
            rates = re.findall(findRating, item)[0]
            data.append(rates)
            judge = re.findall(findJudge, item)[0]
            data.append(judge)
            inq = re.findall(findInq, item) #有可能没有概述
            if len(inq)!=0:
                inq=inq[0].replace("。","")#去掉句号
                data.append(inq)
            else:
                data.append(" ")  #留空

            bd = re.findall(findBd, item)[0]
            bd=re.sub('<br(\s+)?/>(\s+)?',' ',bd)#替换不需要的成分<br/>
            bd = re.sub('/', ' ', bd) #替换/
            data.append(bd.strip())#去掉前后空格

            datalist.append(data) #把处理好一部电影的信息放入datalist

    # print(datalist)
    return datalist


#得到指定一个URL的网页内容,askURL函数调用可以时多个url被调用
def askURL(url):
    head={ #模拟浏览器头部信息,向服务器发送消息
         "User-Agent": "Mozilla/5.0 (Macintosh; Intel Mac OS X 10_9_5) AppleWebKit 537.36 (KHTML, like Gecko) Chrome6 Edg/89.0.774.63"
    }
    #用户代理,表示告诉豆瓣服务器,我们是什么类型的机器,浏览器(本质是告诉浏览器,我们可以接受什么水平的文件内容)

    request=urllib.request.Request(url,headers=head) #库.对象.封装(url,头部信息),携带头部信息访问url

    html = ""#用字符串 存储访问
    try:
        response=urllib.request.urlopen(request) #发出信息后返回一个对象response包含所有网页信息
        html=response.read().decode("utf-8") #.read 方式读取
        # print(html)
    except urllib.error.URLError as e: #可能会遇到404,500等访问异常
        if hasattr(e,"code"):#hasattr(e,"code")判断e这个对象里面是否包含了code这个属性
            print(e.code)#打印错误变量
        if hasattr(e,"reason"):
            print(e.reason)#打印错误原因
    return html


#保存数据
def saveData(datalist,savepath):
    print("save...")
    workspace=xlwt.Workbook(encoding="utf-8") #创建excel
    worksheet=workspace.add_sheet("豆瓣电影250",cell_overwrite_ok=True) #创建工作表,可以覆盖输入
    col=("链接","图片链接","影片中文名","影片英文名","影片评分","影片评分人数","一句话介绍","详情")
    for i in range(0,8):
        worksheet.write(0,i,col[i]) #在第1行,沿着i列写入列名
    for j in range(0,250):
        print("第%d行"%j)
        data= datalist[j]#读取datalist 第j行
        for i in range(0,8):
            worksheet.write(j+1,i,data[i])#从第2行开始,写入i列数据
    workspace.save(savepath)# 保存


#创建数据库
#初始化数据库
def init_db(dbpath):
    #sql="" #创建数据表
    sql='''
        create table movie250 
        (
        id integer primary key autoincrement,
        info_link text,
        pic_link text,
        cname varchar,
        ename varchar,
        score numeric ,
        rated numeric ,
        instroduction text,
        info text
        )
    '''
    #create table 表格名(
    # 变量名 integer整数型 primary key主键 autoincrement自增长,
    # 变量名 text文本格式,
    # 变量名 varchar,
    # 变量名 numeric数值(可小数)
    # )
    conn=sqlite3.connect(dbpath)
    cursor=conn.cursor()#创建游标 进行操作
    cursor.execute(sql)#用cursor调用执行的sql语句
    conn.commit()#提交
    conn.close()#关闭数据库




#保存到数据库
def save2db(datalist,dbpath):
    print("....")





#函数入口
if __name__=="__main__": #当主函数执行时
    #__name__表明当前执行的程序的名字
    #如果执行的程序名name=main
    # main()#调用函数
    init_db('movie250.db')
    print("爬取完毕!")
上一篇下一篇

猜你喜欢

热点阅读