[日更挑战-第十弹]python-网页保存为pdf
2020-05-25 本文已影响0人
小明阿婆
今天用到是python的一个第三方库: pdfkit
pdfkit 是一个十分强大的第三方库,只需要把网页的url(需要登录或其他特殊方式才能访问的除外)传入,仅靠它自己就能将网页保存为pdf。当然,pdfkit 库也支持文件和源码的传入,同样能将获取到的保存为pdf。
使用工具:pdfkit
环境准备:
- 搭建python开发环境
- 在cmd下运行下面的命令
pip install pdfkit
- 安装 wkhtmltopdf,第三方安装包,安装时注意保存安装地址。
源码讲解环节
好的,下面就是喜闻乐见的源码讲解环节了(´◔౪◔)
import requests
import pdfkit
# 直接访问url
# 一篇新浪博客的url
url = 'http://blog.sina.com.cn/s/blog_4b0f52990102z24g.html'
# 这里指定一下wkhtmltopdf的路径,这就是我为啥在前面让记住这个路径
confg = pdfkit.configuration(wkhtmltopdf=r'F:\13-wkhtmltopdf\wkhtmltopdf\bin\wkhtmltopdf.exe')
pdfkit.from_url(url, 'test1.pdf', configuration=confg)
# 用requests爬取到的网页代码生成pdf
header = {"User-Agent":"Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/58.0.3029.110 Safari/537.36"}
r = requests.get(url, headers=header)
# 爬取中文时为乱码,需要添加
r.encoding = 'utf-8'
r = r.text
with open('index.html', 'w', encoding='utf-8')as f:
f.write(r)
print('源码保存完毕')
print('开始从源码生成pdf文件')
pdfkit.from_string(r, 'test2.pdf', configuration=confg)
print('开始从文件源代码生成pdf文件')
pdfkit.from_file("index.html", 'test3.pdf', configuration=confg)
效果展示
那么本次的分享就在这里了,喜欢的话麻烦点赞关注一下
不喜欢的话可以去看下小编的其他文章,肯定有喜欢的
都不喜欢的话可以点个关注,万一以后有喜欢的呢(๑•̀ㅂ•́)و✧