html数据转pdf的方法(flask英文文档html转pdf教程,保存为pdf文档)
开学在即,你们都在忙着准备各种学习资料,打算在新学期好好学习,充实自己。 我身边的朋友也是这样。 最近,我的朋友小丽遇到了一个非常棘手的问题。
她想在网页上复制一份学习教程,自己学习,如果把几千页的教程用自动的方法一个一个转成pdf保存到本地,实在是太麻烦了。
这是html转pdf的问题。 虽然网上有很多不错的html资源,而且学习起来比较吃力,但是不方便! 于是小编就向小丽保证程序是如何跑起来的pdf,这点小事程序是如何跑起来的pdf,一定会挂在我的脸上。 明天小编就来给大家分享下html数据转pdf的方法。
01.爬取学习资料
现在网上的在线学习资料实在是太多了。 为了方便讲解,小编以.9.2的英文文档作为反例抓包保存到本地。 网页链接如下:
打开以上链接后,您会发现网页上不同内容的链接地址,包括基本字符、语法等内容。
02.获取网页链接
上图中,我们需要多加注意白色方块标记的链接,每个链接都会跳转到对应的子页面,而在子页面中,就是我们要保存的内容。
可以看到,在上图中,快速查看子页面包含了我们需要提取的文本内容。 所以将 html 内容保存为 pdf 的第一步是获取子页面的链接。 由于大部分教程的内容都是固定的,所以教程的网页大多是静态页面,在网页源码中可以很容易找到子页面的网页链接。
对于子网页的链接爬取,程序如右图所示:
程序中通过库解析网页源代码,然后提取所有子页面链接地址并返回。 如果捕获失败,直接返回None。
03.html转pdf
得到子页面的链接后,连接就是将html子页面保存为pdf文件。 小编使用的库,库可以将网页保存为pdf文档。 首先介绍一下库的安装。
按照上面的操作流程,就可以安装库了。 对于库的使用,常见的有以下三种用法:
里面的程序主要完成以下几个步骤:
首先需要指定.exe文件的路径;
因此,图书馆只能将子网页保存为单独的pdf文档,很难直接通过图书馆将所有子网页拼接成一个完整的pdf文档。 编辑器通过库中的类实现pdf文档的拼接。 程序如右图所示。
程序中首先将所有html网页保存为单独的pdf文档,然后通过类对象实现pdf文档的拼接。 最后,你可以得到所有的pdf内容。 最后,让我们通过视频展示来看看该方案的疗效。
另外,该程序不仅可以抓取.9英文文档,还可以抓取其他在线文档,只需更改获取网页链接的程序即可抓取。 比如对于Flask英文文档,程序只需要按照右边的图片进行更改,就可以将Flask的在线文档保存为PDF文档。
04.总结
学习很有趣,但也很有用。 由于有大量现成的库,可以帮助我们轻松解决很多工作中的繁琐烦恼。小编对上面的程序稍加修改,很快就完成了阿里的教程,保存为pdf格式,发给她了。 小编和男神的关系拉近了