当前位置：首页 > 值得一看 > 科技 > html数据转pdf的方法（flask英文文档html转pdf教程，保存为pdf文档）

html数据转pdf的方法（flask英文文档html转pdf教程，保存为pdf文档）

Eddy3年前 (2023-03-30)科技14330

开学在即，你们都在忙着准备各种学习资料，打算在新学期好好学习，充实自己。我身边的朋友也是这样。最近，我的朋友小丽遇到了一个非常棘手的问题。

她想在网页上复制一份学习教程，自己学习，如果把几千页的教程用自动的方法一个一个转成pdf保存到本地，实在是太麻烦了。

这是html转pdf的问题。虽然网上有很多不错的html资源，而且学习起来比较吃力，但是不方便！于是小编就向小丽保证程序是如何跑起来的pdf，这点小事程序是如何跑起来的pdf，一定会挂在我的脸上。明天小编就来给大家分享下html数据转pdf的方法。

01.爬取学习资料

现在网上的在线学习资料实在是太多了。为了方便讲解，小编以.9.2的英文文档作为反例抓包保存到本地。网页链接如下：

打开以上链接后，您会发现网页上不同内容的链接地址，包括基本字符、语法等内容。

02.获取网页链接

上图中，我们需要多加注意白色方块标记的链接，每个链接都会跳转到对应的子页面，而在子页面中，就是我们要保存的内容。

可以看到，在上图中，快速查看子页面包含了我们需要提取的文本内容。所以将 html 内容保存为 pdf 的第一步是获取子页面的链接。由于大部分教程的内容都是固定的，所以教程的网页大多是静态页面，在网页源码中可以很容易找到子页面的网页链接。

对于子网页的链接爬取，程序如右图所示：

程序中通过库解析网页源代码，然后提取所有子页面链接地址并返回。如果捕获失败，直接返回None。

03.html转pdf

得到子页面的链接后，连接就是将html子页面保存为pdf文件。小编使用的库，库可以将网页保存为pdf文档。首先介绍一下库的安装。

按照上面的操作流程，就可以安装库了。对于库的使用，常见的有以下三种用法：

里面的程序主要完成以下几个步骤：

首先需要指定.exe文件的路径；

因此，图书馆只能将子网页保存为单独的pdf文档，很难直接通过图书馆将所有子网页拼接成一个完整的pdf文档。编辑器通过库中的类实现pdf文档的拼接。程序如右图所示。

程序中首先将所有html网页保存为单独的pdf文档，然后通过类对象实现pdf文档的拼接。最后，你可以得到所有的pdf内容。最后，让我们通过视频展示来看看该方案的疗效。

另外，该程序不仅可以抓取.9英文文档，还可以抓取其他在线文档，只需更改获取网页链接的程序即可抓取。比如对于Flask英文文档，程序只需要按照右边的图片进行更改，就可以将Flask的在线文档保存为PDF文档。

04.总结

学习很有趣，但也很有用。由于有大量现成的库，可以帮助我们轻松解决很多工作中的繁琐烦恼。小编对上面的程序稍加修改，很快就完成了阿里的教程，保存为pdf格式，发给她了。小编和男神的关系拉近了

扫描二维码推送至手机访问。

标签: html文件

返回列表

悦耳博客