30 怎么快速把任意文件格式转成PDF，并批量加水印？你好，我是尹会生。

在办公场景中，我们打交道最多的软件，要数Office的办公套件了，功能丰富且强大，使用方便。不过你可能也会发现，我们经常用于文字编辑的Word软件，它使用的docx扩展名的文件无论是在不同操作系统平台、不同的设备上，还是在内容安全性和格式的兼容性上，都没有PDF文件强大。Excel和PowerPoint中的文件也是如此。

例如：你需要把公司的合同范本发给其他公司审阅，为了保证文本不会被随意篡改，往往需要把Word或PowerPoint的文件转换为PDF文件，再通过邮件发给其他公司。而且，随着数字化转型的开始，原本在计算机上正常显示的表格，拿到手机上可能会缺少字体；也可能因为屏幕宽度不同，导致格式无法对齐；还可能会出现无法显示文字等格式问题。

不过这些问题呢，PDF统统可以解决。所以像是商业的条款、合同、产品介绍，既要保证安全，又要确保格式正确，如果你不想限制用户必须要用多宽的显示器，或者必须安装好特定的字体，才能看到你的Word、Excel、PowerPoint里的内容的话，那么使用PDF文件就是非常必要的了。

所以在今天这一讲中，我将带你学习如何把Word、Excel、PowerPoint的默认文件格式批量转换为PDF文件，并教你怎么给PDF文件增加水印，既保证样式美观，又确保文档的安全。

将常用办公文件转换为PDF格式

如果你以前遇到过类似转换为PDF文件的需求，那么在你搜索Python的第三方库时，就会发现，将Word、Excel、PowerPoint 的默认文件保存格式转换为PDF的库非常多。由于我要将多种格式的文件转换为PDF，那么为了我就需要使用一个能支持Office所有组件的库，而这个库就是pywin32库。

pywin32库支持了绝大多数的Windows API，因此它只能运行在操作系统是Windows上，当你需要使用pywin32操作Office各个组件时，可以利用pywin32库调用Offcie组件中的VBA实现Office组件的大部分功能。

接下来，我将从pywin32库的安装开始，来为你逐步讲解一下如何把Office组件中的Word、Excel、PowerPoint的默认文件保存格式转换为PDF文件。

虽然你要学习三种不同的软件格式转换为PDF文件，但是它们三个文件格式转换的思路和被调用的函数是相同的，你可以通过对照Word文件转换为PDF来去掌握其他两个软件的文件格式转换代码，来学习自动格式转换，这样学起来会更加轻松。

将Word文档转换为PDF

我先以Word为例，来为你讲解一下pywin32库的安装、导入，以及将Word文档进行转换的操作步骤。

由于pywin32是第三方库，所以你要使用pip命令把它安装到你的Windows计算机中。这里需要注意，pywin32的安装包和软件名称不同，而且导入的库名称也和pywin32不同。所以我把pywin32库的安装和导入时，使用的名称写在文档中，供你进行参考： SHELL$ pip3 install pypiwin32 PYTHON> import win32com

我们用于格式转换的库叫做“win32com”，它是pywin32软件的库名称。安装它时，你要使用pypiwin32，作为它的安装包名称来使用。这是第一次接触该库最容易混淆的地方，我建议你在阅读后续内容前，先对“pywin32、pypiwin32、win32com”这三个概念进行区分。

在你正确区分上面三个概念之后，我们就可以开始导入win32com库，并调用VBA脚本，来把Word文档转换为PDF格式了。

为了让你更好地理解win32com库的执行过程，我来为你举个例子。我在”C:\data”文件夹下有一个Word格式的a.doc文件，现在要将它自动转换为a.pdf文件，并继续存储在该目录中。如果你手动进行格式转换，只是需要以下四个步骤：

进入到C:\data文件夹；
使用Office的Word组件打开 a.doc文件；
使用“文件另存为”功能，保存为PDF格式，并指定保存目录；
保存并关闭Word文件，退出Word进程。

由于win32com库是调用Word的VBA脚本实现的格式转换功能，因此转换格式的Python代码步骤也和手动操作Word几乎相同，少数不同的地方是因为win32com支持的组件较多，需要指定当前转换采用的VBA脚本为Word文件的脚本。我将Word转换PDF的代码写在下方，供你参考。 from win32com import client def word2pdf(filepath, wordname, pdfname): worddir = filepath /# 指定Word类型 word = client.DispatchEx(“Word.Application”) /# 使用Word软件打开a.doc file = word.Documents.Open(f”{worddir}{wordname}”, ReadOnly=1) /# 文件另存为当前目录下的pdf文件 file.ExportAsFixedFormat(f”{worddir}{pdfname}”, FileFormat=17， Item=7, CreateBookmarks=0) /# 关闭文件 file.Close() /# 结束word应用程序进程 word.Quit()

我来为你详细解释一下上面这段代码。这段代码中我定义了一个word2pdf()函数，它被Python调用时，会根据自己的参数将word文件的路径、word文件的名称和pdf名称传入参数中。

根据这些参数word2pdf()函数会调用DispatchEx()打开Word程序，再使用Open()函数打开a.doc文件，并使用ExportAsFixedFormat()函数将Word文件另存为PDF文件之后，使用Close()和Quit()关闭a.doc文件并结束Word进程。

由于win32com是用过Word的VBA脚本实现对Word进程行为的控制的，所以它的操作步骤和手动操作非常相似，所以这段代码也非常容易理解。

那在这里我需要提醒你注意两个容易被忽视的问题，第一个是由于win32com库在Windows系统上是直接调用Word进程实现格式转换的，因此你必须为当前的Windows安装Word以及Office的办公组件。那另一个是由于win32com对Word操作的方式是基于Word的VBA脚本，所以你想在转换时为ExportAsFixedFormat()函数增加新的参数，需要参考Office官方网站的文档。

我也将Office官方网站关于Word的VBA脚本所在网页提供给你做参考（https://docs.microsoft.com/zh-cn/office/vba/api/word.document.exportasfixedformat）。当你增加新的功能时，可以通过网页的内容来获得更多功能。

将Excel表格转换为PDF

在你掌握了如何使用win32com实现Word文档转换为PDF之后，我再来带你实现Excel表格自动转换为PDF的功能，你也可以对比着来学习掌握，同时也注意观察把Excel和Word文件转换为PDF的主要差别。

Excel表格默认保存的文件格式是xls或xlsx，将xls或xlsx格式转换为PDF的步骤和思路与Word文档转换为PDF相同，所以我先把代码提供给你，然后再为你讲解。代码如下： from win32com import client def excel2pdf(filepath, excelname, pdfname): exceldir = filepath /# 指定Excel类型 excel = client.DispatchEx(“Excel.Application”) /# 使用Excel软件打开a.xls file = excel.Workbooks.Open(f”{exceldir}{excelname}”, False) /# 文件另存为当前目录下的pdf文件 file.ExportAsFixedFormat(0, f”{excel}dir}{pdfname}”) /# 关闭文件 file.Close() /# 结束excel应用程序进程 excel.Quit()

对比word2pdf()和excel2pdf()，你会发现实现的基本逻辑是相同的，但是在实现Excel转换上，有两个主要函数的参数不同。

DispatchEx()函数的参数，这里使用了“Excel.Application”字符串作为该函数的参数，“Excel.Application”作为DispatchEx()参数的目的是，让pywin32库启动Excel进程，并让它读取“a.xls”文件。
ExportAsFixedFormat函数的第一个参数从pdf路径变为保存的类型，你可以参考Office的Excel VBA官方文档，从中学习函数的每个参数。

将PowerPoint幻灯片转换为PDF

在你学习了Word文档和Excel表格转换PDF文件的基础上，我再来带你你对比学习一下如何将PowerPoint的默认保存文件ppt格式转换为PDF。参考word2pdf()和excel2pdf()两个函数，我直接将PowerPoint的幻灯片转换PDF文件的代码提供给你，你可以通过官方文档(https://docs.microsoft.com/zh-cn/office/vba/api/powerpoint.presentation.exportasfixedformat)，来试着分析ppt2pdf()函数的参数和函数里的每行代码。 from win32com import client def ppt2pdf(filepath, pptname, pdfname): pptdir = filepath /# 指定PPT类型 ppt = client.DispatchEx(“PowerPoint.Application”) /# 使用ppt软件打开a.ppt file = ppt.Presentations.Open(f”{pptdir}{pptname}”, False) /# 文件另存为当前目录下的pdf文件 file.ExportAsFixedFormat(f”{pptdir}{pdfname}”) /# 关闭文件 file.Close() /# 结束excel应用程序进程 excel.Quit()

显而易见，PowerPoint幻灯片转换为PDF文件的代码逻辑和word2pdf()和excel2pdf()函数的逻辑完全相同，只有两处有所不同，一个是DispatchEx()的参数为“PowerPoint.Application”，它的功能是让win32com库打开PowerPoint进程。另一个是ppt.Presentations.Open()打开的对象不同，它打开的是每一页的PPT，而Excel打开的是每个sheet对象。

以上就是如何将Office组件的Word、Excel与PowerPoint的默认保存文件格式转换为PDF格式。在转换之后，我们经常为了保护知识产权，或者增强文件的安全性，需要给PDF文件增加水印。所以接下来我就带你学习如何通过增加水印提高PDF文件的安全性。

提高PDF文件的安全性

安全性包括很多方面，比如为文档增加密码，从而增强保密性；也可以为文档增加水印，提升它的不可伪造性。如果你对前面课程熟悉的话，就能联想到我们在第27节课讲过，可以利用我们自动压缩的方式来给文件增加密码，所以我在今天这节课，主要以如何给PDF文件增加水印。

为PDF增加水印

为PDF文件增加水印，你可以通过pyPDF2库来实现。使用pyPDF2库的好处是，你不需要在当前计算机上安装任何PDF编辑器，就可以给PDF文件增加水印。

基于pyPDF2库来给PDF文件增加水印的原理是，把只带有水印的PDF文件，和需要增加水印的PDF文件合并即可。根据这一原理，你大概就能想到增加水印的步骤了。主要有三步，分别是：准备水印文件、安装pyPDF2库以及合并两个PDF文件。

老规矩，我们还是先从准备水印文件开始学习。带有水印的PDF文件，可以使用Word软件来生成。具体操作方法是：通过Word的“设计”-“水印”功能，来定制你自己的水印文件，接着再把它另存为PDF格式，之后这个带有水印的文件你就可以反复使用了。

接下来是安装pyPDF2的第三方库。由于它的安装包和软件同名，所以可以使用pip命令直接安装。安装后，我需要通过该库实现PDF文件的读写。我使用了这个库用于读写PDF文件的“PdfFileReader, PdfFileWriter”两个包，导入的代码如下： from PyPDF2 import PdfFileReader, PdfFileWriter

第三步，也是最重要的一步，合并两个PDF文件。合并文件需要使用pyPDF2库的mergePage()函数实现。在实际工作中，我们通常需要给PDF文件的每一页都增加水印，此时我们需要使用for循环来迭代每一页，迭代之后，再把合并好的PDF文件保存为新的文件即可。

我把合并两个PDF文件的代码写在下面，然后再带你分析整个合并流程。 from PyPDF2 import PdfFileReader, PdfFileWriter def watermark(pdfWithoutWatermark, watermarkfile, pdfWithWatermark): /# 准备合并后的文件对象 pdfWriter = PdfFileWriter() /# 打开水印文件 with open(watermarkfile, ‘rb’) as f: watermarkpage = PdfFileReader(f, strict=False) /# 打开需要增加水印的文件 with open(pdfWithoutWatermark, ‘rb’) as f: pdf_file = PdfFileReader(f, strict=False) for i in range(pdf_file.getNumPages()): /# 从第一页开始处理 page = pdf_file.getPage(i) /# 合并水印和当前页 page.mergePage(watermarkpage.getPage(0)) /# 将合并后的PDF文件写入新的文件 pdfWriter.addPage(page) /# 写入新的PDF文件 with open(pdfWithWatermark, “wb”) as f: pdfWriter.write(f)

在这段代码中，我定义了函数watermark()，用来实现为PDF文件增加水印的功能。它的实现思路是先读取水印PDF文件，再把水印PDF文件与需要增加水印的文件的每一页进行合并。合并之后，我通过使用PdfFileWriter()类，产生了新的对象pdfWriter，并将合并后产生的新PDF文件存储在pdfWriter对象中。最后，在所有页处理完成后，将合并后的PDF文件保存到“pdfWithWatermark”对象指向的文件中。

在这段代码中你需要注意的是，我使用了“with方式”打开了文件，在文件处理完成前如果关闭文件的化，会出现“file close error”异常。因此你需要注意代码第9、13行的with缩进，而写入新的文件可以在水印PDF文件和要增加水印的文件关闭后进行，所以代码的第25行“with语句”缩进可以在它上面的两个with代码块以外进行编写。

为了让你更直接地感知到增加水印后的结果，我把增加水印后的结果贴在下方，供你参考。

以上就是我使用PyPDF2库为PDF增加水印的全部流程。不过除了增加水印外，你还能使用pdfWriter对象，来实现很多实用的功能，比如为PDF文件设置密码、插入新的页面、旋转PDF页面等等。

此外，由于pyPDF2库封装得非常好，所以它的调用很简单，你只需一个函数就能实现我刚才提到的这些功能了。我将pyPDF2库的官方文档链接（https://pythonhosted.org/PyPDF2/）贴在这里，当你需要操作PDF文件实现其他功能时，可以参考官方文档中PdfFileWriter()函数的参数，为不同的功能增加相应参数即可。

小结

最后，我来为你总结一下今天的主要内容。在本讲中，我为你讲解了如何通过pywin32库把Offce组件常用的doc、docx、xls、xlsx、ppt、pptx等文件转换为PDF文件格式的通用方法。这个通用的方法就是通过pywin32库的COM编程接口，调用VBA脚本实现格式的转换。

你学会了pywin32库之后，除了能把这些办公文件转换为PDF文件外，还能对Office组件中的任意一个软件进行常见功能的调用，因为//pywin32调用的VBA脚本和Office宏的脚本是完全相同的。

我在本讲中除了为你讲解了pywin32库外，还讲解了pyPDF2库。pyPDF2库能够在你将文件转换为PDF之后，还能对PDF的格式和内容进行微调，让你的PDF文件批量处理能达到手动处理的文件精细程度。

最后，你还可以把PDF文件和上一讲中的自动收发邮件，以及我们学习过的Word自动处理相结合，把PDF格式的合同作为邮件附件进行文件的自动生成和邮件的自动发送。

思考题

按照惯例，我来为你留一道思考题。如果在一个文件夹中既有Word文件，又有PowerPoint文件，你该如何将文件夹中的这些类型的文件，批量转换为PDF文件呢？

参考资料

https://learn.lianglianglee.com/%e4%b8%93%e6%a0%8f/Python%e8%87%aa%e5%8a%a8%e5%8c%96%e5%8a%9e%e5%85%ac%e5%ae%9e%e6%88%98%e8%af%be/30%20%e6%80%8e%e4%b9%88%e5%bf%ab%e9%80%9f%e6%8a%8a%e4%bb%bb%e6%84%8f%e6%96%87%e4%bb%b6%e6%a0%bc%e5%bc%8f%e8%bd%ac%e6%88%90PDF%ef%bc%8c%e5%b9%b6%e6%89%b9%e9%87%8f%e5%8a%a0%e6%b0%b4%e5%8d%b0%ef%bc%9f.md

将常用办公文件转换为PDF格式
提高PDF文件的安全性
- 为PDF增加水印
小结
思考题
参考资料

Python自动化办公实战课-30怎么快速把任意文件格式转成PDF，并批量加水印？