Python Library For PDF#

因为 PyMuPDF 是一个 Python 库, 在深入了解 PyMuPDF 之前, 我希望能了解一下 Python 社区一共有哪些 PDF 相关的库. 由于我们时间有限, 所以希望选择最有价值的来学习.

Note

下面的信息记录于 2023-11-10 日.

  • PyPDF2: 老牌项目.
  • PyMuPDF: open source only, need to buy license for commercial project. 全面且强大, 基于 C++ 写的 MuPDF. 但是 Python 包自带用的是预编译的 MuPDF binary, 所以无需 yum, apt install. 美中不足就是商用需要 License.
  • pdfminer: MIT.
  • pdf2image: open source, free. 功能很简单, 将 PDF 转化为 Image 图片, 底层用的是 popper 这个 PDF Render 工具. 需要用 yum, apt install CLI 之后才能使用.

  • Aspose.pdf: 一个用 .Net 开发的商用文档处理工具. 支持非常多富格式文档, 其中就支持 PDF. 价格很贵, 但是功能和性能绝对牛逼. 唯一遗憾是必须是 Windows 环境.

另外, The PDF Format 这篇文档介绍了 PDF 文件格式的底层数据结构, 非常值得一读.

结论

  • 个人使用建议 PyPDF2 和 pdfminer.

  • 商用选择 PyMuPDF 或 aspose