如何通过 Java 代码将 PDF 转为 HTML 格式
虽然 PDF 文件适合用于打印和发布,但不适合所有类型的文档。例如,包含复杂图表和图形的文档可能无法在 PDF 中呈现得很好。但是 HTML 文件可以在任何可运行浏览器的计算机上进行阅读并显示。并且 HTML 还具有占用服务器资源较小,便于搜索引擎收录的特点。那么今天这篇文章就将展示如何通过 Java 应用程序将 PDF 文档转为 HTML 格式。下面是我整理的具体步骤及方法,并附上 Java 代码供大家参考。
将 PDF 文档转换为 HTML 文件
将 PDF 文档转换为嵌入 SVG 的 HTML 文件
将 PDF 文档转换为 HTML 流
代码编译环境:
IntelliJIDEA 2019(jdk 1.8.0)
PDFJar 包:Free Spire.PDF for Java 5.1.0
引入 jar 包
导入方法 1:
手动引入。将Free Spire.PDF for Java下载到本地,解压,找到 lib 文件夹下的 Spire.PDF.jar 文件。在 IDEA 中打开如下界面,将本地路径中的 jar 文件引入 Java 程序:
导入方法 2:如果您想通过 Maven 安装,则可以在 pom.xml 文件中添加以下代码导入 JAR 文件。
将 PDF 文档转换为 HTML 文件
我们可以使用 PdfDocument.saveToFile(String filename,FileFormat.HTML) 方法,可以直接将 PDF 文档转换为 HTML 文件。具体步骤如下。
创建 PdfDocument 的对象。
使用 PdfDocument.loadFromFile() 方法加载 PDF 文件。
使用 PdfDocument.saveToFle() 方法将 PDF 文件另存为 HTML 文件。
完整代码
Java
将 PDF 文档转换为嵌入 SVG 的 HTML 文件
使用 PdfDocument.getConvertOptions().setPdfToHtmlOptions(true) 方法,可以在转换时嵌入 SVG。将 PDF 文件转换为嵌入 SVG 的 HTML 文件的详细步骤如下。
创建 PdfDocument 的对象。
使用 PdfDocument.loadFromFile() 方法加载 PDF 文件。
使用 PdfDocument.getConvertOptions().setPdfToHtmlOptions(true) 方法启用嵌入 SVG。
使用 PdfDocument.saveToFle() 方法将 PDF 文件另存为 HTML 文件。
完整代码
Java
将 PDF 文档转换为 HTML 流
Free Spire.PDF for Java 还支持将 PDF 文档转换为 HTML 流。具体步骤如下。
创建 PdfDocument 的对象。
使用 PdfDocument.loadFromFile() 方法加载 PDF 文件。
使用 PdfDocument.saveToStream() 方法将 PDF 文件保存为 HTML 流。
完整代码
Java
效果图
—本文完—
版权声明: 本文为 InfoQ 作者【在下毛毛雨】的原创文章。
原文链接:【http://xie.infoq.cn/article/db4716793a8f491c0643cf70e】。
本文遵守【CC-BY 4.0】协议,转载请保留原文出处及本版权声明。
评论