写点什么

如何通过 Java 代码将 PDF 转为 HTML 格式

作者:在下毛毛雨
  • 2023-05-22
    四川
  • 本文字数:1751 字

    阅读完需:约 6 分钟

如何通过Java代码将 PDF 转为 HTML 格式

虽然 PDF 文件适合用于打印和发布,但不适合所有类型的文档。例如,包含复杂图表和图形的文档可能无法在 PDF 中呈现得很好。但是 HTML 文件可以在任何可运行浏览器的计算机上进行阅读并显示。并且 HTML 还具有占用服务器资源较小,便于搜索引擎收录的特点。那么今天这篇文章就将展示如何通过 Java 应用程序将 PDF 文档转为 HTML 格式。下面是我整理的具体步骤及方法,并附上 Java 代码供大家参考。


  • 将 PDF 文档转换为 HTML 文件

  • 将 PDF 文档转换为嵌入 SVG 的 HTML 文件

  • 将 PDF 文档转换为 HTML 流

代码编译环境:

IntelliJIDEA 2019(jdk 1.8.0)

PDFJar 包:Free Spire.PDF for Java 5.1.0

引入 jar 包

导入方法 1:

手动引入。将Free Spire.PDF for Java下载到本地,解压,找到 lib 文件夹下的 Spire.PDF.jar 文件。在 IDEA 中打开如下界面,将本地路径中的 jar 文件引入 Java 程序:

 导入方法 2:如果您想通过 Maven 安装,则可以在 pom.xml 文件中添加以下代码导入 JAR 文件。

<repositories>
        <repository>
            <id>com.e-iceblue</id>
           <url>https://repo.e-iceblue.cn/repository/maven-public/</url>
        </repository>
    </repositories>
<dependencies>
    <dependency>
       <groupId>e-iceblue</groupId>
       <artifactId>spire.pdf.free</artifactId>
        <version>5.1.0</version>
    </dependency>
</dependencies>
复制代码

将 PDF 文档转换为 HTML 文件

我们可以使用 PdfDocument.saveToFile(String filename,FileFormat.HTML) 方法,可以直接将 PDF 文档转换为 HTML 文件。具体步骤如下。

  • 创建 PdfDocument 的对象。

  • 使用 PdfDocument.loadFromFile() 方法加载 PDF 文件。

  • 使用 PdfDocument.saveToFle() 方法将 PDF 文件另存为 HTML 文件。

完整代码

Java

import com.spire.pdf.*;
public class convertPDFToHTML { public static void main(String[] args) {
//创建PdfDocument的对象 PdfDocument pdf = new PdfDocument();
//加载PDF文件 pdf.loadFromFile("郁金香.pdf");
//将PDF文件保存为HTML文件 pdf.saveToFile("PDFToHTML.html",FileFormat.HTML); pdf.close(); }}
复制代码

将 PDF 文档转换为嵌入 SVG 的 HTML 文件

使用 PdfDocument.getConvertOptions().setPdfToHtmlOptions(true) 方法,可以在转换时嵌入 SVG。将 PDF 文件转换为嵌入 SVG 的 HTML 文件的详细步骤如下。


  • 创建 PdfDocument 的对象。

  • 使用 PdfDocument.loadFromFile() 方法加载 PDF 文件。

  • 使用 PdfDocument.getConvertOptions().setPdfToHtmlOptions(true) 方法启用嵌入 SVG。

  • 使用 PdfDocument.saveToFle() 方法将 PDF 文件另存为 HTML 文件。

完整代码

Java

import com.spire.pdf.*;
public class convertPDFToHTMLEmbeddingSVG { public static void main(String[] args) {
//创建PdfDocument的对象 PdfDocument doc = new PdfDocument();
//加载PDF文件 doc.loadFromFile("郁金香.pdf");
//设置嵌入SVG doc.getConvertOptions().setPdfToHtmlOptions(true);
//将PDF文件另存为HTML文件 doc.saveToFile("PDFToHTMLEmbeddingSVG.html", FileFormat.HTML); doc.close(); }}
复制代码

将 PDF 文档转换为 HTML 流

Free Spire.PDF for Java 还支持将 PDF 文档转换为 HTML 流。具体步骤如下。

  • 创建 PdfDocument 的对象。

  • 使用 PdfDocument.loadFromFile() 方法加载 PDF 文件。

  • 使用 PdfDocument.saveToStream() 方法将 PDF 文件保存为 HTML 流。

完整代码

Java

import com.spire.pdf.*;
import java.io.*;

public class convertPDFToHTMLStream { public static void main(String[] args) throws FileNotFoundException {
//创建PdfDocument的对象 PdfDocument pdf = new PdfDocument();
//加载PDF文件 pdf.loadFromFile("示例文档.pdf");
//将PDF文件另存为HTML流 File outFile = new File("PDFToHTMLStream.html"); OutputStream outputStream = new FileOutputStream(outFile); pdf.saveToStream(outputStream, FileFormat.HTML); pdf.close(); }}
复制代码

效果图

—本文完—

发布于: 46 分钟前阅读数: 4
用户头像

还未添加个人签名 2022-06-02 加入

还未添加个人简介

评论

发布
暂无评论
如何通过Java代码将 PDF 转为 HTML 格式_Java_在下毛毛雨_InfoQ写作社区