写点什么

OFD 版式技术解析系列(一):开篇

发布于: 2020 年 06 月 03 日
OFD版式技术解析系列(一):开篇

在版式电子文件领域,大家比较熟悉的就是 PDF(Portable Document Format)格式,该格式由 Adobe 公司在 1992 年发布,迄今已经有 28 个年头,2008 年 7 月 1 日,IS 组织正式发布 PDF 的国际标准,PDF 成为了独立公开的文档标准,任何公司和个人,都能针对这项标准进行产品的开发,这使得 PDF 成为了版式文档国际上最常见的格式。

那为什么在很多文档传递,信息发布,档案归档保存的过程中会使用 PDF 这种版式格式,而不是 DOC,TXT 格式?通俗讲,版式文档有一个非常大的优越性,就是在不同的地方打开显示的内容是一致的,这包括电子屏幕的显示,以及打印机上的打印效果。这不会因为设备、软件的改变或者操作人员的不同而在版面、字体、字号的改变。

当然,目前除了 PDF 之外还有很多厂商用自己专用的软件打开自己的特定的文档格式。文档格式的不统一、不开放、不可控就会造成文档流转有困难,长期保存有问题。如果一家公司采购了一家公司的软件,使用他们的特定格式进行档案的存储,因为文件格式特殊,只有专用的软件才能打开,若干年后,硬件、操作系统等发展飞快,文档软件维护跟不上,造成很多档案失效,势必会造成一定的影响。

2009 年,《电子文件管理暂行办法》提出要自己的版式文档存储和交换格式标准,于是在 2011 年,国家电子文件管理部际联席会议将电子文件存储和交换格式标准列为“十二五”重点任务,并由工信部具体负责编制,耗时 5 年多,在 2016 年 10 月 14 日,成功的发布了《电子文件存储与交换格式版式文档》标准编号为 GB/T33190-2016,OFD(Open Fixed-Layout Document format)


OFD 文档都包括哪些部分呢?

本标准主要包括版式文档的技术架构、成像模型、扩展名、文件结构、命名空间、字符编码、基础数据类型、入口与根节点、页树、页结构、大纲、资源等基本结构的描述,以及页面描述、图形、图像、文字、视频、复合对象、动作、注释、自定义标引、签名、附件、版本和扩展等具体元素的定义等方面,构成图如下:

在组织方式上,OFD 采用文件+打包的格式标准,除了文件的资源文件(图片、多媒体等)采用目前流行的格式(jpg、png…)外,其他均采用 xml 格式来描述具体内容,一个 OFD 文档的组织机构如下:



  • ofd.xml:文件主入口文件,一个文件仅有一个,定义元数据信息和文档结构文件路径

  • Doc_N:第 N 个文档的文件夹

  • Document.xml:具体每个文档的根节点,内含所有资料的 id 和路径,可用于生成大纲

  • Page_N: 第 N 页的文件夹,内含每页的文档内容

  • Content.xml:第 N 页的内容描述,其中用到的资源,如图片等,包括字体、文字、结构等信息,会引用 res 中的资源。

  • PageRes.xml:第 N 页的资源描述

  • Res:资源文件夹(图片等)

  • publicRes.xml:文档公共资源索引(索引 id 和路径)

  • DocumentRes.xml:文档资深资源索引

  • Signs:签名文件夹

  • Signatures.xml:签名列表文件

  • Seal.esl:电子签章文件

  • SignedValue.dat:签名值文件

  • Annotation.xml:注释结构文件


OFD 这个标准的推出,一个重要意义就是我们第一次有了国家层级的自主版式格式和技术。实现电子文件信创可控的战略需求。虽然也有一些其他的优秀的国内版式格式,但是 OFD 这一标准的推出,更有利于整个行业的整合,推进相关应用的快速发展。

那可能有一个问题要问,和 PDF 相比,OFD 有哪些优缺点呢?和 PDF 相比,OFD 对于技术的描述并不全面,很多方面都不涉及,由于是国家版式标准,我们更希望为我们的需求服务,在一些实际应用过程中需求比较集中的方面,OFD 做了很多的工作,以使得这个标准更好的为我们的应用服务。

如下表,列了一些常见的特性,用于说明问题。



OFD 采用了 zip 6.2.0 作为多文件的数据组织方式。文档以 XML 进行格式存储,比起 PDF 使用 postscript 字符序列编码,在这两点上有非常大的可读性优势,易于理解和存储。OFD 还兼顾了 PDF 的优缺点,抛弃了一些冗余、不太常用、过时和过于复杂的特性,保持了主要的特征和版式描述能力。增加了比如公文域这种特性的支持,支持国密,同时支持批注的分离保存,在高效性和安全性方面都得到了很大的提升。


那么总结一下,它有哪些优势呢


01 文档开放,门槛低

根据上述的介绍,我们知道了 OFD 是由 xml 和一些常用的媒体格式构成的,而 PDF 则是采用 postScript 这种文本和二进制代码相结合的描述方式,这种 xml 格式更容易更加容易被理解与辨认,同时也更容易保证文档的长期保存。在存储结构上讲,是用容器+文档的方式,其中描述文件和资源文件隔离存储,这样不会破坏文件的原始信息。还能保证文件的安全性。


02 易扩展,支持分离式拓展


如文中提到的分离式批注,这是 OFD 的一个比较大的优点,很大程度上保证了性能。同时 OFD 允许进行进行自定义标签,可以根据各个领域的特点进行扩展,比如说,卷宗归档方面可以自己定义一个证据指引标签,用于把卷宗上的各个证据与文件进行关联。从这一点讲,已经超出了单纯的版式文档格式,可以更加贴合实际的需求。


03 国密算法

在安全方面,OFD 获得了国家保密局的算法支持,可以支持国密系列的国密散列及签名算法进行数字签章,遵循 GMT 2014-0031《安全电子签章密码技术规范》。


04 信创可控

自己指定的标准,如果不适合我国文档的流转于存储,可以有针对性的进行修改,而不是需要和个别厂商去协商,不受控于外部的厂商,这些就是 PDF 和其他格式所不具备的特点。


总结与展望

上述从产生背景、OFD 的格式介绍与优势等方面对 OFD 格式进行了介绍,可能会想,为什么我们很少见呢?这就不得不说一下它的缺点和局限性。


(1) pdf 格式根生蒂固,生态完整,生成和阅读成本低,而 ofd 作为一个新事物,生态不完整,转换成本高,目前主要存在于电子政务领域。


(2) 用户短期都在无法离开 pdf 以及 office 这样的环境,并且 ofd 目前也没有获得到主流文档编辑软件的支持。


这些局限性作为一个新生事物是必须面对的,国产软件必将经历这些困难才能涅槃重生。目前 OFD 标准的制定已经有了一个很好的开端,各厂商也都在积极构建 OFD 生态,接下来的应用推广、普及将会成为一个趋势,无论在电子文件、公文、数字印刷、电子发票、档案管理等领域,都将逐步向 OFD 格式转变,华宇也正在为 OFD 的生态建设贡献自己的力量。


华宇发布了基于 OFD 的产品 ArteryPaper,对 OFD 的版式相关技术进行了全面的解析和研究,后续华宇技术团队会陆续将一些关键技术的研究成果给大家进行分享,欢迎关注订阅。同时也欢迎越来越多的人共同研究 OFD。


延伸阅读

http://c.gb688.cn/bzgk/gb/showGb?type=online&hcno=3AF6682D939116B6F5EED53D01A9DB5D


作者:北京华宇信息技术有限公司-研究院-信创实验室


发布于: 2020 年 06 月 03 日阅读数: 579
用户头像

为成为中国最顶尖的法律科技公司而奋斗! 2020.05.21 加入

公司主页:http://www.thunisoft.com/ 北京华宇信息技术有限公司以“法律科技”和“智慧政务”双轮驱动为发展战略,为客户的信息化事业提供全方位的解决方案与服务,是您值得信赖的智慧信息服务专家。

评论

发布
暂无评论
OFD版式技术解析系列(一):开篇