写点什么

一文上手文档智能 Document Mind

  • 2023-04-16
    北京
  • 本文字数:2344 字

    阅读完需:约 8 分钟

一文上手文档智能Document Mind

什么是文档智能

什么是文档智能?文档智能(Document Mind),是基于阿里巴巴达摩院多年技术积累打造的多模态文档识别与理解引擎,为用户提供通用文档智能、行业文档智能和文档自学习能力,可满足各种场景下的智能文档处理需求。

那么怎么简单理解一下呢?直接上效果图,看一下效果


可以看到除了正确的识别出图片中的文字,文档的层级结构也完美识别了,是不是很强大!

文档智能适用场景

文档智能的适用场景是很丰富的,就个人日常工作中接触的文档来说,日常工作中经常会用到截图、合同照片、扫描件等的文字识别,也会用到在招投标、法律文书、合同等企业文档中进行场景化智能文档处理以及各种文档格式的转换,比如 PDF 转 Word/Excel、图片转 Word/Excel/PDF 等多种场景,因而文档智能的适用场景还是很广泛的,那么下面我带大家来体验一把牛批的文档识别和智能转换...

文档智能基础操作

文档智能控制台地址:https://docmind.console.aliyun.com/doc-overview,没有开通文档智能服务的同学需要先开通一下文档智能服务


这里有一点需要注意的就是文档智能服务不是一个服务,是分为【文档理解】和【文档格式转换】两个服务分别开启,这样更方便企业根据需要开通自己需要的服务,精细化成本管理,节约成本。

文档理解

这里我先开通了文档理解服务,然后体验一下文档理解的功能。

文档智能解析

文档智能解析是进行通用文档解析,从文档中提取出逻辑层级结构、文本内容、表格内容、Key-Value 键值字段、样式信息等。基于对文档的内容信息、版面信息和逻辑信息的分析理解,以结构化数据的形态输出抽取结果,下面看一下效果


这里可以看到识别前和识别后的文字准确度以及文档格式都在,非常适合我们日常工作中识别格式化文档的期待。

这里我们在对比一下 OCR 识别的效果如图


识别的内容没有问题,只是文档的格式就丢失了,相对于对文档格式要求较高的需求就显得略显不足了。

表格智能解析

表格智能解析是进行通用表格解析,从表格中提取出表格样式、表格内容、文本 KV、表格 KV 等。基于对表格的内容信息、版面信息和逻辑信息的分析理解,以结构化数据的形态输出抽取结果,下面看一下效果


可以看到表格智能解析返回的表格结构和截图的完全一致,只是表格智能解析只会解析截图中的表格,而对于表格之外的文字并没有解析,这可能会是一点缺憾,毕竟不管是电子文档还是扫描文件,文档内容都不一定会是单一的文字或者表格,而会是混搭的。

下面再看一下 OCR 解析的效果


这里可以看到 OCR 表格识别不但识别出了表格内容,也识别出了表格外的内容,但是唯一的一点还是没有文档格式,只是单纯的文字识别。

文档抽取

文档抽取是进行文档关键信息抽取,对各种类型的文档和表格中的关键信息进行智能化抽取,返回 Key-Value 内容。既包括文本段落中的 KV 字段,也包括表格中的 KV 字段,下面看一下效果图


可以看到文档抽取是以 key-value 的方式对文档中的文本内容以及表格内容都进行了抽取,格式明了,方便解析 。在体验了文档理解的内容后下面我们再看一下文档格式转换的内容,毕竟经常也是会遇到的。

文档格式转换

PDF 转 Word

下面我们直接看一下效果图


这里我的 pdf 文档转换前一共是 7 页,但是转换后只有 4 页,并且其中的文字格式以及文字大小都发生了变化,


个人推测应该是因为 pdf 中后面几页内容不是文字,而是图片,因此在 pdf 转 word 的过程中丢失了。另外就是有的 pdf 文件可以正常打开,但是在上传的时候却会提示说文件损坏


不知道是什么原因,下面再看看图片转 word

图片转 Word

看一下效果图


我们来看一下图片内容是否转换成功


可以看到图片转 word 可以说很成功,内容完全在,只是文字颜色和字体大小有点不是很满意。

PDF 转 Excel

下面再看一下 pdf 转 excel,看一下效果


转换后的效果如图


这里需要说明一点就是 pdf 转 Excel,首先需要 pdf 的内容是表格格式的,这样转换出来的效果才会是图中的效果,虽然也是发生结构错行,但是大体可以识别,如果 pdf 的内容不是表格格式的,那转换出来的东西基本没有参考价值。

图片转 Excel

看一下图片转 excel 的效果


下面看一下转换成 excel 后的效果


整体内容都有了,并且也是 excel 格式的,算是比较成功的。

PDF 转图片

看下效果图


转换成图片后


整体 pdf 转图片完全没有任何问题,转换之后的图片格式内容完全正确。

文档智能总结及感受

在使用文档智能过程中,对于文档理解的功能来说,个人觉得可以完全适用于当前公司所涉及到的相关的文档识别功能,较于文字识别 OCR 技术来说,可以说是 OCR 技术的进一步升级,除了文字识别,文档智能还综合运用自然语言处理、图像处理、电子文档解析、文档预训练模型等多种技术,处理非固定版式且规则样式变化的多种格式文档,而文字识别只能处理固定版式的图片。这就是技术的一大升级进步。

当然适用过程中也遇到一些小问题:

表格智能解析在使用过程中,对于非表格的内容直接选择丢弃,这个可能会不利于当前功能的推广,毕竟文档的解析,除了格式,内容也很重要,并且内容也会很混杂,除了包含文本内容,还会包含表格,因此解析应考虑到整体文本内容及表格的全部格式。

pdf 转 word 的过程中,有的 pdf 可以正常打开,但是却无法上传完成转换,而对于 pdf 中的图片内容,转换成 word 之后图片内容会丢失,希望后面也能充分考虑的文档内容的丰富性进行优化。

pdf 转 excel 的过程中,前提是 pdf 内的内容是 excel,转换完成之后的 excel 格式才不会相差很大,如果 pdf 内容不是 excel,那么转换之后的结果就没有参考价值了。

整体对于文档智能 Document Mind 服务使用感受还是不错的,毕竟日常工作中也会用到各种各样的格式转换功能,过去都是通过格式工厂的工具转换,以后就多了一个选择,并且不用下载软件很方便,但是希望后续对文档格式转换类型可以更丰富一下,在目前支持的文档格式的转换都增加成互转模式,这样功能就会更加强大,总之还是感谢阿里云提供这么好的产品,后续期待更好的完善和推广,感谢!

发布于: 刚刚阅读数: 3
用户头像

让技术不再枯燥,让每一位技术人爱上技术 2022-07-22 加入

还未添加个人简介

评论

发布
暂无评论
一文上手文档智能Document Mind_OCR_六月的雨在InfoQ_InfoQ写作社区