写点什么

Coze 插件发布!PDF 转 Markdown 功能便捷集成,打造你的专属智能体

  • 2024-08-19
    上海
  • 本文字数:1514 字

    阅读完需:约 5 分钟

Coze插件发布!PDF转Markdown功能便捷集成,打造你的专属智能体

近日,TextIn 开发的 PDF 转 Markdown 插件正式上架 Coze 平台。


在扣子搜索“pdf 转 markdown”,或在 Coze 平台搜索“pdf2markdown”,即可找到插件,在你的专属智能体中便捷使用文档解析功能。

如果想测试解析插件在你需要的场景下表现如何,可以直接对话 bot,试用 pdf 转 markdown 效果。

同时,TextIn 团队提供了简单的 Workflow 示例供参考,有搭建工作流需要的朋友也可直接复制使用。


现在,“pdf 转 markdown”插件可以为 Coze 用户提供与 TextIn 网页端、API 调用同等的优质服务:

  • 大文件:目前同步接口文件最大可达 500MB,未来将进一步提高

  • 长文件:目前支持最长 1000 页,开发计划已将目标定在 5000 页

  • 高速度:快速解析百页级 pdf,无需长时间等待

同时,每位用户可免费享有 1000 页额度,实现小体量解析“额度自由”。


“pdf 转 markdown”插件的上架为有 PDF 文件处理需求的用户提供了一个可靠的优选工具。

由于 PDF 文件的视觉编码特性,其中的内容难以被提取或二次编辑。长期以来,PDF 经常成为知识“沉睡”的终点。大模型时代,打造“聪明”的 AI 需要的“基建”除了算力之外,还有高质量的语料。中文语料缺口已成为业内的关注重点之一,现阶段,大量的高质量中文语料数据存在于书籍、论文、研报、企业文档等文档之中,复杂的版面结构制约了大模型的训练语料处理及大模型文档问答的应用能力。

文档解析技术让机器能够识别文档中的多种元素,更好地处理文本、表格、图像等多类型数据,还原文档阅读顺序,服务各类 AI 应用、智能体的开发。

通过物理版面分析与逻辑版面分析技术,TextIn 文档解析能够准确识别文档中的各个元素,并理解其之间的逻辑关系。物理版面分析侧重于视觉特征、文档布局,主要任务是把相关性高的文字聚合到一个区域,比如一个段落,一个表格等等,并选用目标检测任务进行建模,使用基于回归的单阶段检测模型进行拟合,从而获得文档中各种各样的布局方式;逻辑版面分析侧重于对语义特征的分析,主要任务是把不同的文字块根据语义建模,例如通过语义的层次关系,形成一个目录树结构。

TextIn 在文档智能领域拥有深厚的技术积累,在文字、表格识别 OCR 技术的基础上,开发版面分析能力。随着深度学习技术的发展,版面分析的能力得到了显著提升,使得处理复杂文档布局成为可能。 TextIn 版面分析技术利用深度神经网络,对文档页面的布局和结构进行自动分析和理解。

版面分析技术主要包括以下几个关键步骤:

  • 元素检测:利用深度学习模型,如目标检测模型(如 Faster R-CNN、YOLO、SSD 等),对文档图像中的各种元素进行检测和定位。这些元素可以包括文字、图像、表格、标题等。通过元素检测,可以确定文档中不同元素的位置和边界框,为后续的分析和处理提供基础。

  • 元素分类:对检测到的元素进行分类,区分文字、图像、表格等不同类型的元素。这一步骤可以采用深度学习中的图像分类模型或目标分类模型,对每个元素进行识别和分类,以便后续的结构解析和语义理解。

  • 结构解析:在元素检测和分类的基础上,进行文档的结构解析,识别文档中不同元素之间的关系和层次结构。这包括文本段落与标题的对应关系、表格中不同字段的关系等。深度学习模型可以通过对文档布局和语义信息的分析,实现对文档结构的自动解析和理解。

  • 版面校正:对检测到的文档元素进行版面校正,使其在整体文档中的位置和排布更加合理和统一。这一步骤可以包括文本对齐、图像矫正、表格对齐等操作,以提高文档的可读性和美观性。


目前,“pdf 转 markdown”Coze 插件连通 TextIn 迭代最新版解析技术,支持各类 Bot 开发,Copy 链接,马上试用

https://www.coze.cn/store/plugin/7381354890590814208?from=plugin_card

点击阅读原文,在 TextIn 官网获取新用户 1000 页免费额度。更多额度福利、大模型应用技术学习材料,关注公众号 合研社 即刻领取!

用户头像

上海合合信息科技股份有限公司人工智能团队 2022-08-01 加入

在上海市领军人才合合信息董事长镇立新博士带领下,于复杂场景文字识别、智能图像处理、自然语言处理等人工智能领域拥有10 余年研发创新与技术积累,具备专业的行业理解与技术成果。

评论

发布
暂无评论
Coze插件发布!PDF转Markdown功能便捷集成,打造你的专属智能体_人工智能_合合技术团队_InfoQ写作社区