TextIn ParseX 重磅功能更新:支持切换公式输出形式、表格解析优化、新增电子档 PDF 去印章

💡TextIn ParseX 重要版本更新内容速读:
- 新增公式解析参数formula_level
,支持 LaTeX / Text 灵活切换;
- 表格解析优化单元格内换行输出;
- 导出 excel 时,图片链接放在单元格内;
- 新增电子档 pdf 去印章功能。
近期,为深度适配教育、金融、医疗、企业办公等场景需求,TextIn ParseX 发布一系列功能升级,提升文档处理效率与准确性。下文将对新功能及版本优化进行详细介绍。
1 新增公式解析参数
新增参数 formula_level,用户可以通过参数控制不同层级的输出,支持自由切换公式输出形式,实现对公式解析的差异化需求。

参数详解
A. formula_level=0:获取精确的 Latex 公式格式

B. formula_level=2:将公式还原为纯文本

2 表格功能优化升级
A. 单元格内换行优化
表格解析支持单元格内换行的处理。
在单元格中需要换行的地方,使用 <br> 表示;
不管 table_flavor 参数是 html 还是 md,都使用同样的换行符;
输出结果中:
markdown、detail->text、pages->structured->text,均添加 <br>
pages->content 仍按行表示,不做修改
导出的 excel 中,用 \n 替换 <br> 表示

B. 导出 excel 时,图片链接放在单元格内
解析表格导出为 Excel 文件时,支持仅保留图片链接,去掉所有 markdown 或 html 的标签。

3 图像处理升级:新增电子档去印章
电子档 pdf 解析支持自动去除页面印章。

⭐欢迎后台私信小助手免费在线体验文档解析,领取更多福利、大模型应用技术学习材料。
新增功能有任何使用问题,欢迎来交流群与我们共同探讨技术发展与 AI 应用的可能性。
版权声明: 本文为 InfoQ 作者【合合技术团队】的原创文章。
原文链接:【http://xie.infoq.cn/article/50529e38275fa16eb5161a18f】。文章转载请联系作者。
评论