TextIn ParseX 通用文档解析是一款大模型友好的解析工具,支持将 pdf 文档、jpg、img 图像等文件快速转换为 markdown 格式,支持各类表格、公式解析,帮助大语言模型的数据清洗和文档问答任务。
产品特点
- 支持多种扫描内容:能良好处理各类图片与扫描文档,包括手机照片、截屏等内容。 
- 支持多种语言:支持简体中文/繁体中文/英文/数字/西欧主流语言/东欧主流语言等共 50+ 种语言。 
- 表格识别效果好:能准确识别各种格式的表格,包括有线表格、无线表格、密集表格,并支持各种类型的合并单元格识别与还原。 
- 阅读顺序还原准:能理解和还原文档的结构和元素排列,确保阅读顺序的准确性,支持多栏布局的论文、年报、业务报告等内容。 
- 自研文档树引擎:从语义出发,提取段落 embedding 值,预测标题层级关系,通过构造文档树提高检索召回效果。 
为了让用户获得文档解析引擎返回的丰富版面元素,我们开发了一系列的 sdk 函数,包括目录树、公式、表格、图片、全文 markdown 等结果的获取函数。对于 api 用户来说,评估文档解析引擎的版面分析结果准确性是困难的,可视化的前端界面可以一定程度解决定性评估的问题,另外一些场景中,用户希望能够可视化文件解析的结果,并对结果进行编辑修正,获得更高精度的解析结果,这个时候前端可视化组件就是必不可少的了。为了满足这些需求,方便用户,我们将 textin.com 上面的前端可视化组件进行了开源,请用户批评指正。
1、SDK 功能介绍
TextIn ParseX 是一套标准的多平台支持的 python sdk,帮助开发者解析 pdf_to_markdownRestful API 返回结果,获取对应的版面元素的数据结构。开发者只需在终端安装对应的依赖就可以使用。
为了方便用户获取版面元素,此次更新,调用接口增加了'page_details'参数,返回的 json 结果里面新增加了'pages'的字段。
如果报错 timeout,可以尝试国内源:
 pip3 install TextInParseX -i http://mirrors.aliyun.com/pypi/simple/ --trusted-host=mirrors.aliyun.com
   复制代码
 首先,你要在 textin 开通文档解析服务,然后可以在试用工作台点击用户图标,再点击账号与开发者信息(或者登陆后从 textin 首页->账户与充值->账号与开发者信息,或者点击https://www.textin.com/console/dashboard/setting)中获得 api_id 和 secret_code。
你可以通过 ParseX 直接调用 url 获取解析对象。
 import TextInParseX as px
# 初始化解析器app_id = "#############################"     #填入你的textin的api_id和secret——codesecret_code = "#############################"
parseX_client = px.ParseXClient(app_id, secret_code)
pdf_file_path = "example.pdf" #你的本地文件路径
#通过ParseX直接调用url获取解析对象result = parseX_client.begin_analyze_document_from_url(pdf_file_path)
   复制代码
 也可以参考 textin.com 的 restful api 调用,通过 python,curl,或者 postman 工具获得 api 的原始 json 文件,再通过 ParseX 解析 json 文件获得解析对象。
 import TextInParseX as pximport json
json_file = 'test_json/example.json'with open(json_file, 'r') as fr:    json_result = json.load(fr)    parseX_client = px.ParseXClient()result = parseX_client.begin_analyze_document_from_json(json_result)
#或者直接输入json文件result = parseX_client.begin_analyze_document_from_file(json_file)
   复制代码
 如果你想要获得全文级别的结果,例如文档的 markdown 信息,所有文本、表格、段落、图片信息,可以如下处理:
 print('Markdown:')print(result.all_markdown)print("\n")
print("All text in document:")#为可视化方便, 输出0-1000个字符parseX_client.print_all_elements(result.all_text, 0, 1000)print("\n")print(f"Total tables in document: {len(result.all_tables)}")for index, table in enumerate(result.all_tables):    print(f"Table {index}:")    parseX_client.print_all_elements(table)    print("\n")    print(f"Total paragraphs in document: {len(result.all_paragraphs)}")for p_idx, each_paragraph in enumerate(result.all_paragraphs):    print(f"\n--- Paragraph {p_idx}/{len(result.all_paragraphs)} ---")    print(f"Paragraph position: {each_paragraph.pos}")    for l_idx, each_line in enumerate(each_paragraph.lines):        print(f"  Line {l_idx}/{len(each_paragraph.lines)}")        print(f"    Line positions: {each_line.pos}")        print(f"  Line text: {each_line.text}")    print(f"Total images in document: {len(result.all_images)}")for index, image in enumerate(result.all_images):    print(f"Image {index}:")    parseX_client.print_all_elements(image)    print("\n")
all_images_cv_mat = result.get_all_images_cv_mat()print(f"Total images (as cv::Mat) in document: {len(all_images_cv_mat)}")for idx, mat in enumerate(all_images_cv_mat):    print(f"Image {idx} (cv::Mat) shape: {mat.shape}")
   复制代码
 分别获取每页的表格信息、图片信息,段落纯文本信息,段落坐标,每行的信息:
 #页的索引指向pdf和文档的页,按照页数的规则,从1开始; table等版面元素的索引默认程序读取的规则,从0开始for page in result.pages:    print(f"=== Page {page.page_id} ===")    print("\n")        for index, table in enumerate(page.tables):        print(f"Table {index}:")        parseX_client.print_all_elements(table)        print("\n")
    for index, image in enumerate(page.images):        print(f"Image {index}:")        parseX_client.print_all_elements(image)         print("\n")        images_cv_mat = page.get_images_cv_mat()    print(f"Total images (as cv::Mat) in page {page.page_id}: {len(images_cv_mat)}")    for idx, mat in enumerate(images_cv_mat):        print(f"Image {idx} (cv::Mat) shape: {mat.shape}")    print("\n")       print("Text:")    # 限定只能打印前1000个字符    parseX_client.print_all_elements(page.paragraph_text, 0, 1000)      print("\n")        # 获取当前页的段落    print(f"Total paragraphs: {len(page.paragraphs)}")    for p_idx, each_paragraph in enumerate(page.paragraphs):        print(f"\n--- Paragraph {p_idx}/{len(page.paragraphs)} ---")        print(f"Paragraph position: {each_paragraph.pos}")        for l_idx, each_line in enumerate(each_paragraph.lines):            print(f"  Line {l_idx}/{len(each_paragraph.lines)}")            print(f"    Line positions: {each_line.pos}")            print(f"  Line text: {each_line.text}")    print('Finished getting paragraphs')    print("\n\n")
   复制代码
 如果想获取每行的位置和文本,可以如下处理:
     # 获取当前页的段落    print(f"Total paragraphs: {len(page.paragraphs)}")    for p_idx, each_paragraph in enumerate(page.paragraphs):        print(f"\n--- Paragraph {p_idx}/{len(page.paragraphs)} ---")        print(f"Paragraph position: {each_paragraph.pos}")        for l_idx, each_line in enumerate(each_paragraph.lines):            print(f"  Line {l_idx}/{len(each_paragraph.lines)}")            print(f"    Line positions: {each_line.pos}")            print(f"  Line text: {each_line.text}")    print('Finished getting paragraphs')    print("\n\n")
   复制代码
 
2、前端组件功能介绍
在解析结果审核校对、效果测评等场景下,需要可视化展示文档解析后的结果。
在 TextIn.com 体验页上,我们提供丰富的可视化和交互功能,这部分前端组件现已开源!
项目用 ES6 开发,基于 React 框架。仓库地址:https://github.com/intsig-textin/parsex-frontend
目前前端组件已实现以下特性:
- 预览渲染主流图片格式和 pdf 文件,提供缩放和旋转功能 
- markdown 结果渲染,支持各级标题、图片、公式渲染展示 
- 各类解析元素提取展示,支持查看表格、公式、图片,和原始 JSON 结果 
- 解析元素文档位置溯源,原文画框标注各元素位置,可以点击画框跳转解析结果,也可以点击解析结果跳转原文画框 
- 各级目录树还原展示,支持点击跳转相应章节 
- 接口调用选项参数配置,支持配置不同参数组合,获取相应解析结果 
- 复制和导出 markdown 文件 
- 复制解析后的表格和图片,可以直接粘贴到 Excel 表格中 
以上功能,都可以在 TextIn.com 上体验使用,地址: https://www.textin.com/console/recognition/robot_markdown?service=pdf_to_markdown
后续我们将开放更多的 sdk 函数,例如让用户获取所有的手写元素,复选框元素,也欢迎各位用户朋友给我们提更多的类似需求。
在一些国家标准、专利、扫描书的场景,用户还需要将文件解析后的结果进行校对,为了满足这样的需求,后续我们会在前端组件里面导入编辑的功能,并增加电子档 pdf 格式的导出功能。
欢迎随时与我们技术团队小伙伴探讨你的场景需求!
评论