写点什么

Python + 腾讯云,多页 PDF 发票识别一键搞定!

作者:程序员晚枫
  • 2025-04-03
    重庆
  • 本文字数:863 字

    阅读完需:约 3 分钟

Python + 腾讯云,多页PDF发票识别一键搞定!

大家好,这里是程序员晚枫,全网同名。本周,我们 poocr 团队又带来了一个超实用的功能升级:支持多页 PDF 的发票识别!这意味着你可以用一行代码轻松识别整本发票 PDF,效率直接拉满!🚀

1. 本周大更新:多页 PDF 发票识别来袭!


在 poocr 1.0.0 版本中,我们全面支持了腾讯、百度、华为、阿里等大厂的 OCR 接口(详情见poocr 1.0.0发布)。而本周,我们又针对多页 PDF 发票识别进行了专项优化。现在,无论是单页还是多页 PDF,都能一键识别,结果直接导出为 Excel,方便到让人尖叫!


# pip install poocrimport poocr
poocr.ocr2excel.VatInvoiceOCR2Excel(intput_path=r'C:\Users\Lenovo\Desktop\temp\增值税发票-test.jpg', output_excel='./晚枫.xlsx', configPath='./poocr-config.toml')
复制代码

2. 团队协作的力量:从 bug 到完美


这次功能更新由团队小伙伴 @wzllby 主导开发,中途还经历了一次“小插曲”。在首次发版时,我们发现了一个 bug:只能识别 PDF 的第一页发票明细(见修复记录)。发现问题后,团队迅速定位问题并修复,最终实现了完整的多页 PDF 识别功能。


这次经历让我再次感受到团队协作的力量!从一个人单打独斗,到如今有小伙伴一起“并肩作战”,poocr 的每一步成长都离不开大家的努力。❤️

3. 持续进化:跟上腾讯云的脚步

poocr 的目标是成为最易用的文字识别库,而腾讯云 OCR 的强大能力是我们的坚实后盾。未来,我们计划:


  1. 支持更多票据类型:如火车票、飞机票等。

  2. 优化识别速度:通过异步处理提升效率。

  3. 拓展更多平台合作:让识别更稳定、更精准。


如果你有想要的功能,欢迎直接在评论区“喊话”!我们的更新方向由你决定!😄

程序员晚枫的唠叨时间

我是程序员晚枫,一个热爱开源、专注 Python 自动化的技术博主。poocr 从一个单打独斗的小项目,发展到如今被 5.5 万用户下载,离不开每一位用户的信任和支持。


如果你也喜欢 poocr,欢迎加入我们的开源小组(评论区留言:“开源”)。一起码代码,一起搞事情!下一个改变产品方向的 idea,可能就来自你!✨


互动话题:你最希望 poocr 新增什么功能?评论区见!

发布于: 2025-04-03阅读数: 2
用户头像

C++开发,开源项目:python-office 2020-10-09 加入

还未添加个人简介

评论

发布
暂无评论
Python + 腾讯云,多页PDF发票识别一键搞定!_开源_程序员晚枫_InfoQ写作社区