人工智能引领图文扫描新趋势
1. 背景和影响
近日,中国大学生服务外包创新创业大赛决赛在江南大学圆满落幕。为满足现代服务产业企业的现实需求,本次竞赛内容设计充分聚焦企业发展中所面临的技术、管理等现实问题,与产业的结合度更紧密,智能文字识别技术是大赛重点关注的技术之一。
在这里插入图片描述
在智能文字识别领域深耕十余年的合合信息,为了帮助学生在日常学习生活中降压、减负,也为了学生更快的适应职场,满足企业对人才的选拔标准。合合信息与各大高校深度合作,让大学生以自身需求出发对扫描全能王进行功能创新及商业推广。通过本此校企合作学生们在此活动中学到了产品的研发流程、商业运营、渠道推广等多项技能成为企业真正需要的人才。
2. 作品点评
尽力就行(北京林业大学)
在原有扫描全能王基础上进行功能扩展增加 OCR 手写转换 Word 文档、CAD 与 PDF 互转、视频页帧智能提取转换 PDF 及高清图片三项功能提高了合合信息产品覆盖度,用户群体进一步扩大。"尽力就行"团队,在基于卷积神经网络(Convolutional Neural Network,CNN)的基础上,设计出了符合手写文字图片的 CNN 模型并配合 dropout、batch normalization 等优化算法,来提高模型的性能和稳定性。根据模型测试和验证结果大大的提高了识别准确率和鲁棒性。
同时利用机器学习及算法模型引入 AI 智能助手让企业在未来的产品演化方向有了新思路。扫描全能王的 AI 助手功能利用先进的自然语言处理(NLP)模型来准确解析用户输入并提供相应的结果返回及功能连接。NLP 模型用于解析和解释用户输入,包括关键词提取、命名实体识别等技术快速的识别用户请求的关键词和关键要素,让用户更快速、高效地完成任务,同时尽可能减少手动导航和输入的需求。
在这里插入图片描述
前兔无量(浙江中医药大学)
从用户角度出发,多维度思考合合信息的扫描全能王在学生群体的不足及痛点。功能页面及图标展示设计提高了产品易用性、趣味性让学生操作更加便捷,其中生词解释、图片转 PPT 、文字转手写、题目乱序及生成题库功能基于合合信息的大数据、人工智能、大模型 AI 算法的基础上学生们开发调用接口 API 完成了后端数据处理功能。
前兔无量”队最大的亮点是为扫描全能王增加了社交功能,即加好友功能、聊天功能,转发功能、传输文件等功能方便用户更好的进行经验分享、使用问题答疑。通过交流互动可以更好的进行品牌传播的同时也为扫描全能王提供了新的使用培训渠道,让产品更具用户黏粘性。
“前兔无量”队也对交互页面进行了重新设计及创新主要从图标创新、功能页面创新、功能元素创新、异常情况的页面创新设计四个方面进行改良创新。在保持整体风格的一致性的同时也增加了各种各样的个性字体和个性背景来满足用户的个性化需求。其中在异常情况页面,“前兔无量”队都采用了品牌形象的插画形式,配文诙谐有趣并且方便用户理解,不仅增添了趣味性还起到了宣传品牌形象的作用。
详细方案中的商业推广及成本分析更好评估了此产品多项功能的开发落地并推向市场提供了依据。依靠项目成员的角色定位、职责安排、任务分配等精细化管理,保证了此项目在合理的开发周期内顺利实施。
淅芯队(中南林业科技大学)
以竞品为出发点详细分析竞品的优点与缺点并结合扫描全能王对产品进行全方位的剖析,重新进行产品功能的场景挖掘从交互设计、功能优化、工具创新、异常流程优化等多个方面对扫描全能王进行升级改造。
"淅芯队"在异常流程环节进行了优化创新,从一次导入一个文档且不能多选导入,到允许一次性选择多个文档直接点击合并充分的反映出"淅芯队"的专业性、严谨性。
在这里插入图片描述
在扫描全能王页面由于大学生通常具有多重身份属性,常常重复相同场景,该团队参考互联网公司常用的个性化推荐算法来实现场景/身份自动推荐常用(组合)功能,大大降低了学生的操作成本并为学生提供了一条龙服务。在页面优化创新功能点上“淅芯队”紧跟时代潮流积极拥抱热门技术肯拼搏、肯进取。
在产品推广层面对学生进行了精准的群体划分,从学生的身份、专业选择、个人喜欢、学生能力四个维度依赖合合信息提供的大数据处理技术进行深入分析并给出了针对性推广方案,使产品在行业内赢得良好口碑,从竞品中快速脱颖而出占领市场!
在这里插入图片描述
傅里叶变换(重庆邮电大学)
通过日常行为、学习方式、学生就业等三大特征进行场景分析并抽象出产品功能。融合目标检测算法、像素域的聚类算法和目标计数算法三大算法进行思维导图识别算法创新为合合信息在 AI 算法领域提供了参考价值。
在这里插入图片描述
基于智能 OCR 技术的不规则弱约束文档图片识别系统,首次应用在手绘括号思维导图数据几乎没有的情况下,按照机器学习的分阶段拆解任务的思路,融合了目标检测算法、像素域的聚类算法和目标计数算法,创新了一种层次逻辑生成算法,弥补当前模式识别在处理手绘括号图识别问题时的缺失。
“傅里叶变换”团队在产品功能进行了大胆的创新推出了”简历医生”,根据用户上传简历扫描图片,扫描全能王可智能化识别出简历中的结构信息(比如是否分小标题、小标题的设置是否合理等)、文本信息、风格信息(颜色等)。
在获取三种信息后,训练一个较大的语言模型,可以根据用户所面试的职位的需要,评估结构是否合理、布局是否合理,并对文本进行润色和扩充,为用户提供风格升级和转换的方案,最终由用户决定和取舍从而制作出结构完整、内容合理、美观大方的简历。
本次学生的作品中都采用了机器学习、算法模型、AI 智能、语义分析等当前热门的大模型技术进行产品功能创新。
3. 发展趋势
合合信息旗下扫描全能王基于核心 OCR 识别技术,可以实现自动扫描、自动切边、图像美化等功能,还能将扫描件一键转换为 Word/Excel/PPT 等多种格式文档。近期上线的“智能高清滤镜”功能,也基于 AI 技术及智能扫描引擎,可自动检测图像中存在的问题并判定图像的优化方式,实现模糊、阴影、手指、屏幕纹等干扰因素一键全处理。其中智能图像视觉矫正基于深度学习的曲面检测和矫正算法,利用了类似于 U-Net 的深度学习网络对曲面进行检测和定位,通过特殊的“几何变换层”进行像素级的矫正。不仅可以处理各种复杂的曲面形状,而且能够保存文档的原始信息,不会出现传统方法中的模糊和扭曲问题,图像视觉矫正技术使得扫描全能王在处理复杂的扫描任务上具有独特的优势。智能剔除干扰源经常发生在拍摄文档时受光照、环境影响,经常会有阴影、手指、摩尔纹(屏幕纹)等干扰,扫描全能王分别采用了深度学习网络来检测、Mask R-CNN 的网络结构、频域滤波和自编码器的结合三大核心技术来实现去阴影、去手指、去摩尔纹提高了图片的质量。未来合合信息将持续保持对 AI 底层技术的关注,用科技为全球用户提供有价值的文档智能服务,帮助用户更加的省时、省力、降压、增效!
版权声明: 本文为 InfoQ 作者【石臻臻的杂货铺】的原创文章。
原文链接:【http://xie.infoq.cn/article/4b52a4687b900dda4665b109b】。未经作者许可,禁止转载。
评论