写点什么

金融监管科技业务中的 AI 应用:上市公司公告信息风险识别

  • 2023-03-23
    北京
  • 本文字数:1836 字

    阅读完需:约 6 分钟

面对日益严格的监管,证券公司自身需要提高融资融券业务的风险管控能力,从而扩大业务规模、降低风险。因此,证券公司需要了解可能影响证券价格较大变化的重要事件,从而进行管理和风险控制等工作。根据监管要求,企业定期或不定期地发布公告信息。作为公司信息披露的主要载体,公告信息可能包含事件描述、深度分析、信息传递等各种价值信息和重要风险信息。



目前该业务是由专人人工解读上市公司公告,撰写每日风险总结报告,然而这项工作不仅工作量繁重,且准确率与覆盖率不足,难以满足日益增长的数据量以及快节奏的需求变动


  • 资料版面布局多样


公告文本的版面格式涵盖了段落、目录树、表格、图像等多种样式。


  • 公告内容差异大


不同种类公告内容差异大,不同行业披露信息差异大,不同公司撰文风格差异大。


  • 标注样本稀少


因标注标准复杂、专业性强导致的标注成本高,不同类别公告数量差异大,因监管和公司运营情况调整导致的标注时效性难以保证。


金仕达软件科技有限公司利用自然语言处理技术中的信息抽取技术 ERNIE-UIE,打造了上市公司公告信息抽取系统,从上市公司常见的公告文本数据中,提取引起证券价格较大变化的重要事件及关键信息,实现自动提取影响证券价格较大变化的重要事件,为金融业务的开展提供风险管控的依据,并将此过程中积累的技术与经验推广到证券交易业务、风险管理业务以及客户服务等应用场景。在 PaddleOCR 和 PaddleNLP 的前沿模型的加持下,金融文件文字提取和信息抽取的效果显著:文档页面导航准确率 100% ,信息抽取准确率达到 95% ,单篇抽取可在 1 秒内完成。上市公司公告信息抽取系统节约了 80%的人工解读时间,极大提升了融资融券、反洗钱、操作风险管理业务的效率。



3 月 23 日晚 7:00,金仕达 AI 实验室负责人、高级研究员孙科老师将做客飞桨直播间,分享上市公司公告信息抽取产业落地经验,更有孙科老师多年金融 AI 从业经验分享

01 解决思路

本项目中使用了提示学习来解决小样本问题,在项目中引入 PaddleNLP 中的 ERNIE-UIE,通过大规模多任务预训练学习的通用抽取能力,配合基于 Prompt 的信息抽取多任务统一建模方式,可以实现标注少量数据进行微调,即可完成在公告文本信息抽取任务中的任务适配,大大降低标注门槛和成本。 PaddleNLP 中的 ERNIE-UIE 是一个大一统诸多任务的开放域信息抽取技术方案:通过构建结构化模式提示器(SSI,Structural Schema Instructor),ERNIE-UIE 能够对不同的信息抽取目标进行统一编码,从而实现多任务的统一建模。ERNIE-UIE 开创了基于 Prompt 的信息抽取多任务统一建模方式,通过大规模多任务预训练学习的通用抽取能力,可以实现不限定行业领域和抽取目标,零样本快速冷启动。简单场景,无需训练数据,即可全部抽取正确。针对复杂抽取需求,标注少量数据微调即完成任务适配,大大降低标注门槛和成本。除实体抽取任务外,在金融、医疗、互联网三大自建测试集的关系、事件抽取任务上进行实验,标注少样本也可带来显著的效果提升,即使模型在某些场景下表现欠佳,人工标几个样本,交给模型后就会有大幅的效果提升。



上市公司公告信息抽取系统架构图 ERNIE-UIE 对于数据量更大的类别有更好的预测结果,即使对于少样本,诸如 APER、EPER 和 TPER 等类别,模型仍具有一定程度的预测能力,体现了 ERNIE-UIE 在小样本学习上的优势。



ERNIE-UIE 进行实体抽取的效果模型训练完成后,转为推理模型,之后,利用飞桨服务化部署框架 Paddle Serving 方便集成的特性,将公告信息抽取服务快速部署为线上服务。用户通过 WEB 端访问业务框架后台时,即可直接调用智能文档解析服务展示结果。


相关项目


  • PaddleNLP GitHub 地址


https://github.com/PaddlePaddle/PaddleNLP


  • PaddleNLP Gitee 地址


https://gitee.com/paddlepaddle/PaddleNLP

02 技术拓展——文心大模型

随着数据井喷、算法进步和算力突破,效果好、泛化能力强、通用性强的预训练大模型(以下简称“大模型”),成为人工智能发展的关键方向与人工智能产业应用的基础底座。


文心大模型源于产业、服务于产业,是产业级知识增强大模型,涵盖基础大模型、任务大模型、行业大模型,大模型总量达 36 个,并构建了业界规模最大的产业大模型体系。文心大模型配套了丰富的工具与平台层,包括大模型开发套件、API 以及内置文心大模型能力的 EasyDL 和 BML 开发平台。 百度通过大模型与国产深度学习框架融合发展,打造了自主创新的 AI 底座,大幅降低了 AI 开发和应用的门槛,满足真实场景中的应用需求,真正发挥大模型驱动 AI 规模化应用的产业价值。



从技术研发到落地应用,大模型的发展已经进入产业落地的关键期。

用户头像

还未添加个人签名 2022-12-26 加入

还未添加个人简介

评论

发布
暂无评论
金融监管科技业务中的AI应用:上市公司公告信息风险识别_飞桨PaddlePaddle_InfoQ写作社区