写点什么

9.9 比 9.11 大 0.79,让大模型准确地做好数学题

作者:Kyligence
  • 2024-11-19
    上海
  • 本文字数:2514 字

    阅读完需:约 8 分钟

9.9比9.11大0.79,让大模型准确地做好数学题

9.9 和 9.11 哪个大?

A 公司和 B 公司营收哪个高?

高出多少百分比,精确到 4 位小数以上?

 

当这些严肃场景下的理科问题询问大模型时,大模型们基本都会出现各种问题,要么无法回答准确,要么无法稳定输出一致的结果。而在企业级应用中,这几个问题都是非常基础的计算,在更复杂计算场景下,大模型们无法提供准确、可靠的回答。这也是当前大模型在企业服务领域迟迟未能被客户广泛采用的主要障碍之一,无法想象一个数据分析问题每次结果不一致,哪怕只是错一个很小的小数位上的数值。

 

提升大模型在精确数值计算和比较时的准确性、可靠性,是上海跬智(Kyligence)今年的战略重点并取得了突破性成果。最新的评测结果显示,Kyligence AI 服务能够提供可靠且准确的服务,尤其是高精度数值计算等方面。

 

大模型数值计算准确性测试

 

为对比不同的大模型服务在数值计算上的差异,评测人员设定了四个问题,并将其交给 Kyligence AI 及其他六家主流大模型(共七家)进行比较。这些问题从简单到复杂,涵盖了企业业务经营和管理场景中常见的数据计算需求。让我们一起来看看各大模型回答这些问题的情况。



从简单到复杂的数值计算来看,上图结果显示,Kyligence AI 保证了不同问题的计算准确性,充分体现了该技术和应用的可靠性与稳定性。

 

大模型数值计算的“缺陷”

 

为什么大模型在精确数值计算方面表现不佳呢?其原因在于多个层面的复杂性,包括语料的影响,Transformer 算法的局限性,以及语境理解的困难等。因此大模型在处理语言、文本信息、生成图像视频等时侯表现非常出色,但在涉及精确数值计算和比较等严肃场景时却显得力不从心。

 

当前很多大模型厂商,都在尝试强化大模型的推理和拆解问题的能力,来提升大模型的计算准确度和精确度。但是实测发现,很多时候大模型生成的每个步骤都是对的,但最后结果却依然是算错的,而更糟糕的是,往往每一次都不一致。

 

Kyligence 尝试过各种手段来提高大模型的准确性,比如提前计算一些常见值,并要求大模型仅引用这些数字,而不进行自主计算。然而,这种方法无法满足灵活场景的需求。另一种常见做法是是让大模型首先思考需要计算的指标,然后生成 Python 代码进行计算。但这种方法也会面临大模型指令理解错误、计算延迟加大等问题。而且在大规模数据量、大量并发用户等真实场景下,几乎不具备生产可用性。可以看到,提前计算方案灵活性不足,代码生成方式出错率高,都无法进行流畅的输出和持续计算,并容易引入其他问题,影响最终模型输出的准确性和稳定性,无法在严肃的企业级应用中被使用

 

精确的大模型数值计算

 

从上面的测试结果可以看出,上海跬智提供的大模型服务 Kyligence AI 能够持续提供准确、可靠的数值计算和回答,这源于 Kyligence 在统一语义定义、大模型计算增强等技术上的突破。其做法是接管了大模型中的数值计算,但不改变大模型其他解答思路。通过准确地控制和引导大模型的输出,特别是在计算部分,使得大模型在计算准确度和精度方面可以被严肃应用场景所信任。

 

Kyligence AI 采用多智能体架构,多个 AI 智能体分工协作,将复杂问题分解为简单任务,再一起完成复杂的决策任务。准确的数值计算能力是其中关键的技术,可以强化一个基础大模型的思考和执行,准确、逻辑更严密的输出数据结果。通过兼容 OpenAI Chat API,透明增强所有的 AI 企业级应用,提供准确、可靠的数据计算能力。此外,还有基于思维链的解题规划能力,基于 RAG 的指标查询能力和业务知识库能力,和基于强化学习的反馈机制等等进一步加强 Kyligence AI 大模型服务在数据计算和分析领域的能力。



Kyligence AI 服务工作流程图

 

这些突破来自于 Kyligence 团队在大数据和 AI 领域多年的深厚技术积累与实践沉淀,并积极跟进和大胆采用最新的大模型、智能体等技术。随着大模型的日趋成熟和完善,绝大部分能力已经足够企业采用,但“严肃场景下的精确计算”这个行业难题,一直是横在客户真正采用 AI 前面的拦路虎。将更多数据,甚至全量数据给到大模型,通过大规模的训练从而提升精度和能力,这在成本和时间上无法被接受。如何在推理侧进行有效的突破,以更少的资源和算力得到足够的精度,如何更好的利用到现有数据平台的能力,是上海跬智和头部客户合作共创的重点。从现在阶段性的成果来看,效果显著,不需要预训练,不需要额外算力,通过接管数值计算,完全可以达到企业级应用的需求。可以从四个方面满足 AI 企业级应用中数据计算的需求,更快的帮助企业客户加速相关 AI 场景的落地:

1.       不影响输出速度:无需步骤拆解,延迟基本和基座大模型输出接近,支持流式输出。

2.       保持分析思路:不干扰大模型的原有的输出分布。

3.       提高准确性:确保大模型输出数字的准确度和精度,用户可以设置合适的计算精度。

4.       支持开启深度思考大模型能够根据前面计算的正确数字进一步推导后续的结果和结论。

 

“准确性和可靠性,是企业级数据应用的基础,Kyligence AI 的突破,使得大模型能够被有效的引入数据及分析领域作为生产系统使用,” Kyligence 联合创始人兼 CEO 韩卿表示,“这项技术使得大模型能够更深入地进行分析和思考,处理逻辑性极强的计算问题,帮助企业级用户处理复杂问题,并做出准确的判断,这是革命性的突破。”

 

Kyligence AI 在线服务

 

Kyligence 始终专注 Data + AI 技术的融合和应用,聚焦解决相关最难的挑战。当前,这项技术已迅速应用于 Kyligence 的多款数据产品中,如 Kyligence AI 数据解读助手等,并已成功应用于多家头部企业。Kyligence AI 数据解读助手通过提供上下文和数据示例,高效解读数据,并模拟人类思维和个性化特点,确保报告风格与分析师一致,从而提升解读的准确性和内容质量。

 

同时,上海跬智即将推出 Kyligence AI 在线服务,采用兼容 OpenAI API 的模式,为更多应用提供准确、可靠的大模型服务 API,如 ChatBI、AI 用数、分析报告、数据解读等各类涉及大量数值计算的应用。用户只需切换大模型访问服务为 Kyligence AI,而无需修改应用或提示词。未来,Kyligence 将与各合作伙伴携手,打造更多丰富的企业级应用,使 Kyligence 独有的 Data + AI 技术支撑更广泛的应用场景,助力企业级客户实现真正的数智化转型。

 

发布于: 刚刚阅读数: 2
用户头像

Kyligence

关注

To be Great! 2021-11-08 加入

Kyligence 由 Apache Kylin 创始团队创建,致力于打造下一代智能数据云平台,为企业实现自动化的数据服务和管理。

评论

发布
暂无评论
9.9比9.11大0.79,让大模型准确地做好数学题_大模型_Kyligence_InfoQ写作社区