写点什么

元年智答|数据洞察功能介绍

  • 2022-11-29
    北京
  • 本文字数:1985 字

    阅读完需:约 7 分钟

元年智答|数据洞察功能介绍

什么是数据洞察


随着企业积累数据量增多,数据分析师常常需要处理“长且宽”的数据集。依靠人的经验处理海量数据,从海量数据中发掘出有用的信息无异于大海捞针。虽然人工智能技术的普及和单位算力价格的下降大大降低了数据挖掘的门槛,但是面对一个“长且宽”的稀疏数据集时,仍然需要一定数据预处理技术,降低自动化挖掘的复杂度的同时提高计算效率。因此后续仍然需要研究如何通过人工智能技术帮助数据分析师快速从多维数据集中锁定有用数据切片,这项任务重要且艰巨。


这其中的阻碍体现在:


(1)面对海量信息,无法识别数据中相对重要的部分,业务人员分析无从下手;

(2)难以发现预期以外的信息,人类常掉进思维定式的陷阱;

(3)对于数据的解读,通常需要可视化的手段,大量的数据分析师表示:他们花费的大部分时间都在搜索数据并制作图表上。


元年给出一种构建全流程自动化的多维数据挖掘框架(数据洞察)。通过使用该框架,使用者可以快速的从多维数据集中快速获取关键的信息。



本架构可分为三个部分,解决数据分析过程中的最主要的三个问题:



问题 1:如何自动找出数据中相对重要的部分


在处理多维数据时,由于时间和算力的限制,不可能对多维数据集进行无限制的空间检索,因此需要本着“重要则优先”的原则对数据集中相对重要的信息进行优先计算。为此,元年设计了一种有效的多维数据集切分方法能够从多维数据集中找到相对“重要”的数据切片,我们参考了数据挖掘中常用的部分立方体物化技术,减少访问多维数据的计算消耗。提高计算效率。部分立方体物化技术的宗旨是在不遍历数据集的基础上尽可能地预计算数据集中“重要的”数据切片。元年针对多维数据库的特性结合部分物化技术给出了自动挖掘重要的“数据切片”的解决方案,大大提高了数据分析、查询的效率。


问题 2:通过算法识别数据具备的特殊模式


在识别了每个重要的数据切片后,每个进程会独立调用查询模块(Subject Query Engine)生成该数据切片的具体数据信息。具体数据信息会按照“重要性优先”原则保存到 Subject 队列(Subject Queue)中。队列从首位开始进行模式检验(AI Analysis)计算,模式检验模块主要是通过使用数理统计、机器学习、模式识别等技术实现对 Subject 数据是否满足某种特殊规律的检验。


那么如何才能衡量一个数据是否具备某一个模式。为此元年设计了诸多识别特定模式的算法:



除此之外,也可以根据业务特征定制一些个性化的算以满足模式识别的需要。例如对于监控门店人流量场景而言,其日流量数据呈现明显的周期性,显然从数据中发现这种信息是毫无营养的,因此,可以根据需要定义,符合哪些特征的数据才算是异常,针对上述场景而言,我们可以定义,日流量明显不符合周期性的门店才是“异常”的。


问题 3:如何通过智能可视化技术将结构化数据转换为合适的图表


通过检验的洞察结果(Insight)会按照类型进行分类。同时计算洞察得分(score)。最终数据的结果会按照得分进行排序。但在形成最终结果前,需要对洞察结果进行筛选,剔除那些看上去毫无营养的发现。例如通过计算发现,“身高和体重呈现正相关的关系”。该模块会记录用户的反馈,并将反馈结果结构化为剔除条件,对洞察结果集合进行剪枝。对于这些发现是显而易见(Easily Inferable Insight) 我们需要将这些洞察发现在结果中进行剔除。


最后,业务人员是无法直观的从表格数据中获取信息的,这就不可避免地需将洞察结果进行可视化呈现。对于不同的事实类型的需要转换成不同的图表,为此元年设计了专门针对结构化数据进行图表推荐的算法(Smart Data Visualization),通过 SDV 模块的推荐,结构化数据可以转换为合适的图表,形成数据卡片,以供业务人员查看。



案例介绍


最后我们通过一个案例看一下数据洞察是如何提示企业数据发现的效率的。某服装业龙头企业 A 日常的经营数据进行监控,通过使用元年数据洞察技术,每日可从数以亿计的数据中自动获取有效的信息,通过结合业务特性定制化开发的模式识别算法,可以快速的将数据中满足该模式的数据抽取出来,平时需要耗费数据分析师 3-5 天才能“发现”信息,仅需要几分钟就可获取。降低分析成本的同时用户还可以无障碍的访问数据“发现”,在用户之间进行分享,进一步增强了用户的体验,形成了良好的数据驱动氛围。

总结


元年数据洞察对一般业务人员是十分友好的,财务人员无需掌握复杂的数理统计方法。仅需一个指令,多维数据集中,关于业财的重要信息,就会以图表的方式直观的呈现出来。解决了用户在面对“长且宽”的多维数据时无从下手分析的困境。


通过对多维业财数据集进行洞察算法研究,可以为企业内部财务分析人员、财务 BP 等业财相关人员直接数据赋能和算法赋能,让其变为公民级数据科学家,帮助他们从数据中快速获取值得关注的信息(例如趋势的变化)、发现异常数据(例如某些产品的表现异常),获得业务层级的行动建议(例如某个大客户可能会流失,需要进行维护),最终实现更为敏捷的数据驱动。



发布于: 刚刚阅读数: 5
用户头像

公众号:元年技术洞察 2022-08-05 加入

分享数字化前沿技术、创新实践,用数据和新技术助力企业数字化转型,打造数据驱动型企业。

评论

发布
暂无评论
元年智答|数据洞察功能介绍_人工智能_元年技术洞察_InfoQ写作社区