写点什么

数据的不确定性及可视化方法

  • 2023-01-11
    山东
  • 本文字数:832 字

    阅读完需:约 3 分钟

1、什么是数据的不确定性?

我们来想几个问题,如果想知道某个城市每个人春节购买了多少烟花爆竹庆祝新年,那么我们如何去统计?会去找到这个城市的每个人去采访询问吗?询问之后,获得的结果真的是实际的、真实的吗?


我想我们并不会去采访每个人,而是划分样本区,采集样本数据,根据样本去估算结果。获取的样本数据也不能确定完全真实有效,而是仅供参考。所以就产生了数据的不确定性。

2、数据的不确定性如何产生的?

数据从采集到使用的过程中,不可避免的会带来误差和不确定性。在数据的收集、处理和可视化过程中都存在不确定性。


  • 原始数据不准确


这是产生不确定性数据最直接的因素。比如,采集数据的工具精度制约,存在误差;采集过程中,收到环境、传输等条件的影响。


  • 使用粗粒度数据集合


很明显,从粗粒度数据集合转换到细粒度数据集合的过程会引入不确定性。例如,假设某人口分布数据库以乡为基础单位记录全国的人口数量,而某应用却要求查询以村为基础单位的人口数量,查询结果就存在不确定性。


  • 处理缺失值


缺失值产生的原因很多,装备故障、无法获取信息、与其他字段不一致、历史原因等都可能产生缺失值。一种典型的处理方法是插值,插值之后的数据可看作服从特定概率分布。另外,也可以删除所有含缺失值的记录,但这个操作也从侧面变动了原始数据的分布特征。


  • 数据集成


不同数据源的数据信息可能存在不一致,在数据集成过程中就会引入不确定性。例如,Web 中含很多信息,但是由于页面更新等因素,许多页面的内容并不一致。

3、不确定性可视化方法?

可视化不确定性有助于用户准确的理解数据并做出正确的决策。不确定性的可视化被认为是数据可视化的关键问题之一,其中包括:


  • 不确定性的清晰表示

  • 降低或避免因不确定性可视化所带来的视觉混乱

  • 降低可视化不确定性所引起的对确定性数据可视化结果的负面影响

  • 不确定性表达的可是隐喻


根据不确定性的可视化表达形式的不同,现有的不确定性可视化方法课大致分为 4 大类:


  • 图标法

  • 视觉元素编码法

  • 几何体表达法

  • 动画表达法



内容参考:《数据可视化》《数据之美》

用户头像

还未添加个人签名 2022-12-26 加入

还未添加个人简介

评论

发布
暂无评论
数据的不确定性及可视化方法_搞大屏的小北_InfoQ写作社区