数据的不确定性及可视化方法
1、什么是数据的不确定性?
我们来想几个问题,如果想知道某个城市每个人春节购买了多少烟花爆竹庆祝新年,那么我们如何去统计?会去找到这个城市的每个人去采访询问吗?询问之后,获得的结果真的是实际的、真实的吗?
我想我们并不会去采访每个人,而是划分样本区,采集样本数据,根据样本去估算结果。获取的样本数据也不能确定完全真实有效,而是仅供参考。所以就产生了数据的不确定性。
2、数据的不确定性如何产生的?
数据从采集到使用的过程中,不可避免的会带来误差和不确定性。在数据的收集、处理和可视化过程中都存在不确定性。
原始数据不准确
这是产生不确定性数据最直接的因素。比如,采集数据的工具精度制约,存在误差;采集过程中,收到环境、传输等条件的影响。
使用粗粒度数据集合
很明显,从粗粒度数据集合转换到细粒度数据集合的过程会引入不确定性。例如,假设某人口分布数据库以乡为基础单位记录全国的人口数量,而某应用却要求查询以村为基础单位的人口数量,查询结果就存在不确定性。
处理缺失值
缺失值产生的原因很多,装备故障、无法获取信息、与其他字段不一致、历史原因等都可能产生缺失值。一种典型的处理方法是插值,插值之后的数据可看作服从特定概率分布。另外,也可以删除所有含缺失值的记录,但这个操作也从侧面变动了原始数据的分布特征。
数据集成
不同数据源的数据信息可能存在不一致,在数据集成过程中就会引入不确定性。例如,Web 中含很多信息,但是由于页面更新等因素,许多页面的内容并不一致。
3、不确定性可视化方法?
可视化不确定性有助于用户准确的理解数据并做出正确的决策。不确定性的可视化被认为是数据可视化的关键问题之一,其中包括:
不确定性的清晰表示
降低或避免因不确定性可视化所带来的视觉混乱
降低可视化不确定性所引起的对确定性数据可视化结果的负面影响
不确定性表达的可是隐喻
根据不确定性的可视化表达形式的不同,现有的不确定性可视化方法课大致分为 4 大类:
图标法
视觉元素编码法
几何体表达法
动画表达法
内容参考:《数据可视化》《数据之美》
评论