大数据测试之大数据系统及特点
一、大数据系统简介
扫健康码了没?相信大家每天都会不厌其烦地听到这种询问。
支付宝付款,相信大家也是每天都在扫码付款,这已经成为了生活的一部分。
这些能产生非常巨量数据的应用系统,我们称之为大数据系统。
大数据系统还需要从巨量数据中进行有效数据的筛选、处理,比如对健康码进行赋红码、绿码等。
1、大数据系统定义
比较官方的定义:大数据(BigData)是将包括结构化、非结构化、甚至多结构化海量数据进行整合,并通过对这些数据的分析发现其中隐藏的相关信息,进而优化业务和管理。
2、大数据系统的特征
对于大数据系统一般具备数据量巨大、数据类型繁多、速度快、时效短、价值密度低的特点,因此处理速度要求快、及时,这样才能体现出价值,因此大数据系统要求计算效率要高。
1)数据量巨大
我们日常使用的网络从 3G、4G 到现在的 5G,网速的不断提升,带来也是数据存储上的提升,从最初的 MB、GB 到 TB,乃至现在有了 PB,EB 等存储。
我们每天都在产生数据,我们扫一次健康码、使用支付宝进行一次支付、我们发一条知乎文章、刷一条微博评论,都在为大数据系统提供数据,而千千万万个他们也在这么做。
因此,大数据系统的一个很重要的特点就是数据量巨大,而且还在不断地产生新的数据,从大量的数据中,我们才能分析出行为、规律,乃至能预测。
2)数据类型多样化
大数据系统还具备一个特点就是数据的多样,他可以是文字、图片、视频、语音等等,只要是在网络上传播的数据,都可以是大数据系统可以操作的对象。
今天你在朋友圈晒了一张三亚旅游的照片。
明天你与密友发了肉麻的语音。
你将珍藏多年岛国爱情片上传的 BD 网盘。
这些可能在你不知情的情况下,就已经被大数据系统盯上了,你还别不信。
你有没有发现,你刚和朋友商量中午吃什么,你的今日头条可能就给你推送外卖了。
你有没有发现,你刚夸了朋友买的衣服漂亮,淘宝首页就开始展示各种漂亮衣服了。
3)传输快、时效短
对于大数据系统来说,数据多、类型繁杂,本来处理起来就是很棘手的事情,但是它还有一个致命的问题就是时效短,今天的数据可能今天有效、明天就无效了。
比如我们的健康码显示核酸数据,今天你是第一天,明天可能就是两天了,再过一天你就要再做核酸了,也就是说核酸数据的只有三天,处理上也就需要及时,如果你的核酸数据,隔两天才能展示,意义又在哪里呢?
而且传输、处理快,必然要求系统硬件要跟得上,像去年的西安健康宝、钉钉都有不止一次因服务器资源不够而导致的宕机。
4)价值密度低
大数据系统有时候可能会花费大量精力,而徒劳无功,我们费劲收集了大量数据,如果不能在有效时间内处理,并获得有效数据,过时就无效了,相当于前面的工作白做,价值为零。
大数据分析、处理,也像是大海捞针,付出很多,结果不一定好。
比如,知乎粉丝的地域分布,可能这个数据分析起来没那么麻烦,但是如果作为用户,我们不关注,可见它的价值密度基本为零。
(本文图片源自网络,若有侵权联系立即删除)
评论