写点什么

大数据 -Big Data

发布于: 2021 年 04 月 21 日

大数据-Big Data


作者 | WenasWei


一 大数据


大数据(Big Data)也称为海量数据(Massivee),是随着计算机技术及互联网技术的高速发展而产生的数据现象,2013 年也称为大数据元年。标志着全球正式步入了大数据时代。大数据指无法在一定时间范围内用常规软件工具进行捕捉、管理和处理的数据集合,是需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力的海量、高增长率和多样化的信息资产。


大数据的 5V 特点(IBM 提出):


  • Volume(大量)

  • Velocity(高速)

  • Variety(多样)

  • Value(低价值密度)

  • Veracity(真实性)。



二 大数据的定义与意义


2.1 数据


大数据技术的战略意义不在于掌握庞大的数据信息,而在于对这些含有意义的数据进行专业化处理。换而言之,如果把大数据比作一种产业,那么这种产业实现盈利的关键,在于提高对数据的“加工能力”,通过“加工”实现数据的“增值”。


从技术上看,大数据与云计算的关系就像一枚硬币的正反面一样密不可分。大数据必然无法用单台的计算机进行处理,必须采用分布式架构。它的特色在于对海量数据进行分布式数据挖掘。但它必须依托云计算的分布式处理、分布式数据库和云存储、虚拟化技术。


大数据需要特殊的技术,以有效地处理大量的容忍经过时间内的数据。适用于大数据的技术,包括大规模并行处理(MPP)数据库、数据挖掘、分布式文件系统、分布式数据库、云计算平台、互联网和可扩展的存储系统。


最小的基本单位是 bit,按顺序给出所有单位:bit、Byte、KB、MB、GB、TB、PB、EB、ZB、YB、BB、NB、DB。


按照进率 1024(2 的十次方)来计算:


1 Byte =8 bit1 KB = 1,024 Bytes = 8192 bit1 MB = 1,024 KB = 1,048,576 Bytes1 GB = 1,024 MB = 1,048,576 KB1 TB = 1,024 GB = 1,048,576 MB1 PB = 1,024 TB = 1,048,576 GB1 EB = 1,024 PB = 1,048,576 TB1 ZB = 1,024 EB = 1,048,576 PB1 YB = 1,024 ZB = 1,048,576 EB1 BB = 1,024 YB = 1,048,576 ZB1 NB = 1,024 BB = 1,048,576 YB1 DB = 1,024 NB = 1,048,576 BB
复制代码


2.2 价值


有人把数据比喻为蕴藏能量的煤矿。煤炭按照性质有焦煤、无烟煤、肥煤、贫煤等分类,而露天煤矿、深山煤矿的挖掘成本又不一样。与此类似,大数据并不在“大”,而在于“有用”。价值含量、挖掘成本比数量更为重要。对于很多行业而言,如何利用这些大规模数据是赢得竞争的关键。


大数据的价值体现在以下几个方面:


  • (1)对大量消费者提供产品或服务的企业可以利用大数据进行精准营销;

  • (2)做小而美模式的中小微企业可以利用大数据做服务转型;

  • (3)面临互联网压力之下必须转型的传统企业需要与时俱进充分利用大数据的价值。


在这个快速发展的智能硬件时代,困扰应用开发者的一个重要问题就是如何在功率、覆盖范围、传输速率和成本之间找到那个微妙的平衡点。企业组织利用相关数据和分析可以帮助它们降低成本、提高效率、开发新产品、做出更明智的业务决策等等。例如,通过结合大数据和高性能的分析,下面这些对企业有益的情况都可能会发生:


  • (1)及时解析故障、问题和缺陷的根源,每年可能为企业节省数十亿美元。

  • (2)为成千上万的快递车辆规划实时交通路线,躲避拥堵。

  • (3)分析所有 SKU[^1],以利润最大化为目标来定价和清理库存。

  • (4)根据客户的购买习惯,为其推送他可能感兴趣的优惠信息。

  • (5)从大量客户中快速识别出金牌客户。

  • (6)使用点击流分析和数据挖掘来规避欺诈行为。


三 大数据的特征与结构


3.1 大数据的特征

(1) 容量(Volume)

数据的大小决定所考虑的数据的价值和潜在的信息

(2) 种类(Variety)

数据类型的多样性

(3) 速度(Velocity)

指获得数据的速度

(4) 可变性(Variability)

妨碍了处理和有效地管理数据的过程

(5) 真实性(Veracity)

数据的质量

(6) 复杂性(Complexity)

数据量巨大,来源多渠道

(7) 价值(value)

合理运用大数据,以低成本创造高价值


3.2 大数据的结构


大数据包括结构化、半结构化和非结构化数据,非结构化数据越来越成为数据的主要部分。据 IDC 的调查报告显示:企业中 80%的数据都是非结构化数据,这些数据每年都按指数增长 60%。


大数据也可以细化数据类型划分为四种: 结构化、半结构化、准结构化和非结构化。



想要系统的认知大数据,必须要全面而细致的分解它,着手从三个层面来展开:


  • 第一层面是理论: 理论是认知的必经途径,也是被广泛认同和传播的基线。在这里从大数据的特征定义理解行业对大数据的整体描绘和定性;从对大数据价值的探讨来深入解析大数据的珍贵所在;洞悉大数据的发展趋势;从大数据隐私这个特别而重要的视角审视人和数据之间的长久博弈。

  • 第二层面是技术: 技术是大数据价值体现的手段和前进的基石。在这里分别从云计算、分布式处理技术、存储技术和感知技术的发展来说明大数据从采集、处理、存储到形成结果的整个过程。

  • 第三层面是实践: 实践是大数据的最终价值体现。在这里分别从互联网的大数据,政府的大数据,企业的大数据和个人的大数据四个方面来描绘大数据已经展现的美好景象及即将实现的蓝图。


四 大数据处理中的计算技术

1、多处理技术

由单核 CPU 到多核 CPU 处理大量并行数据的场合越来越多,工作负载被均匀地分配到全部处理器上,极大提高了整个系统的处理能力。

2、并行计算

并行计算或称平行计算是相对于串行计算来说的。它是一种一次可执行多个指令的算法,目的是提高计算速度,及通过扩大问题求解规模,解决大型而复杂的计算问题。所谓并行计算可分为时间上的并行和空间上的并行。


时间上的并行就是指流水线技术,而空间上的并行则是指用多个处理器并发的执行计算。

3、高并发计算

并发计算和并行计算既有联系,又有着本质的区别。


二者的联系就是都是为完成计算任务而产生的相关技术,在多核计算中,常常将并行计算和并发计算结合在一起,获得更高的计算性能。


二者也有着本质的区别。


  • (1)并行计算是将一个较大的计算任务分解为多个较小的计算子任务,然后同时处理这些子任务。归根结底,并行计算是在完成一项计算任务。

  • (2)并发计算由多个顺序不依赖或者局部顺序依赖的计算任务组成,可以同时执行多个不同的计算任务,无论以何种顺序执行或者计算,最终结果都是一样的。另外,并发计算是快速完成计算任务的关键所在。

4、离线批处理计算

离线计算,通常也称为“批处理”,表示那些离线批量、延时较高的静态数据处理过程。离线计算适用于实时性要求不高的场景,比如离线报表、数据分析等,延时一般在分钟级或小时级,多数场景是定时周期性执行一个 Job 任务,任务周期可以小到分钟级,比如每五分钟做一次统计分析,大到月级别、年级别,比如每月执行一次任务。


离线批处理计算的特点如下:


  • (1)计算的数据量巨大。

  • (2)数据保存的时间比较长。

  • (3)数据在计算之前已经成型,不再发生变化。

  • (4)能够查询计算结果。

  • (5)计算过程消耗的时间比较长。


离线批处理的典型技术就是 Hadoop

5、在线实时计算

实时计算,通常也称为“实时流计算”、“流式计算”,表示那些实时或者低延时的流数据处理过程。


实时计算通常应用在实时性要求高的场景,比如实时 ETL、实时监控等,延时一般都在毫秒级甚至更低。


在线实时计算的特点如下:


  • (1)每次计算的数据量不大。

  • (2)缓存中间结果数据。

  • (3)单个复杂计算任务会被分解为多个简单的计算子任务。

  • (4)数据产生后便会被分析和统计。

  • (5)能够查询计算结果。

  • (6)单个计算过程消耗的时间比较短。


在线实时计算典型的技术就是 Storm, Spark Streaming 与 Flink


目前比较流行的实时框架有 Spark Streaming 与 Flink。其中,Spark Streaming 属于微批处理,是一种把流当作一种批的设计思想,具有非常高的吞吐量但延时也较高,这使得 Streaming 的场景也得到了一定的限制;Flink 则是事件驱动的流处理引擎,是一种把批当作一种有限的流的设计思想,具有高吞吐,低延时,高性能的特点


五 现状与发展趋势


大数据是信息技术发展的必然产物,更是信息化进程的新阶段,其发展推动了数字经济的形成与繁荣。


当前,在大数据应用的实践中,描述性、预测性分析应用多,决策指导性等更深层次分析应用偏少。一般而言,人们做出决策的流程通常包括:认知现状、预测未来和选择策略这三个基本步骤。这些步骤也对应了上述大数据分析应用的三个不同类型。不同类型的应用意味着人类和计算机在决策流程中不同的分工和协作。例如:第一层次的描述性分析中,计算机仅负责将与现状相关的信息和知识展现给人类专家,而对未来态势的判断及对最优策略的选择仍然由人类专家完成。应用层次越深,计算机承担的任务越多、越复杂,效率提升也越大,价值也越大。


信息化已经历了两次高速发展的浪潮,始于上世纪 80 年代,随个人计算机大规模普及应用所带来的以单机应用为主要特征的数字化(信息化 1.0),及始于上世纪 90 年代中期,随互联网大规模商用进程所推动的以联网应用为主要特征的网络化(信息化 2.0)。当前,我们正在进入以数据的深度挖掘和融合应用为主要特征的智能化阶段(信息化 3.0)。在“人机物”三元融合的大背景下,以“万物均需互联、一切皆可编程”为目标,数字化、网络化和智能化呈融合发展新态势。


在信息化发展历程中,数字化、网络化和智能化是三条并行不悖的主线。数字化奠定基础,实现数据资源的获取和积累;网络化构建平台,促进数据资源的流通和汇聚;智能化展现能力,通过多源数据的融合分析呈现信息应用的类人智能,帮助人类更好地认知复杂事物和解决问题。


发展趋势:


  • 趋势一:数据的资源化

  • 趋势二:与云计算的深度结合

  • 趋势三:科学理论的突破

  • 趋势四:数据科学和数据联盟的成立

  • 趋势五:数据泄露泛滥

  • 趋势六:数据管理成为核心竞争力

  • 趋势七:数据质量是 BI(商业智能)成功的关键


在信息化发展历程中,数字化、网络化和智能化是三条并行不悖的主线。数字化奠定基础,实现数据资源的获取和积累;网络化构建平台,促进数据资源的流通和汇聚;智能化展现能力,通过多源数据的融合分析呈现信息应用的类人智能,帮助人类更好地认知复杂事物和解决问题。


5.1 常见大数据应用有哪些

(1)购物营销

当我们打开淘宝,京东等购物 APP 时,总是会发现,这些 APP 比我们自己还懂自己,能够未卜先知地知道我们最近需要什么。


  • 篮球迷在湖人赢了比赛的时候打开淘宝,会发现詹姆斯的球衣就在首页;

  • 一个怀孕的妈妈,打开京东,发现进口的奶粉已经在召唤她购买;

  • 一个经常听神曲的大妈,广场舞音响的推荐总在眼前。


这就是商家通过手机浏览的数据分析,知道我们近期的需求,之后精准地向我们进行推销。

(2)交通出行

如今百度地图、高德地图已经成了我们出行必不可少的工具。没了地图,很多时候我们将寸步难行。有了地图,即使在九曲回肠的复杂道路中,也可以顺利的抵达我们想去的一个网红美食店。


手机地图能够做到精准的导航和实时的路况预测得益于大数据的分析。


  • 一是地图公司有自己数据采集车,前期采集了海量的数据存储在数据库中。

  • 二是每一个使用地图的用户,都共享了自己的位置,贡献了自己的数据。通过对同一时间段同一路段用户的使用情况进行分享,地图很容易就能得知哪里堵车,哪里畅通,提前告知使用者。

(3)政务处理

大数据在助力政府的政务处理方面同样发挥着重要的作用。近年来精准扶贫是各级政府的首要工程,扶贫如何做到精准,考验着政府的执政能力。


精准扶贫首先要做到的就是精准,贫困户是不是真正的贫困户,这在过往是一件很难解决的难题。上级政府只有依靠下级政府的统计上报进行拨款,于是关系户成了贫困户,真正贫困的人却难以得到实质性的帮助。


现如今有了大数据的加持,政府通过建档立卡,通过网络数据分析,对每一个贫困户进行核实。家里老人的就医记录,子女的工资水平,养殖等副业的收入等等都将进行评估,以确保精准扶贫落实到位。


电信诈骗无孔不入,但当电信诈骗遇上大数据,诈骗分子也将插翅难逃。如今利用大数据分析,诈骗短信,诈骗网站很容易被识别拦截。通过分析诈骗分子的“伪基站”地址,登录网址等信息也能很快锁定诈骗分子的藏身之处。

(4)信用体系

俗话说民无信不立,国无信不强。可见信用对于个人,对于国家都有非常重要的意义。但如何识别一个人是否有信用,却不是一件容易的事。在熟人社会里,我们可以通过一个人过往的表现,言行来判断他的信用。但在陌生人社会里,想要判定一个人是否有信用就很难了。这也影响了整个社会的运行,例如信用系统不完善,个人去银行贷款很难,网络购物也难以发展。


但如今有了大数据,这些难题都迎刃而解了。例如支付宝的芝麻积分,就是通过分析用户的学历、存款、购物行为、交友特征、履约历史等等数据来赋予用户对应的分数,表示用户的信用等级,同时将特定的特权开放给对应等级的用户。


现在支付宝、微信等信用数据都已并入央行主导的国民信用体系里,成为国家队。中国也正式建立了自己的信用体系,真正实现了有信用走遍天下都不怕,无信用则寸步难行。


5.2 大数据这柄双刃剑


20 世纪最重要的资源是石油,谁掌握了石油,谁就统治了世界。21 世纪最重要的资产则是数据,谁能在数据这座金矿中挖出黄金,谁就能掌握话语权,造福社会,创造财富; 用户成为了数据的消费者,也成为了数据的生产者,互利互惠,但是也会衍生出一下个人数据隐私问题等等,比如会产生大数据杀熟的情况,关键在于数据的拥有者。


参考文档:


  • [1] 梅宏.中国人大网: http://www.npc.gov.cn/npc/c30834/201910/653fc6300310412f841c90972528be67.shtml ,2019-10-30.

  • [2] 百度百科: https://baike.baidu.com/item/%E5%A4%A7%E6%95%B0%E6%8D%AE/1356941?fr=aladdin#reference-[1]-13647476-wrap

  • [3] 冰河.海量数据处理与大数据技术实站 [M].第 1 版.北京: 北京大学出版社,2020-09


[^1]: SKU: 库存量单位, stock keeping unit

发布于: 2021 年 04 月 21 日阅读数: 395
用户头像

当你知道的越多,不知道的就越多! 2021.04.20 加入

在互联网浪潮下的程序人生!

评论

发布
暂无评论
大数据-Big Data