大数据基本导论
数据量的发展:
如上图所示,1986 年,全球只有 0.02EB 也就是约 21000TB 的数据量,而到了 2007 年,全球就是 280EB 也就是约 300000000TB 的数据量,翻了 14000 倍。 而最近,由于移动互联网及物联网的出现,各种终端设备的接入,各种业务形式的普及,平均每 40 个月,全球的数据量就会翻倍!如果这样说还没有什么印象,可以再举个简单的例子,在 2012 年,每天会产生 2.5EB 的数据量。基于 IDC 的报告预测,从 2013 年到 2020 年,全球数据量会从 4.4ZB 猛增到 44ZB!而到了 2025 年,全球会有 163ZB 的数据量!
由此可见,截至目前,全球的数据量已经大到爆了!而传统的关系型数据库根本处理不了如此海量的数据!
大数据的特点
大量 :
截至目前,人类生产的所有印刷材料的数据量是 200PB,而历史上全人类总共说过的话的数据量大约是 5EB。当前,典型个人计算机硬盘的容量为 TB 量级,而一些大企业的数据量已经接近 EB 量级
2) 高速:
这是大数据区分于传统数据挖掘的最显著特征。根据 IDC 的“数字宇宙”的报告,预计到 2020 年,全球数据使用量将达到 35.2ZB。在如此海量的数据面前,处理数据的效率就是企业的生命。
3) 多样 :
这种类型的多样性也让数据被分为结构化数据和非结构化数据。相对于以往便于存储的以数据库/文本为主的结构化数据,非结构化数据越来越多,包括网络日志、音频、视频、图片、地理位置信息等,这些多类型的数据对数据的处理能力提出了更高要求。
4) 低价值密度 :
价值密度的 高低与数据总量的大小成反比。比如,在一天监控视频中,我们只关心宋宋老师晚上在床上健身那一分钟,如何快速对有价值数据“提纯”成为目前大数据背景下待解决的难题。
大数据发展前景
1)党的十八届五中全会提出“实施国家大数据战略”,国务院印发《促进大数据发展行动纲要》,大数据技术和应用处于创新突破期,国内市场需求处于爆发期,我国大数据产业面临重要的发展机遇。
2)国际数据公司 IDC 预测,到 2020 年,企业基于大数据计算分析平台的支出将突破 5000 亿美元。目前,我国大数据人才只有 46 万,未来 3 到 5 年人才缺口达 150 万之多。
人才缺口计算
150w-40w=110w
110W/5 年 = 22w/年
22w/12 月=1.83w/月
自古不变的真理:先入行者吃肉,后入行者喝汤,最后到的买单!
3) 2017 年北京大学、中国人民大学、北京邮电大学等 25 所高校成功申请开设大数据课程。
4) 大数据属于高新技术,大牛少,升职竞争小;
5) 在北京大数据开发工程师的平均薪水已经到 17800 元(数据统计来职友集),而且目前还保持强劲的发展势头
评论