写点什么

聊聊数据分析

用户头像
数据社
关注
发布于: 2021 年 05 月 25 日
聊聊数据分析

某天你去买西瓜,你问老板多少钱一个,老板称了一个大的说 20 元。 你说要一半,老板从中间切开,称后说 15 元。 你拿起另一半,丢下 5 块钱……



一、什么是数据分析

数据分析是指用适当的统计分析方法对收集来的大量数据进行分析,将它们加以汇总和理解并消化,以求最大化地开发数据的功能,发挥数据的作用。数据分析是为了提取有用信息和形成结论而对数据加以详细研究和概括总结的过程。


当我们在日常生活中做任何决定时,我们都会根据以往已经发生的事情和现在所处的环境进行思考,然后做出决定。期间,我们可能还收集过去的一些记忆或未来的预判,这其实就是生活中的数据分析。如果把这种思路用在商业上,就是现在大部分数据分析师做的工作。

二、为什么我们需要数据分析

文章开头的那个例子,听起来很好笑,但这其中就是生活中的数据分析,反向思维的使用。



某天,老板喊你到办公室,问咱们的产品销售额怎么一直在下滑,怎么回事?这时候,你对历史销售产品的数量、分类、定价等一些列数据分析了查看,发现某一类产品的定价比竞品稍微高了一些,经过调整该销售价格,后来的一个月销售量增加了很多,也带动了整体的销售额。


可见,在生活中和在工作中,都需要分析来帮助我们实现利益最大化,可以说有商业利益的地方就会有数据分析。

三、数据分析工具


数据分析工具可以帮助我们更容易地处理和操作数据,分析数据集之间的关系。


  • SQL:这是数据处理中我最喜欢的工具,为什么呢?你可以看到,现在大数据计算引擎,都已经支持了 SQL 语法,在工作中,我们可以无缝的使用各个计算引擎处理数据,SQL 还有一个好处是,不用编译啊,即查即显示,随时可以调整处理的方式。

  • Python:这也是我喜欢的工具,为什么呢?Python 现在已经有各种机器学习的包供你选择,回归算法,聚类算法,预测算法,相关性算法,你几乎不需要在手写这些算法,了解算法原理后,直接站在巨人肩膀上摘苹果就好了。另外一块就是可视化,Python 各种可视化包完美满足你的需求。


目前这两种是我用的最多的分析工具。


四、数据分析类型


数据分析问题一般分为以下几类:


  • 统计分析

  • 诊断分析

  • 预测分析

  • 文本分析

统计分析

统计分析以仪表板的形式使用过去的数据来展示“发生了什么”。统计分析包括数据的收集、建模、分析、展示。和我们实际工作中 BI 的工作很是类似,对历史数据各个维度的统计,我们得出一个结论。



比如,我们对历史一个月电动车的充电时间分布得出,电动车更倾向于白天充电,这可能意味着车主倾向于更积极地利用公共充电设施。


诊断分析


诊断分析通过从统计分析中找到原因,也就是找到“为什么会发生”。这种分析有助于识别数据的行为模式,如果新的问题出现在您的业务流程中,那么可以查看此分析,以找到该问题的类似模式,这样也就找到了新问题的处置方式了。



比如,故障树分析,通过对历史数据的分析,我们清楚的知道每个故障都的根因,然后下次再来一个类似的故障,我们就可以根据故障树套进去,快速进行解决。



再举个容易理解的例子,临床医生看病,其实就是诊断性分析,每个人的症状不可能完全一样,医生根据血压,心电图等,能够快速诊断出你的病因。


预测分析


预测分析通过使用历史数据来显示“可能会发生什么”。最简单的例子是,**买房。**买房子对于很多人来说都是一件大事,会考虑很对因素,其中一条很重要的就是,未来我的房子会增值多少!你会看周边的环境,学校分布,公共交通,政府规划等等各种因素,然后你会看前几年哪个地方的房价涨的最快,是因为那些因素涨的快,这些因素将帮助你选择房子。当然,预测的准确性决定你能得到的因素有多详细。所以预测准确是非常难的一件事。(投资房产有风险,需谨慎)



文本分析


文本数据数据量大的特点,使得人工信息处理变得效率低下,必须借助计算机来完成相关工作,但是文本数据蕴含着复杂的语义关系和情感倾向,计算机无法直接识别、处理,所以需要将文本数据进行相应的转化处理。首要目标就是利用自然语言处理和分析方法将“文本”转换为“数据”,具体会涉及到词频分布研究、模式识别、关联分析、信息提取、可视化和预测分析等等,通过文本数据分析,可以初步推断文本的主要含义和文本提供者的意图。


比如之前介绍的频繁项挖掘,其实也是文本分析的一种。另外一个文本分析常见用途就是在互联网安全上的使用,比如 QQ 群里有人发布了一条带有敏感字段的信息连接,可能会打不开或者博客上你写的有敏感信息也不能发布。另外,垃圾邮件的识别过滤等都使用文本分析。


五、总结



上面是来自某网站数据分析师的平均薪资,前几天大数据架构,大数据运维非常火,薪资很高。随着各个公司大数据平台都已经完成了搭建,公司需要利用该平台来实现商业价值,而数据分析正式实现商业价值所需要的人才,所以你会看到现在大数据分析很火了。


很多人会说,没有接触过算法,算法太难了,其实并没有那么难,机器学习算法可以了解我们之前的算法介绍系列。前辈们也已经实现了很多例子,我们可以参考,最重要的是分析思路、方法,比如开头说的的逆向思维等,找到你自己行业的分析思路。

发布于: 2021 年 05 月 25 日阅读数: 15
用户头像

数据社

关注

微信公众号:数据社 2018.04.26 加入

专注大数据架构,数据仓库,MPP数据库分享,微信公众号数据社

评论

发布
暂无评论
聊聊数据分析