写点什么

数据挖掘

用户头像
JackWangGeek
关注
发布于: 2020 年 08 月 12 日
数据挖掘

数据挖掘(Data Mining,简写DM),在人工智能领域,习惯上又称为数据库中知识发现(Knowledge Discovery in Database, KDD),也有人把数据挖掘视为数据库中知识发现过程的一个基本步骤。知识发现过程以下三个阶段组成:(1)数据准备;(2)数据挖掘;(3)结果表达和解释。数据挖掘可以与用户或知识库交互。在各领域的应用非常广泛,只要该产业拥有具分析价值与需求的数据仓储或数据库,皆可利用DM工具进行有目的的挖掘分析。一般较常见的应用案例多应用在零售业、直效行销界、制造业、财务金融保险、通讯业以及医疗服务等。

数据挖掘系统可以从销售数据中发掘顾客的消费习性,并可藉由交易纪录找出顾客偏好的产品组合,另外包括找出流失顾客的特征与推出新产品的时机点等都是零售业常见的实例;在企业日常的营销活动中,可以利用DM相关的技术来辅助企业营销策略的制定,例如利用DM分析顾客群之消费行为与交易纪录,结合基本数据,并依其对品牌价值等级的高低来区隔顾客,进而达到差异化营销的目的;制造业对DM的需求多运用在品质控管方面,由制造过程中找出影响产品品质最重要的因素,以期提高作业流程的效率。

近来电话公司、信用卡公司、保险公司以及股票交易商对于诈欺行为的侦测(Fraud Detection)都很有兴趣,这些行业每年因为诈欺行为而造成的损失都非常可观,DM可以从一些信用不良的客户数据中找出相似特征并预测可能的诈欺交易,达到减少损失的目的。财务金融业可以利用DM来分析市场动向,并预测个别公司的营运以及股价走向。DM的另一个独特的用法是在医疗业,用来预测手术、用药、诊断、或是流程控制的效率。

我们可以把数据挖掘作为OLAP的补充技术,OLAP经常用来为决策提供支持,或者为了证明某个假设而提供数据支持。但数据挖掘却不同,它一般用于在没有对数据提供确定的假设情况下使用。例如,可以使用SSRS提供的OLAP多维数据集检验在特定的时间段内,购买某种产品的客户具有某些特征。可以利用数据挖掘工具自动将与购买汽车相关的因子分解出来或分组,同时提供所有因子的权重,这样决策人员就可以进一步研究其中存在的相关性,然后根据所做的调查构建更精确的假设。

数据挖掘在实际的应用中,涉及到的主要功能可分为三个大类和六个分项:

  1. Classification和Clustering属于分类区隔类;

  2. Regression和Time-series属于推算预测类;

  3. Association和Sequence则属于序列规则类。

下面就针对上面的分类做一下详细的介绍。Classification是根据一些变量的数值做计算,再依照结果作分类。(计算的结果最后会被分类为几个少数的离散数值,例如将一组数据分为"会响应"或是"不会响应"两类)。Classification常被用来处理如前所述之邮寄对象筛选的问题。我们会用一些根据历史经验已经分类好的数据来研究它们的特征,然后再根据这些特征对其他未经分类或是新的数据做预测。这些我们用来寻找特征的已分类数据可能是来自我们的现有的客户数据,或是将一个完整数据库做部份取样,再经由实际的运作来测试;譬如利用一个大型邮寄对象数据库的部份取样来建立一个Classification Model,再利用这个Model来对数据库的其它数据或是新的数据作分类预测。

Clustering用在将数据分群,其目的在于将群间的差异找出来,同时也将群内成员的相似性找出来。Clustering与Classification不同的是,在分析前并不知道会以何种方式或根据来分类。所以必须要配合专业领域知识来解读这些分群的意义。

Regression是使用一系列的现有数值来预测一个连续数值的可能值。若将范围扩大亦可利用Logistic Regression来预测类别变量,特别在广泛运用现代分析技术如类神经网络或决策树理论等分析工具,推估预测的模式已不在止于传统线性的局限,在预测的功能上大大增加了选择工具的弹性与应用范围的广度。

Time-Series Forecasting与Regression功能类似,只是它是用现有的数值来预测未来的数值。两者最大差异在于Time-Series所分析的数值都与时间有关。Time-Series Forecasting的工具可以处理有关时间的一些特性,譬如时间的周期性、阶层性、季节性以及其它的一些特别因素(如过去与未来的关联性)。

Association是要找出在某一事件或是数据中会同时出现的东西。举例而言,如果A是某一事件的一种选择,则B也出现在该事件中的机率有多少。例如:如果顾客买了火腿和橙汁,那么这个顾客同时也会买牛奶的机率是85%。

Sequence Discovery与Association关系很密切,所不同的是Sequence Discovery中事件的相关是以时间因素来做区隔。例如:如果A股票在某一天上涨12%,而且当天股市加权指数下降,则B股票在两天之内上涨的机率是68%。



用户头像

JackWangGeek

关注

以匠人之精神,垒软件之砖 2020.01.10 加入

硕士,徐州软件协会副理事长,某创业公司合伙人

评论

发布
暂无评论
数据挖掘