轻松应用 RapidMiner 内置案例模板实现数据挖掘详解(下篇)
RapidMiner 案例模板
RapidMiner 机器学习平台提供了一个可视化的操作界面,允许用户通过拖放的方式构建数据分析流程。RapidMiner 目前内置了 13 种案例模板,这些模板是预定义的数据分析流程,可以帮助用户快速启动和执行常见的数据分析任务。
上期文中我们给大家介绍了 6 种案例模板,包括客户流失分析、精准营销、信用风险、购物篮分析、预测性维护、价格风险聚类。大家可在文末回顾上期文章~
在本期文章中,我们将继续给介绍其余 7 种案例模板:提升图、流程自动化、异常值检测、地理距离计算、情感分析、医疗欺诈检测、网页分析。
案例模板界面
*如内置模板不能满足用户的场景,用户也可以使用模型流程设计器构建自己的模型流程。
1、提升图案例模板
创建提升图能够评估识别具有较高流失概率、响应的营销活动或转化为产品用户的群体的能力。
步骤 1:
加载包含客户数据和感兴趣的目标变量的数据——这里指的是:客户流失。
步骤 2:
将数据分割为训练集和测试集(保留集)。在训练集上训练一个预测模型,并将模型应用于测试集。
步骤 3:
创建提升图。
2、流程自动化案例模板
将预测分析嵌入到业务流程中:当条件满足时,自动执行预测结果并触发动作。
步骤 1:
从各种来源读取数据(可以是数据库、文件、Hive 等...)。
步骤 2:
编辑、转换和加载(ETL)- 数据根据需要进行准备和组合。
步骤 3:
在其他地方预训练好的模型被读取。
步骤 4:
将模型应用于数据,以发现谁是未来的客户,然后计算并监控性能。现在怎么办?如果性能低于阈值,我们必须做出反应!双击操作符以查看更多。
这个分支操作符检查是否满足某个特定条件 - 在这里:如果性能高于/低于某个特定阈值。在构建和监控模型时,适应检查任何条件。
3、异常值检测案例模板
异常检测技术通过葡萄酒化学成分数据分析,首先对数据进行标准化处理,以便比较不同属性,然后识别数据集群和局部离群因子来检测异常。
步骤 1:
加载数据并准备进行分析。在比较不同性质的属性时,对数据进行标准化是一个典型的步骤。在这种情况下,我们使用 Z 变换作为方法,以确保典型的偏差相等,这样在问题的各个维度中,异常值都有明确的含义。数据集显示了具有各种化学成分的葡萄酒。
步骤 2:
我们对数据应用聚类操作符,以在葡萄酒列表中找到一致的组。然后我们使用 LOF(局部异常因子)机制来找到“异常值评分”。
步骤 3:
我们通过应用反向标准化模型来对数据进行去标准化,从而获得原始数据。然后我们过滤示例,以获得一个包含异常值的数据集和另一个包含其余数据的数据集,使用“异常值=1.5”作为阈值。
4、地理距离计算案例模板
通过使用“1NN”模型,并将其应用于客户位置,计算给定客户位置最近的天线。
步骤 1:
获取包含天线位置的数据集。通过选择适当的属性并指明模型的目标:找到 CellId,这将是模型的标签,来执行一些简单的 ETL 操作。
步骤 2:
使用数据集训练一个 k-最近邻(k-NN)模型(k=1)。它将帮助我们找到最近的天线。
步骤 3:
获取客户的相关数据。该过程的目标是为每个客户找到最近的天线。
步骤 4:
应用 1-最近邻(1-NN)模型来为每个客户的地理位置找到最近的天线(CellId)。
5、情感分析案例模板
使用用户评论数据上训练的分类模型来检测文本中的情感。
步骤 1:导入带有相关情感评估的文本数据。它被处理以提取单词,并生成词向量(文本的数值表示)。
步骤 2:训练一个支持向量机(SVM)模型,并对其进行验证以收集性能数据。
步骤 3:从文本创建一个新文档(添加你自己的文本并尝试),然后像处理初始文档一样处理它。初始单词列表是额外的输入。
步骤 4:用旧文本训练的模型应用于新文档。
6、医疗欺诈检测案例模板案例模板
医疗欺诈检测通过训练并应用梯度提升树模型,基于患者信息来检测医疗欺诈。模型通过验证来检查性能。
步骤 1:
从患者那里获取医疗数据,以及有关潜在欺诈行为的过去信息。为了将这些数据输入 GBT 算法,数据被转换为数字。
步骤 2:
我们有很多属性,但有些属性是相关的(例如,总额与部分计数相比)。我们自动移除相关性高于 95%的属性。
步骤 3:
使用 GBT 算法推断欺诈行为。对模型进行验证以检查性能并避免统计偏差。在验证的训练部分,平衡数据以帮助模型检测不寻常的欺诈案例。
7、网页分析案例模板
通过应用广义线性模型,根据用户在网站上的页面访问情况,将用户评分为高价值/低价值。
步骤 1:
我们检索网页数据,设置我们想要预测的属性(高价值/低价值),最后我们移除那些高度相关的属性,因此,它们不提供额外的信息。
步骤 2:
复制数据并以两种方式进行分析。
步骤 3:
使用 H2O 的广义线性模型来训练模型并验证预测。数据事先进行了平衡,以帮助模型检测较少出现的“高价值”案例。
步骤 4:
计算相关性权重,以检测最相关的属性。
关于 Altair RapidMiner
Altair RapidMiner 数据分析与人工智能平台,是数据分析领域中最早实现将自动化数据科学、文本分析、自动特征工程和深度学习等多种功能同时集成的企业级一站式数据科学平台,帮助用户解决从数据清洗、准备、数据科学建模到模型管理和部署的全流程需求,同时支持数据和流数据的实时分析可视化,适用于从学术研究到企业级应用的广泛场景。
欲了解更多信息,欢迎关注公众号:Altair 澳汰尔
评论