数据分析经典案例重现:使用 DataWorks Notebook 实现 Kaggle 竞赛之房价预测,成为数据分析大神!
在当今数据驱动的时代,数据分析和机器学习技术在各个领域中发挥着越来越重要的作用。其中,房价预测是一个典型的应用场景,不仅在房地产行业中具有重要价值,而且也是许多数据科学家和机器学习爱好者热衷研究的课题。Kaggle 作为一个全球知名的数据科学竞赛平台,其举办的房价预测竞赛更是成为了数据分析领域的经典案例之一。DataWorks 作为一站式智能数据开发与治理平台,基于 DataWorks Notebook 可完成完成数据加载、数据探索、数据可视化、数据清洗、特征分析、特征处理、机器学习、回归预测等步骤,实现 Kaggle 竞赛中的房价预测。
操作步骤如下:
步骤一:开通 DataWorks 产品
使用阿里云主账号或具有
AliyunBSSOrderAccess
和AliyunDataWorksFullAccess
权限策略的 RAM 用户/RAM 角色登录阿里云控制台。进入DataWorks组合购买页面,通过配置如下信息完成 DataWorks 版本和按量付费通用型资源组的免费开通:
地域:选择目标地域
DataWorks 版本:
版本:选择基础版
购买时长:3 个月,另可按需勾选到期自动续费
3. DataWorks 资源组:
资源组名称:默认名称为 dataworks_default_resource_grc,可自定义修改
专有网络(VPC):选择目标 VPC
交换机(V-Switch):选择目标 V-Switch
其他信息保持默认设置即可。
进入DataWorks通用型资源组抵扣包购买页面,通过配置如下信息完成购买,预计花费 105 元(150 元):
流量包容量规格:300CU*H
适用区域:中国内地公共云通用
购买数量:1
订购有效期:请在 3 个月内用完,过期作废
DataWorks 通用型资源组抵扣包可用于:个人开发环境、数据计算、数据集成、数据服务。
步骤二:创建 DataWorks 工作空间
使用阿里云主账号或具有
CreateWorkspace
权限策略的 RAM 用户/RAM 角色登录阿里云控制台。进入DataWorks控制台 > 工作空间列表,点击创建工作空间按钮。
在创建工作空间页面,填写工作空间所需信息:
工作空间名称:自定义名称
参加数据开发(DataStudio)(新版)公测:开关置为开启
默认资源组配置:选择步骤一中开通的 DataWorks 通用型资源组名称
其它信息保持默认设置即可。
点击页面左下角的创建工作空间按钮。
对新建的工作空间,按需绑定计算资源和数据目录,或直接跳过。
步骤三:新建个人开发环境实例
进入新版数据开发(DataStudio)页面,在页面顶部切换工作空间名称至步骤二中创建的工作空间名称。
在页面顶部的个人开发环境的下拉框中,点击前往新建。
填写个人开发环境实例所需的信息:
实例名称:自定义个人开发环境实例名称
资源组:选择步骤一中开通的按量付费的 DataWorks 通用型资源组
资源配额:自定义选择资源配额,例如:2CU
其它信息保持默认设置即可。
点击确定,等待个人开发环境实例启动。
步骤四:导入 Notebook 案例
在欢迎页中,点击 DataWorks Gallery,进入 Notebook 案例列表。
选择目标 Notebook 案例(数据分析经典案例:Kaggle竞赛之房价预测),点击载入案例。
选择步骤三中新建的个人开发环境实例名称后,点击确认,进入选择在新版数据开发(Data Studio)页面。
进入 Notebook 案例,按照案例的详细指导步骤进行编辑和运行。
注意:为防止抵扣包资源的容量额度持续被扣除,当不需要开发和分析时,请及时在新版数据开发页>个人开发环境>管理环境中,手动点击停止。
评论