数据挖掘

0 人感兴趣 · 15 次引用

  • 推荐
  • 最新

随机森林原理介绍与适用情况(综述篇)

用户头像
计算机与AI 2020 年 10 月 14 日

随机森林是一种集成算法(Ensemble Learning),它属于Bagging类型,通过组合多个弱分类器,最终结果通过投票或取均值,使得整体模型的结果具有较高的精确度和泛化性能。其可以取得不错成绩,主要归功于“随机”和“森林”,一个使它具有抗过拟合能力,一个使

https://static001.geekbang.org/infoq/bf/bfdca5173b25579710a942ef732de5ac.png?x-oss-process=image/resize,w_416,h_234

数据产品经理|关于产品续费率的思考

用户头像
黄大路 2020 年 5 月 10 日

很多常见的 C 端付费产品(工具类偏多,如 iOS 上很多付费订阅应用)和 SaaS 软件,日常重点关注的就是产品续费情况。所以接下来主要围绕续费率展开思考,希望能带来一些启发。

https://static001.geekbang.org/infoq/a5/a52455d149a913d175e548f77c7accde.png?x-oss-process=image/resize,w_416,h_234

使用 PCA 进行降维可视化,了解特征分布

用户头像
黄大路 2020 年 5 月 30 日

降维是数据挖掘流程中,一种对高维度特征数据预处理方法。降维是将高维度的数据保留下最重要的一些特征,去除噪声和不重要的特征,从而实现提升数据处理速度的目的。

https://static001.geekbang.org/infoq/3e/3e3adbb683a3f3a70feb7c9eefe31052.png?x-oss-process=image/resize,w_416,h_234

数据与广告系列二:计算广告和推荐系统

用户头像
黄崇远@数据虫巢 2020 年 5 月 24 日

推荐和广告本身同源,在很多逻辑上本身是一致的。

https://static001.geekbang.org/infoq/93/93bb49a5c44f09977ecc1a9b0401cae9.jpeg?x-oss-process=image/resize,w_416,h_234

如何让企业的 IT 数据运维更有“烟火气”?

用户头像
BonreeAPM 2020 年 6 月 19 日

海量数据在线辅助分析决策产品的出现,满足了大家数据可视化的需求。其旨在为企业数字化运营构建运营数据中台,满足企业数字化运营决策过程中数据在线分析需求,进而实现全流程化的ITOM和ITOA。

https://static001.geekbang.org/infoq/e4/e4a810bd6153c7373f33a9d7d94aacd8.png?x-oss-process=image/resize,w_416,h_234

介绍一款文本分析工具

用户头像
黄大路 2020 年 5 月 26 日

发现一款小工具——集搜客的文本分析检索。可以用来做一些简单的文本探索。如果有不懂技术的同学,可以利用起来。

数据挖掘学习指南 (转载)

用户头像
Jackchang234987 2020 年 8 月 28 日

最近有很多人咨询,想学习大数据,但不知道怎么入手,从哪里开始学习,需要学习哪些东西?对于一个初学者,学习大数据挖掘分析的思路逻辑是什么?本文就梳理了如何从0开始学习大数据挖掘分析,学习的步骤思路,可以给大家一个学习的建议。

使用 SpreadJS 开发在线问卷系统,构筑 CCP(云数据采集)平台

用户头像
Geek_Willie 2020 年 5 月 28 日

CCP(云数据采集)平台诞生于大数据时代的背景下,通过实时数据挖掘,在海量的云端数据中发现隐藏其中的价值。

https://static001.geekbang.org/infoq/c4/c41ee08371d1280ca37b9ec7e8c2a626.png?x-oss-process=image/resize,w_416,h_234

近邻算法介绍

用户头像
黄大路 2020 年 6 月 7 日

 KNN是通过测量不同特征值之间的距离进行分类。

七千字的线性回归模型指南,建议收藏!

用户头像
计算机与AI 2020 年 10 月 10 日

本文介绍了线性回归以及如何在Python中编程线性回归模型。

数据挖掘_数据挖掘资料文章-InfoQ写作平台