写点什么

sklearn

0 人感兴趣 · 30 次引用

  • 最新
  • 推荐

支持向量机 -ROC 曲线中的概率和阈值

基于混淆矩阵,我们学习了总共六个指标:准确率Accuracy,精确度Precision,召回率Recall,精确度和召回度的平衡指标F measure,特异度Specificity,以及假正率FPR。其中,假正率有一个非常重要的应用:我们在追求较高的Recall的时候,Precision会下降,就是

支持向量机 -SVC 的模型评估指标

根据我们之前在Precision处的分析,其实可以看得出来,当样本均衡过后,假正率会更高,因为有更多紫色点被判断错误,而样本均衡之前,假正率比

支持向量机 - 二分类 SVC 中的样本不均衡问题:重要参数 class_weight

样本不均衡是指在一组数据集中,标签的一类天生占有很大的比例,但我们有着捕捉出某种特定的分类的需求的状况。比如,我们现在要对潜在犯罪者和普通人进行分类,潜在犯罪者占总人口的比例是相当低的,也许只有2%左右,98%的人都是普通人,而我们的目标是要捕

支持向量机 - 探索核函数的优势和缺陷

看起来,除了Sigmoid核函数,其他核函数效果都还不错。但其实rbf和poly都有自己的弊端,我们使用乳腺癌数据集作为例子来展示一下:

支持向量机 - 探索核函数在不同数据集上的表现

关于核函数在不同数据集上的研究甚少,谷歌学术上的论文中也没有几篇是研究核函数在SVM中的运用的,更多的是关于核函数在深度学习,神经网络中如何使用。在sklearn中,也没有提供任何关于如何选取核函数的信息。接下来我们就通过一个例子,来探索一下不同数据

支持向量机 - 线性 SVM 决策过程的可视化

我们可以使用sklearn中的式子来为可视化我们的决策边界,支持向量,以及决策边界平行的两个超平面。

支持向量机 - 线性 SVM 用于分类的原理

本节要注意一下决策边界和决策边际的概念。以上一节的二维数据为例,决策边界是个超平面,二维里就是条线,而决策边际是两个虚线超平面的最短距离

支持向量机 - 支持向量机分类器原理

支持向量机所作的事情其实非常容易理解。先来看看下面这一组数据的分布,这是一组两种标签的数据,两种标签分别由圆和方块代表。支持向量机的分类方法,是在这组分布中找出一个超平面作为决策边界,使模型在数据上的分类误差尽量接近于小,尤其是在未知数据集

主成分分析 PCA 与奇异值分解 SVD- 降维后的矩阵 components_ & inverse_transform

V(k,n)这个矩阵保存在.components_这个属性当中我们之前谈到过PCA与特征选择的区别,即特征选择后的特征矩阵是可解读的,而PCA降维后的特征矩阵式不可解读的:PCA是将已存在的特征进行压缩,降维完毕后的特征不是原本的特征矩阵中的任何一个特征,而是通过某

主成分分析 PCA 与奇异值分解 SVD-PCA 中的 SVD

svd_solver是奇异值分解器的意思,为什么PCA算法下面会有有关奇异值分解的参数?不是两种算法么?

主成分分析 PCA 与奇异值分解 SVD- 高维数据可视化以及参数 n_components

选择最好的n_components:累积可解释方差贡献率曲线在数据量大于特征维度的时候,我们设置n_components为默认值,可以画出累计可解释方差贡献率曲线,以此选择最好的n_components的整数取值。累积可解释方差贡献率曲线是一条以降维后保留的特征个数为横坐标,

数据预处理和特征工程 - 特征选择 -Wrapper 包装法

包装法也是一个特征选择和算法训练同时进行的方法,与嵌入法十分相似,它也是依赖于算法自身的选择,比如coef_属性或feature_importances_属性来完成特征选择。但不同的是,我们往往使用一个目标函数作为黑盒来帮助我们选取特征,而不是自己输入某个评估指标

数据预处理和特征工程 - 特征选择 -Embedded 嵌入法

嵌入法是一种让算法自己决定使用哪些特征的方法,即特征选择和算法训练同时进行。在使用嵌入法时,我们先使用某些机器学习的算法和模型进行训练,得到各个特征的权值系数,根据权值系数从大到小选择特征。

数据预处理和特征工程 - 特征选择 - 相关性过滤 - 卡方过滤

方差挑选完毕之后,我们就要考虑下一个问题:相关性了。我们希望选出与标签相关且有意义的特征,因为这样的特征能够为我们提供大量信息。

数据预处理和特征工程 - 数据预处理 - 编码与哑变量 & 二值化与分段

多标签和特征在数据收集完毕的时候,都不是以数字来表现的。比如说,学历的取值可以是["小学",“初中”,“高中”,"大学"],付费方式可能包含["支付宝",“现金”,“微信”]等等。在这种情况下,为了让数据适应算法和库,我们必须将数据进行编码,即是说,

数据预处理和特征工程 - 数据预处理 - 数据无量纲化 & 缺失值

数据挖掘的五大流程: 获取数据 2. 数据预处理 数据预处理是从数据中检测,纠正或删除损坏,不准确或不适用于模型的记录的过程 可能面对的问题有:数据类型不同,比如有的是文字,有

随机森林 - 随机森林在乳腺癌数据上的调参

随机森林在乳腺癌数据上的表现本就还不错,在现实数据集上,基本上不可能什么都不调就看到95%以上的准确率

随机森林 - 用随机森林回归填补缺失值

我们现实收集到的数据往往是有缺失值的,我们可以选择含有缺失值的数据,有时候填补缺失值会比直接丢弃样本效果更好,即便我们其实并不知道缺失值的真实样貌。在sklearn中,我们可以使用sklearn.impute.SimpleImputer来将均值、中值、众数或者其他常用的数值

随机森林 - 概述

继承学习不是一个单独的机器学习算法,而是通过在数据上构建多个模型,继承所有模型的建模结果。

决策树 - 泰坦尼克号幸存者预测

网格搜索:能够帮助我们同时调整多个参数的技术,是一种枚举技术给定字典,字典中有参数范围,找到参数范围内能让模型最好的效果的组合因为是多个参数组合

决策树 - 用回归树拟合正弦曲线

rng = np.random.RandomState(1):一个伪随机数生成器,返回RandomState对象。随机数是用确定性的算法计算出来自均匀分布的随机数序列。并不真正的随机,但具有类似于随机数的统计特征,如均匀性、独立性等。rand(80),指的是一个80个元素的一维数组,不是80

决策树 - 交叉验证

均方误差mean squared error(MSE) 其中是样本数量,是每个数据样本,是模型回归出来的数值,是样本点实际的数值标签所以MES的本质,其实是样本正是数据与回归结果的差异。因此在回归中,我们追求的是MSE越小越好

决策树 - 分类树

关键概念:节点 根节点:没有进边,有出边。包含最初的,针对特征的提问。 中间节点:既有进边也有出边,进边只有一条,出边可以有很多条。都是针对特征的提问。 叶子节点:有进边,没有出边,每个叶子节点都是一个类别标签。

Python 基础(十三) | 机器学习 sklearn 库详解与应用

⭐本专栏旨在对Python的基础语法进行详解,精炼地总结语法中的重点,详解难点,面向零基础及入门的学习者,通过专栏的学习可以熟练掌握python编程,同时为后续的数据分析,机器学习及深度学习的代码能力打下坚实的基础。

sklearn_sklearn技术文章_InfoQ写作社区