每个数据科学家都应该知道的 5 个概念

关注
发布于: 2020 年 10 月 15 日
一旦成为数据科学家，您在职业生涯的每一天都会应用某些技能。其中一些可能是您在学习期间学到的常见技术，而另一些可能只有在您在组织中建立更牢固的基础后才能充分发展。继续磨练这些技能将为您提供宝贵的专业利益。
﻿
尽管这个词有点长且很难说，但是当您分解它时，多重共线性很简单。多含义很多，共线性含义线性相关。多重共线性可以描述为当两个或多个解释变量解释相似信息或在回归模型中高度相关时的情况。此概念引起关注的原因有几个。
对于某些建模技术，它可能导致过度拟合，并最终导致模型性能下降。
数据变得多余，并且模型中不需要每个功能或属性。因此，有一些方法可以找出应删除构成多重共线性的哪些特征。
variance inflation factor 方差膨胀因子（VIF）
correlation matrices 相关矩阵
数据科学家通常使用这两种技术，尤其是相关矩阵和图-通常以某种形式的热图可视化，而VIF则鲜为人知。
VIF值越高，该功能对您的回归模型的使用就越少。
VIF的一个很好的简单资源是 方差膨胀因子-统计方法。
﻿
One-Hot编码
模型中这种形式的特征转换称为单次编码。您想通过编码来以数字方式表示分类特征。尽管分类要素本身具有文本值，但是一键编码会转置该信息，以便每个值都成为要素，并且该行中的观察值要么表示为0，要么表示为1。例如，如果分类变量为 性别，一键编码后的数字表示看起来像（性别 之前和之后的 男性/女性 ）：
当您不仅要使用数字功能并且需要使用文本/分类功能创建该数字表示形式时，此转换非常有用。
 
采样当您没有足够的数据时，  建议使用过采样作为补偿。假设您正在处理分类问题，并且具有少数类，例如下面的示例：
class_1 = 100行
class_2 = 1000行
class_3 = 1100行
如您所见，  class_1的类中 有少量数据，这意味着您的数据集是不平衡的，将被称为少数类。有几种过采样技术。其中之一称为 SMOTE，代表 合成少数族裔过采样技术。SMOTE工作的方法之一是利用 K邻域 方法来找到最接近的邻域以创建合成样本。有类似的技术使用反向方法进行 欠采样。
当您的类或回归数据中甚至有异常值时，并且您要确保采样是模型将在将来运行的数据的最佳表示形式时，这些技术将非常有用。
﻿
误差矩阵
在数据科学中，分类和回归模型都有大量错误度量标准。根据 scikit-learn库，以下是您可以专门用于回归模型的一些信息：
metrics.explained_variance_score
metrics.max_error
metrics.mean_absolute_error
metrics.mean_squared_error
metrics.mean_squared_log_error
metrics.median_absolute_error
metrics.r2_score
metrics.mean_poisson_deviance
metrics.mean_gamma_deviance
从上方进行回归分析的两个最受欢迎的错误指标是MSE和RMSE：
MSE： 概念是→平均绝对误差回归损失（sklearn）
RMSE： 概念是→均方误差回归损失（sklearn）
对于分类，您可以期望以准确性和AUC（曲线下面积）评估模型的性能。
Storytelling我想添加一个讲故事的数据科学独特概念。我不能足够强调这个概念的重要性。可以将其视为概念或技能，但此处的标签并不重要。什么是您在业务环境中表达问题解决技术的能力如何。许多数据科学家将只专注于模型的准确性，但随后将无法理解整个业务流程。该过程包括：
什么事
问题是什么？
为什么我们需要数据科学？
数据科学的目标是什么？
我们什么时候可以获得可用的结果？
我们如何应用我们的结果？
我们的结果有什么影响？
我们如何分享我们的结果和整体流程？
如您所见，这些点都不是模型本身，也不是准确性的提高。这里的重点是如何使用数据来解决公司的问题。结识最终将要与之合作的利益相关者和您的非技术同事是有益的。您还将与产品经理一起工作，他们将与您一起评估问题，并与数据工程师一起甚至在运行基本模型之前收集数据。在建模过程的最后，您将与关键人物分享您的结果，这些人物通常希望看到它可能以某种形式的视觉表示（Tableau，Google Slide卡座等）产生影响，从而能够进行演示和交流也是有益的。
﻿
参考：
scikit-learn库：https://scikit-learn.org/stable/modules/model_evaluation.html
﻿