写点什么

数据预处理 & 特征工程

用户头像
Qien Z.
关注
发布于: 2021 年 05 月 20 日
数据预处理&特征工程

数据预处理

数据清洗

缺失值怎么处理?

存在缺失值的样本可以弃用,也可以把该特征维度删除掉,但一般不这么做。

缺失值可以采用平均值、中值来代替


特征工程

特征工程 Feature engineering,是指把一个物体表示为向量、矩阵、张量的过程。不同的数据类型,如文本、图像,会使用到不同的特征工程技术,特征工程也是往往需要花费大量时间的一个步骤。

特征工程还可以分为人工自动两种方式。图像识别已经发展相对成熟,可以通过深度学习进行自动提取特征。但是文本一般还需要大量的人工来提取特征。


数字排序

# 未排序列表arr = [40, 34, 125, 92, 5, 11, 90]
# 定义一个变量n,存放列表arr的长度n = len(arr)
# 遍历所有数组元素,根据其大小进行排序for i in range(n):
for j in range(0, n - i - 1):
if arr[j] > arr[j + 1]: """ 交换两个元素的位置,python特有的写法,等同于 t=arr[j] arr[j]=arr[j+1] arr[j+1]=t """ arr[j], arr[j + 1] = arr[j + 1], arr[j]
print("排序后的列表是" + str(arr))


#输出结果排序后的列表是[5, 11, 34, 40, 90, 92, 125]
复制代码

在 Python 语言当中,arr[j], arr[j+1] = arr[j + 1], arr[j] 起到了交换元素值的作用。

更直接的方式,还可以用 sort()函数来排序,只是,我们先了解原理

用户头像

Qien Z.

关注

Everything is all 2020.04.10 加入

接受反驳&不接受被定义

评论

发布
暂无评论
数据预处理&特征工程