类别型特征
类别型特征(Categorical Feature)主要是指性别(男,女),血型(A,B,AB, O)等只在有限选项内取值的特征。类别型特征原始输入通常是字符串形式,除了决策树等少数模型能直接处理字符串形式的输入,对于逻辑回归,支持向量机等模型来说,类别特征必须转换成数值型特征才能正确工作。
常见方式
通常我们可以通过如下 3 种编码形式来转换
序号编码(Ordinal Encoding)
对于存在大小关系的特征我们可以通过可以表示大小关系的数值来进行替换。
比如:
成绩分为 高 > 中 > 低,那么我可以用 3 > 2 > 1 来代替这样的关系。
独热编码(One-hot Encoding)
适用于没有大小区别的特征。例如血型特征。
例如:
A 型血:(1, 0,0,0)
B 型血:(0, 1,0,0)
AB 型血:(0, 0,1,0)
O 型血:(0, 0,0,1)
如果特征很多的时候,可以通过稀疏向量来节省空间。
另外,也可以通过选取几个有代表的特征来降低特征的维度。
二进制编码(BinaryEncoding)
如果特征只有几个,我们可以通过二进制编码来节省空间,它的形式和独热编码很像。
例如:
A 型血:(001)
B 型血:(010)
AB 型血:(011)
O 型血:(100)
可以看出来会比独热编码节省很多存储空间。
评论 (2 条评论)