1. 机器学习系列入门系列[七]:基于英雄联盟数据集的 LightGBM 的分类预测
本项目链接:https://www.heywhale.com/home/column/64141d6b1c8c8b518ba97dcc
1.1 LightGBM 原理简介
LightGBM 是 2017 年由微软推出的可扩展机器学习系统,是微软旗下 DMKT 的一个开源项目,它是一款基于 GBDT(梯度提升决策树)算法的分布式梯度提升框架,为了满足缩短模型计算时间的需求,LightGBM 的设计思路主要集中在减小数据对内存与计算性能的使用,以及减少多机器并行计算时的通讯代价。
LightGBM 可以看作是 XGBoost 的升级豪华版,在获得与 XGBoost 近似精度的同时,又提供了更快的训练速度与更少的内存消耗。正如其名字中的 Light 所蕴含的那样,LightGBM 在大规模数据集上跑起来更加优雅轻盈,一经推出便成为各种数据竞赛中刷榜夺冠的神兵利器。
LightGBM 底层实现了 GBDT 算法,并且添加了一系列的新特性:
基于直方图算法进行优化,使数据存储更加方便、运算更快、鲁棒性强、模型更加稳定等。
提出了带深度限制的 Leaf-wise 算法,抛弃了大多数 GBDT 工具使用的按层生长 (level-wise) 的决策树生长策略,而使用了带有深度限制的按叶子生长策略,可以降低误差,得到更好的精度。
提出了单边梯度采样算法,排除大部分小梯度的样本,仅用剩下的样本计算信息增益,它是一种在减少数据量和保证精度上平衡的算法。
提出了互斥特征捆绑算法,高维度的数据往往是稀疏的,这种稀疏性启发我们设计一种无损的方法来减少特征的维度。通常被捆绑的特征都是互斥的(即特征不会同时为非零值,像 one-hot),这样两个特征捆绑起来就不会丢失信息。
LightGBM 是基于 CART 树的集成模型,它的思想是串联多个决策树模型共同进行决策。
那么如何串联呢?LightGBM 采用迭代预测误差的方法串联。举个通俗的例子,我们现在需要预测一辆车价值 3000 元。我们构建决策树 1 训练后预测为 2600 元,我们发现有 400 元的误差,那么决策树 2 的训练目标为 400 元,但决策树 2 的预测结果为 350 元,还存在 50 元的误差就交给第三棵树……以此类推,每一颗树用来估计之前所有树的误差,最后所有树预测结果的求和就是最终预测结果!
LightGBM 的基模型是 CART 回归树,它有两个特点:(1)CART 树,是一颗二叉树。(2)回归树,最后拟合结果是连续值。
LightGBM 模型可以表示为以下形式,我们约定ft(x)表示前t颗树的和,ht(x)表示第t颗决策树,模型定义如下:
由于模型递归生成,第t步的模型由第t−1步的模型形成,可以写成:
每次需要加上的树ht(x)是之前树求和的误差:
我们每一步只要拟合一颗输出为rt,i的 CART 树加到ft−1(x)就可以了。
1.2 LightGBM 的应用
LightGBM 在机器学习与数据挖掘领域有着极为广泛的应用。据统计 LightGBM 模型自 2016 到 2019 年在 Kaggle 平台上累积获得数据竞赛前三名三十余次,其中包括 CIKM2017 AnalytiCup、IEEE Fraud Detection 等知名竞赛。这些竞赛来源于各行各业的真实业务,这些竞赛成绩表明 LightGBM 具有很好的可扩展性,在各类不同问题上都可以取得非常好的效果。
同时,LightGBM 还被成功应用在工业界与学术界的各种问题中。例如金融风控、购买行为识别、交通流量预测、环境声音分类、基因分类、生物成分分析等诸多领域。虽然领域相关的数据分析和特性工程在这些解决方案中也发挥了重要作用,但学习者与实践者对 LightGBM 的一致选择表明了这一软件包的影响力与重要性。
2.相关流程
Part1 基于英雄联盟数据集的 LightGBM 分类实践
3.基于英雄联盟数据集的 LightGBM 分类实战
在实践的最开始,我们首先需要导入一些基础的函数库包括:numpy (Python 进行科学计算的基础软件包),pandas(pandas 是一种快速,强大,灵活且易于使用的开源数据分析和处理工具),matplotlib 和 seaborn 绘图。
#下载需要用到的数据集
!wget https://tianchi-media.oss-cn-beijing.aliyuncs.com/DSW/8LightGBM/high_diamond_ranked_10min.csv
复制代码
--2023-03-22 19:33:36-- https://tianchi-media.oss-cn-beijing.aliyuncs.com/DSW/8LightGBM/high_diamond_ranked_10min.csv
正在解析主机 tianchi-media.oss-cn-beijing.aliyuncs.com (tianchi-media.oss-cn-beijing.aliyuncs.com)... 49.7.22.39
正在连接 tianchi-media.oss-cn-beijing.aliyuncs.com (tianchi-media.oss-cn-beijing.aliyuncs.com)|49.7.22.39|:443... 已连接。
已发出 HTTP 请求,正在等待回应... 200 OK
长度: 1446502 (1.4M) [text/csv]
正在保存至: “high_diamond_ranked_10min.csv”
high_diamond_ranked 100%[===================>] 1.38M --.-KB/s in 0.04s
2023-03-22 19:33:36 (38.3 MB/s) - 已保存 “high_diamond_ranked_10min.csv” [1446502/1446502])
复制代码
Step1:函数库导入
## 基础函数库
import numpy as np
import pandas as pd
## 绘图函数库
import matplotlib.pyplot as plt
import seaborn as sns
复制代码
本次我们选择英雄联盟数据集进行 LightGBM 的场景体验。英雄联盟是 2009 年美国拳头游戏开发的 MOBA 竞技网游,在每局比赛中蓝队与红队在同一个地图进行作战,游戏的目标是破坏敌方队伍的防御塔,进而摧毁敌方的水晶枢纽,拿下比赛的胜利。
现在共有 9881 场英雄联盟韩服钻石段位以上的排位比赛数据,数据提供了在十分钟时的游戏状态,包括击杀数、死亡数、金币数量、经验值、等级……等信息。列 blueWins 是数据的标签,代表了本场比赛是否为蓝队获胜。
数据的各个特征描述如下:
Step2:数据读取/载入
## 我们利用Pandas自带的read_csv函数读取并转化为DataFrame格式
df = pd.read_csv('./high_diamond_ranked_10min.csv')
y = df.blueWins
复制代码
Step3:数据信息简单查看
## 利用.info()查看数据的整体信息
df.info()
复制代码
<class 'pandas.core.frame.DataFrame'>
RangeIndex: 9879 entries, 0 to 9878
Data columns (total 40 columns):
# Column Non-Null Count Dtype
--- ------ -------------- -----
0 gameId 9879 non-null int64
1 blueWins 9879 non-null int64
2 blueWardsPlaced 9879 non-null int64
3 blueWardsDestroyed 9879 non-null int64
4 blueFirstBlood 9879 non-null int64
5 blueKills 9879 non-null int64
6 blueDeaths 9879 non-null int64
7 blueAssists 9879 non-null int64
8 blueEliteMonsters 9879 non-null int64
9 blueDragons 9879 non-null int64
10 blueHeralds 9879 non-null int64
11 blueTowersDestroyed 9879 non-null int64
12 blueTotalGold 9879 non-null int64
13 blueAvgLevel 9879 non-null float64
14 blueTotalExperience 9879 non-null int64
15 blueTotalMinionsKilled 9879 non-null int64
16 blueTotalJungleMinionsKilled 9879 non-null int64
17 blueGoldDiff 9879 non-null int64
18 blueExperienceDiff 9879 non-null int64
19 blueCSPerMin 9879 non-null float64
20 blueGoldPerMin 9879 non-null float64
21 redWardsPlaced 9879 non-null int64
22 redWardsDestroyed 9879 non-null int64
23 redFirstBlood 9879 non-null int64
24 redKills 9879 non-null int64
25 redDeaths 9879 non-null int64
26 redAssists 9879 non-null int64
27 redEliteMonsters 9879 non-null int64
28 redDragons 9879 non-null int64
29 redHeralds 9879 non-null int64
30 redTowersDestroyed 9879 non-null int64
31 redTotalGold 9879 non-null int64
32 redAvgLevel 9879 non-null float64
33 redTotalExperience 9879 non-null int64
34 redTotalMinionsKilled 9879 non-null int64
35 redTotalJungleMinionsKilled 9879 non-null int64
36 redGoldDiff 9879 non-null int64
37 redExperienceDiff 9879 non-null int64
38 redCSPerMin 9879 non-null float64
39 redGoldPerMin 9879 non-null float64
dtypes: float64(6), int64(34)
memory usage: 3.0 MB
复制代码
## 进行简单的数据查看,我们可以利用 .head() 头部.tail()尾部
df.head()
复制代码
.dataframe tbody tr th:only-of-type { vertical-align: middle; }<pre><code>.dataframe tbody tr th {<br/> vertical-align: top;<br/>}<br/><br/>.dataframe thead th {<br/> text-align: right;<br/>}<br/></code></pre><p>
5 rows × 40 columns
.dataframe tbody tr th:only-of-type { vertical-align: middle; }<pre><code>.dataframe tbody tr th {<br/> vertical-align: top;<br/>}<br/><br/>.dataframe thead th {<br/> text-align: right;<br/>}<br/></code></pre><p>
5 rows × 40 columns
## 标注标签并利用value_counts函数查看训练集标签的数量
y = df.blueWins
y.value_counts()
复制代码
0 4949
1 4930
Name: blueWins, dtype: int64
复制代码
数据集正负标签数量基本相同,不存在数据不平衡的问题。
## 标注特征列
drop_cols = ['gameId','blueWins']
x = df.drop(drop_cols, axis=1)
复制代码
## 对于特征进行一些统计描述
x.describe()
复制代码
.dataframe tbody tr th:only-of-type { vertical-align: middle; }<pre><code>.dataframe tbody tr th {<br/> vertical-align: top;<br/>}<br/><br/>.dataframe thead th {<br/> text-align: right;<br/>}<br/></code></pre><p>
8 rows × 38 columns
我们发现不同对局中插眼数和拆眼数的取值范围存在明显差距,甚至有前十分钟插了 250 个眼的异常值。
我们发现 EliteMonsters 的取值相当于 Deagons + Heralds。
我们发现 TotalGold 等变量在大部分对局中差距不大。
我们发现两支队伍的经济差和经验差是相反数。
我们发现红队和蓝队拿到首次击杀的概率大概都是 50%
## 根据上面的描述,我们可以去除一些重复变量,比如只要知道蓝队是否拿到一血,我们就知道红队有没有拿到,可以去除红队的相关冗余数据。
drop_cols = ['redFirstBlood','redKills','redDeaths'
,'redGoldDiff','redExperienceDiff', 'blueCSPerMin',
'blueGoldPerMin','redCSPerMin','redGoldPerMin']
x.drop(drop_cols, axis=1, inplace=True)
复制代码
Step4:可视化描述
data = x
data_std = (data - data.mean()) / data.std()
data = pd.concat([y, data_std.iloc[:, 0:9]], axis=1)
data = pd.melt(data, id_vars='blueWins', var_name='Features', value_name='Values')
fig, ax = plt.subplots(1,2,figsize=(15,5))
# 绘制小提琴图
sns.violinplot(x='Features', y='Values', hue='blueWins', data=data, split=True,
inner='quart', ax=ax[0], palette='Blues')
fig.autofmt_xdate(rotation=45)
data = x
data_std = (data - data.mean()) / data.std()
data = pd.concat([y, data_std.iloc[:, 9:18]], axis=1)
data = pd.melt(data, id_vars='blueWins', var_name='Features', value_name='Values')
# 绘制小提琴图
sns.violinplot(x='Features', y='Values', hue='blueWins',
data=data, split=True, inner='quart', ax=ax[1], palette='Blues')
fig.autofmt_xdate(rotation=45)
plt.show()
复制代码
小提琴图 (Violin Plot)是用来展示多组数据的分布状态以及概率密度。这种图表结合了箱形图和密度图的特征,主要用来显示数据的分布形状。
从图中我们可以看出:
击杀英雄数量越多更容易赢,死亡数量越多越容易输(bluekills 与 bluedeaths 左右的区别)。
助攻数量与击杀英雄数量形成的图形状类似,说明他们对游戏结果的影响差不多。
一血的取得情况与获胜有正相关,但是相关性不如击杀英雄数量明显。
经济差与经验差对于游戏胜负的影响较小。
击杀野怪数量对游戏胜负的影响并不大。
plt.figure(figsize=(18,14))
sns.heatmap(round(x.corr(),2), cmap='Blues', annot=True)
plt.show()
复制代码
同时我们画出各个特征之间的相关性热力图,颜色越深代表特征之间相关性越强,我们剔除那些相关性较强的冗余特征。
# 去除冗余特征
drop_cols = ['redAvgLevel','blueAvgLevel']
x.drop(drop_cols, axis=1, inplace=True)
复制代码
sns.set(style='whitegrid', palette='muted')
# 构造两个新特征
x['wardsPlacedDiff'] = x['blueWardsPlaced'] - x['redWardsPlaced']
x['wardsDestroyedDiff'] = x['blueWardsDestroyed'] - x['redWardsDestroyed']
data = x[['blueWardsPlaced','blueWardsDestroyed','wardsPlacedDiff','wardsDestroyedDiff']].sample(1000)
data_std = (data - data.mean()) / data.std()
data = pd.concat([y, data_std], axis=1)
data = pd.melt(data, id_vars='blueWins', var_name='Features', value_name='Values')
plt.figure(figsize=(10,6))
sns.swarmplot(x='Features', y='Values', hue='blueWins', data=data)
plt.xticks(rotation=45)
plt.show()
复制代码
我们画出了插眼数量的散点图,发现不存在插眼数量与游戏胜负间的显著规律。猜测由于钻石分段以上在哪插眼在哪好排眼都是套路,所以数据中前十分钟插眼数拔眼数对游戏的影响不大。所以我们暂时先把这些特征去掉。
## 去除和眼位相关的特征
drop_cols = ['blueWardsPlaced','blueWardsDestroyed','wardsPlacedDiff',
'wardsDestroyedDiff','redWardsPlaced','redWardsDestroyed']
x.drop(drop_cols, axis=1, inplace=True)
复制代码
x['killsDiff'] = x['blueKills'] - x['blueDeaths']
x['assistsDiff'] = x['blueAssists'] - x['redAssists']
x[['blueKills','blueDeaths','blueAssists','killsDiff','assistsDiff','redAssists']].hist(figsize=(12,10), bins=20)
plt.show()
复制代码
我们发现击杀、死亡与助攻数的数据分布差别不大。但是击杀减去死亡、助攻减去死亡的分布与原分布差别很大,因此我们新构造这么两个特征。
data = x[['blueKills','blueDeaths','blueAssists','killsDiff','assistsDiff','redAssists']].sample(1000)
data_std = (data - data.mean()) / data.std()
data = pd.concat([y, data_std], axis=1)
data = pd.melt(data, id_vars='blueWins', var_name='Features', value_name='Values')
plt.figure(figsize=(10,6))
sns.swarmplot(x='Features', y='Values', hue='blueWins', data=data)
plt.xticks(rotation=45)
plt.show()
复制代码
从上图我们可以发现击杀数与死亡数与助攻数,以及我们构造的特征对数据都有较好的分类能力。
data = pd.concat([y, x], axis=1).sample(500)
sns.pairplot(data, vars=['blueKills','blueDeaths','blueAssists','killsDiff','assistsDiff','redAssists'],
hue='blueWins')
plt.show()
复制代码
一些特征两两组合后对于数据的划分能力也有提升。
x['dragonsDiff'] = x['blueDragons'] - x['redDragons']
x['heraldsDiff'] = x['blueHeralds'] - x['redHeralds']
x['eliteDiff'] = x['blueEliteMonsters'] - x['redEliteMonsters']
data = pd.concat([y, x], axis=1)
eliteGroup = data.groupby(['eliteDiff'])['blueWins'].mean()
dragonGroup = data.groupby(['dragonsDiff'])['blueWins'].mean()
heraldGroup = data.groupby(['heraldsDiff'])['blueWins'].mean()
fig, ax = plt.subplots(1,3, figsize=(15,4))
eliteGroup.plot(kind='bar', ax=ax[0])
dragonGroup.plot(kind='bar', ax=ax[1])
heraldGroup.plot(kind='bar', ax=ax[2])
print(eliteGroup)
print(dragonGroup)
print(heraldGroup)
plt.show()
复制代码
eliteDiff
-2 0.286301
-1 0.368772
0 0.500683
1 0.632093
2 0.735211
Name: blueWins, dtype: float64
dragonsDiff
-1 0.374173
0 0.500000
1 0.640940
Name: blueWins, dtype: float64
heraldsDiff
-1 0.387729
0 0.498680
1 0.595046
Name: blueWins, dtype: float64
复制代码
我们构造了两队之间是否拿到龙、是否拿到峡谷先锋、击杀大型野怪的数量差值,发现在游戏的前期拿到龙比拿到峡谷先锋更容易获得胜利。拿到大型野怪的数量和胜率也存在着强相关。
x['towerDiff'] = x['blueTowersDestroyed'] - x['redTowersDestroyed']
data = pd.concat([y, x], axis=1)
towerGroup = data.groupby(['towerDiff'])['blueWins']
print(towerGroup.count())
print(towerGroup.mean())
fig, ax = plt.subplots(1,2,figsize=(15,5))
towerGroup.mean().plot(kind='line', ax=ax[0])
ax[0].set_title('Proportion of Blue Wins')
ax[0].set_ylabel('Proportion')
towerGroup.count().plot(kind='line', ax=ax[1])
ax[1].set_title('Count of Towers Destroyed')
ax[1].set_ylabel('Count')
复制代码
towerDiff
-2 27
-1 347
0 9064
1 406
2 28
3 6
4 1
Name: blueWins, dtype: int64
towerDiff
-2 0.185185
-1 0.216138
0 0.498124
1 0.741379
2 0.964286
3 1.000000
4 1.000000
Name: blueWins, dtype: float64
Text(0,0.5,'Count')
复制代码
推塔是英雄联盟这个游戏的核心,因此推塔数量可能与游戏的胜负有很大关系。我们绘图发现,尽管前十分钟推掉第一座防御塔的概率很低,但是一旦某只队伍推掉第一座防御塔,获得游戏的胜率将大大增加。
Step5:利用 LightGBM 进行训练与预测
## 为了正确评估模型性能,将数据划分为训练集和测试集,并在训练集上训练模型,在测试集上验证模型性能。
from sklearn.model_selection import train_test_split
## 选择其类别为0和1的样本 (不包括类别为2的样本)
data_target_part = y
data_features_part = x
## 测试集大小为20%, 80%/20%分
x_train, x_test, y_train, y_test = train_test_split(data_features_part, data_target_part, test_size = 0.2, random_state = 2020)
复制代码
## 导入LightGBM模型
from lightgbm.sklearn import LGBMClassifier
## 定义 LightGBM 模型
clf = LGBMClassifier()
# 在训练集上训练LightGBM模型
clf.fit(x_train, y_train)
复制代码
## 在训练集和测试集上分布利用训练好的模型进行预测
train_predict = clf.predict(x_train)
test_predict = clf.predict(x_test)
from sklearn import metrics
## 利用accuracy(准确度)【预测正确的样本数目占总预测样本数目的比例】评估模型效果
print('The accuracy of the Logistic Regression is:',metrics.accuracy_score(y_train,train_predict))
print('The accuracy of the Logistic Regression is:',metrics.accuracy_score(y_test,test_predict))
## 查看混淆矩阵 (预测值和真实值的各类情况统计矩阵)
confusion_matrix_result = metrics.confusion_matrix(test_predict,y_test)
print('The confusion matrix result:\n',confusion_matrix_result)
# 利用热力图对于结果进行可视化
plt.figure(figsize=(8, 6))
sns.heatmap(confusion_matrix_result, annot=True, cmap='Blues')
plt.xlabel('Predicted labels')
plt.ylabel('True labels')
plt.show()
复制代码
The accuracy of the Logistic Regression is: 0.8447425028470201
The accuracy of the Logistic Regression is: 0.722165991902834
The confusion matrix result:
[[714 300]
[249 713]]
复制代码
我们可以发现共有 718 + 707 个样本预测正确,306 + 245 个样本预测错误。
Step7: 利用 LightGBM 进行特征选择
LightGBM 的特征选择属于特征选择中的嵌入式方法,在 LightGBM 中可以用属性 feature_importances_去查看特征的重要度。
sns.barplot(y=data_features_part.columns, x=clf.feature_importances_)
复制代码
<matplotlib.axes._subplots.AxesSubplot at 0x7fcb1048e350>
复制代码
总经济差距等特征,助攻数量、击杀死亡数量等特征都具有很大的作用。插眼数、推塔数对模型的影响并不大。
初次之外,我们还可以使用 LightGBM 中的下列重要属性来评估特征的重要性。
gain:当利用特征做划分的时候的评价基尼指数
split:是以特征用到的次数来评价
from sklearn.metrics import accuracy_score
from lightgbm import plot_importance
def estimate(model,data):
#sns.barplot(data.columns,model.feature_importances_)
ax1=plot_importance(model,importance_type="gain")
ax1.set_title('gain')
ax2=plot_importance(model, importance_type="split")
ax2.set_title('split')
plt.show()
def classes(data,label,test):
model=LGBMClassifier()
model.fit(data,label)
ans=model.predict(test)
estimate(model, data)
return ans
ans=classes(x_train,y_train,x_test)
pre=accuracy_score(y_test, ans)
print('acc=',accuracy_score(y_test,ans))
复制代码
这些图同样可以帮助我们更好的了解其他重要特征。
Step8: 通过调整参数获得更好的效果
LightGBM 中包括但不限于下列对模型影响较大的参数:
learning_rate: 有时也叫作 eta,系统默认值为 0.3。每一步迭代的步长,很重要。太大了运行准确率不高,太小了运行速度慢。
num_leaves:系统默认为 32。这个参数控制每棵树中最大叶子节点数量。
feature_fraction:系统默认值为 1。我们一般设置成 0.8 左右。用来控制每棵随机采样的列数的占比(每一列是一个特征)。
max_depth: 系统默认值为 6,我们常用 3-10 之间的数字。这个值为树的最大深度。这个值是用来控制过拟合的。max_depth 越大,模型学习的更加具体。
调节模型参数的方法有贪心算法、网格调参、贝叶斯调参等。这里我们采用网格调参,它的基本思想是穷举搜索:在所有候选的参数选择中,通过循环遍历,尝试每一种可能性,表现最好的参数就是最终的结果
## 从sklearn库中导入网格调参函数
from sklearn.model_selection import GridSearchCV
## 定义参数取值范围
learning_rate = [0.1, 0.3, 0.6]
feature_fraction = [0.5, 0.8, 1]
num_leaves = [16, 32, 64]
max_depth = [-1,3,5,8]
parameters = { 'learning_rate': learning_rate,
'feature_fraction':feature_fraction,
'num_leaves': num_leaves,
'max_depth': max_depth}
model = LGBMClassifier(n_estimators = 50)
## 进行网格搜索
clf = GridSearchCV(model, parameters, cv=3, scoring='accuracy',verbose=3, n_jobs=-1)
clf = clf.fit(x_train, y_train)
复制代码
[CV 1/3] END feature_fraction=1, learning_rate=0.6, max_depth=8, num_leaves=64;, score=0.672 total time= 0.1s
[CV 3/3] END feature_fraction=1, learning_rate=0.6, max_depth=8, num_leaves=64;, score=0.685 total time= 0.1s
[LightGBM] [Warning] feature_fraction is set=1, colsample_bytree=1.0 will be ignored. Current value: feature_fraction=1
复制代码
## 网格搜索后的最好参数为
clf.best_params_
复制代码
{'feature_fraction': 1, 'learning_rate': 0.1, 'max_depth': 3, 'num_leaves': 16}
复制代码
## 在训练集和测试集上分布利用最好的模型参数进行预测
## 定义带参数的 LightGBM模型
clf = LGBMClassifier(feature_fraction = 0.8,
learning_rate = 0.1,
max_depth= 3,
num_leaves = 16)
# 在训练集上训练LightGBM模型
clf.fit(x_train, y_train)
train_predict = clf.predict(x_train)
test_predict = clf.predict(x_test)
## 利用accuracy(准确度)【预测正确的样本数目占总预测样本数目的比例】评估模型效果
print('The accuracy of the Logistic Regression is:',metrics.accuracy_score(y_train,train_predict))
print('The accuracy of the Logistic Regression is:',metrics.accuracy_score(y_test,test_predict))
## 查看混淆矩阵 (预测值和真实值的各类情况统计矩阵)
confusion_matrix_result = metrics.confusion_matrix(test_predict,y_test)
print('The confusion matrix result:\n',confusion_matrix_result)
# 利用热力图对于结果进行可视化
plt.figure(figsize=(8, 6))
sns.heatmap(confusion_matrix_result, annot=True, cmap='Blues')
plt.xlabel('Predicted labels')
plt.ylabel('True labels')
plt.show()
复制代码
The accuracy of the Logistic Regression is: 0.7440212577502214
The accuracy of the Logistic Regression is: 0.7317813765182186
The confusion matrix result:
[[722 289]
[241 724]]
复制代码
原本有 306 + 245 个错误,现在有 287 + 230 个错误,带来了明显的正确率提升。
3.1 基本参数调整
num_leaves 参数 这是控制树模型复杂度的主要参数,一般的我们会使 num_leaves 小于(2 的 max_depth 次方),以防止过拟合。由于 LightGBM 是 leaf-wise 建树与 XGBoost 的 depth-wise 建树方法不同,num_leaves 比 depth 有更大的作用。、
min_data_in_leaf 这是处理过拟合问题中一个非常重要的参数. 它的值取决于训练数据的样本个树和 num_leaves 参数. 将其设置的较大可以避免生成一个过深的树, 但有可能导致欠拟合. 实际应用中, 对于大数据集, 设置其为几百或几千就足够了.
max_depth 树的深度,depth 的概念在 leaf-wise 树中并没有多大作用, 因为并不存在一个从 leaves 到 depth 的合理映射。
3.2 针对训练速度的参数调整
通过设置 bagging_fraction 和 bagging_freq 参数来使用 bagging 方法。
通过设置 feature_fraction 参数来使用特征的子抽样。
选择较小的 max_bin 参数。
使用 save_binary 在未来的学习过程对数据加载进行加速。
3.3 针对准确率的参数调整
使用较大的 max_bin (学习速度可能变慢)
使用较小的 learning_rate 和较大的 num_iterations
使用较大的 num_leaves (可能导致过拟合)
使用更大的训练数据
尝试 dart 模式
3.4 针对过拟合的参数调整
使用较小的 max_bin
使用较小的 num_leaves
使用 min_data_in_leaf 和 min_sum_hessian_in_leaf
通过设置 bagging_fraction 和 bagging_freq 来使用 bagging
通过设置 feature_fraction 来使用特征子抽样
使用更大的训练数据
使用 lambda_l1, lambda_l2 和 min_gain_to_split 来使用正则
尝试 max_depth 来避免生成过深的树
4.总结
LightGBM 的主要优点:
简单易用。提供了主流的 Python\C++\R 语言接口,用户可以轻松使用 LightGBM 建模并获得相当不错的效果。
高效可扩展。在处理大规模数据集时高效迅速、高准确度,对内存等硬件资源要求不高。
鲁棒性强。相较于深度学习模型不需要精细调参便能取得近似的效果。
LightGBM 直接支持缺失值与类别特征,无需对数据额外进行特殊处理
LightGBM 的主要缺点:
相对于深度学习模型无法对时空位置建模,不能很好地捕获图像、语音、文本等高维数据。
在拥有海量训练数据,并能找到合适的深度学习模型时,深度学习的精度可以遥遥领先 LightGBM。
本项目链接:https://www.heywhale.com/home/column/64141d6b1c8c8b518ba97dcc
参考链接:https://tianchi.aliyun.com/course/278/3424
本人最近打算整合 ML、DRL、NLP 等相关领域的体系化项目课程,方便入门同学快速掌握相关知识。声明:部分项目为网络经典项目方便大家快速学习,后续会不断增添实战环节(比赛、论文、现实应用等)。
对于机器学习这块规划为:基础入门机器学习算法--->简单项目实战--->数据建模比赛----->相关现实中应用场景问题解决。一条路线帮助大家学习,快速实战。
对于深度强化学习这块规划为:基础单智能算法教学(gym 环境为主)---->主流多智能算法教学(gym 环境为主)---->单智能多智能题实战(论文复现偏业务如:无人机优化调度、电力资源调度等项目应用)
自然语言处理相关规划:除了单点算法技术外,主要围绕知识图谱构建进行:信息抽取相关技术(含智能标注)--->知识融合---->知识推理---->图谱应用
上述对于你掌握后的期许:
对于 ML,希望你后续可以乱杀数学建模相关比赛(参加就获奖保底,top 还是难的需要钻研)
可以实际解决现实中一些优化调度问题,而非停留在 gym 环境下的一些游戏 demo 玩玩。(更深层次可能需要自己钻研了,难度还是很大的)
掌握可知识图谱全流程构建其中各个重要环节算法,包含图数据库相关知识。
这三块领域耦合情况比较大,后续会通过比如:搜索推荐系统整个项目进行耦合,各项算法都会耦合在其中。举例:知识图谱就会用到(图算法、NLP、ML 相关算法),搜索推荐系统(除了该领域召回粗排精排重排混排等算法外,还有强化学习、知识图谱等耦合在其中)。饼画的有点大,后面慢慢实现。
评论