写点什么

Kaggle

0 人感兴趣 · 3 次引用

  • 最新
  • 推荐
https://static001.geekbang.org/infoq/f9/f9f23f34472fbb9fc53a226cf9e66348.png?x-oss-process=image%2Fresize%2Cw_416%2Ch_234

竞赛:糖尿病遗传风险检测挑战赛(科大讯飞)

用户头像
Lingxw
2022-08-02

​训练集一共有5070条数据,用于构建预测模型(先进行数据分析)。数据的字段有编号、性别、出生年份、体重指数、糖尿病家族史、舒张压等,通过特征工程技术构建新的特征。来完成的二分类任务,包括逻辑回归,lightgbm来完成训练。

https://static001.geekbang.org/infoq/fd/fdbce1d64128b8a07d509236c1ff9dd7.png?x-oss-process=image%2Fresize%2Cw_416%2Ch_234

什么是数据泄露

用户头像
AIWeker
2022-07-07

这里和大家说一个概念:data leakage(数据泄露)。这里数据泄露并不指的是隐私数据的泄露,而是特指机器学习中数据(训练数据和验证数据)存在异常情况。

Kaggle_Kaggle技术文章_InfoQ写作社区