写点什么

满满干货,选手必读!4C 大赛大数据主题赛国赛一等奖选手参赛经验分享完整实录已整理!

作者:ModelWhale
  • 2025-03-17
    上海
  • 本文字数:3933 字

    阅读完需:约 13 分钟

满满干货,选手必读!4C大赛大数据主题赛国赛一等奖选手参赛经验分享完整实录已整理!

导读

上周五,中国大学生计算机设计大赛大数据主题赛 “数据解读科技创新与社会变革” 赛道举办了第二场赛事培训。来自郑州大学经济学专业的张嘉琦同学,作为上届 4C 大赛大数据主题赛国赛一等奖的获得者,为大家带来了一场内容全面、满满 “干货” 的经验分享。


培训结束后,众多老师和同学纷纷反馈收获颇丰。为了便于大家吸收学习,我们精心整理了张同学的分享实录。


大家也可以点击此处前往和鲸社区内的大赛主页观看培训回放。


此外,多届国赛获奖作品指导老师——北京信息科技大学计算机学院副教授李莉老师的精彩分享,我们也正在紧锣密鼓地整理实录中,敬请期待!


分享嘉宾

张嘉琦

张嘉琦,郑州大学经济学大三在读,曾获计算机设计大赛国家一等奖,蓝桥杯 Python 组国家三等奖,互联网+省级三等奖,和鲸社区机器学习频道版主, 项目累计浏览量 2w+ 。


以下是实录整理内容



★ 目录 ★

赛道定位

项目开发与技术实现

  如何确定选题

  如何确定创新点

  代码实现与技术工具

  代码全流程

数据分析与可视化报告

  图表设计

  报告撰写

作品与答辩技巧

  注意比赛流程与事项

  作品提交

  答辩准备

总结与建议




赛道定位

张同学首先明确了大数据主题赛的定位。


本赛道聚焦于宏观层面的数据解读,强调用数据揭示社会现象与政策影响,而非解决具体技术问题。相较于人工智能、软件开发等赛道,大数据主题赛对非技术背景选手更为友好,但需要注意选题与赛道核心方向的契合度。不要陷入过于微观的技术问题,而是要从数据解读的角度出发,张同学多次强调,这是本赛道的不同之处。


项目开发与技术实现

“提出正确的问题比回答它更困难。”


01 如何确定选题


选题应遵循“简洁化、直观化”原则,避免“假大空”。题目的结构可以是“主旨+研究内容”。


张同学以其去年团队获奖作品“绿色田野之歌——数据解读乡村振兴背景下中国农业高质量发展”为例,表示研究内容需要脚踏实地,能够让评委一眼看出所研究的细分领域是什么。他建议可以从大赛主题的宏观框架中切入到具体子领域,例如从“乡村振兴”细化到“农业的高质量发展”。


在参赛过程中,选手不必急于确定选题,可以根据作品的内容不断调整和优化。同时,大家也可以通过研究范围、技术方法使用或展示结果的创新来突出作品亮点。



02 如何确定创新点


  1. 研究范围创新:如上文所述,将宏观的赛道主题拆解为具体子领域,谋求创新点,如:将“乡村振兴”聚焦于“农业科技创新投资主体变化”;


  2. 技术方法创新:选择适合宏观分析的模型。张同学以去年入围国赛的一个作品题目“基于熵值-RSR 模型的乡村公共服务评价及发展策略分析”为例,表示此作品能让人一眼就能看出其创新点在于模型,但与此同时,它研究对象也是较为宏观的;


  3. 展示结果创新:不局限于形式,目的是为了能让评委有“眼前一亮”的感觉。在去年的赛事中,张同学团队搭建了实时动态的数据大屏(见下图)用以展示多维度分析结果,增强作品可视化效果。在结果方面同时需要注意的是,从数据中获取的结论也需要符合逻辑且具有创新性,避免一通分析后得出了类似于“人均收入越高,购买力越强”这样的常识性结论。



03 代码实现与技术工具


针对非技术背景选手,张同学表示完成作品需要基本掌握的包括 Python 的基础语法、Jupyter Notebook 的使用技巧,以及 Pandas 、 Scikit-learn 等核心库的应用。


  • Python 基础:掌握基础语法(如条件语句、循环)和常用数据结构(列表、字典)即可满足需求;

  • Jupyter Notebook:熟悉单元格操作、Markdown 语法等,提升代码可读性;

  • 常用库:Pandas 用于数据清洗与处理,Scikit-learn 用于模型训练,Matplotlib/Seaborn/Pyecharts 可用于可视化。


他强调,一定要确保代码能够在和鲸平台上完整复现并跑通,参赛选手可以提前熟悉平台的镜像选择、计算资源分配等操作。



04 代码全流程


  1. 数据工程:数据可能是选手在初期最难以解决的问题。赛事官方、和鲸平台会提供部分数据集,这些数据也相对比较好处理,但不一定足够用于分析。张同学建议,选手们可以从统计年鉴、政府公开数据、学术论文等其他权威渠道进一步获取,但是需要注意数据的时效性。在数据整合与处理阶段,Python 的 Pandas 库可高效完成多表关联、缺失值处理等任务。


  2. 描述性统计与可视化分析:数据分析层面,张同学建议先进行描述性统计,如计算均值、方差、相关性等指标,再通过可视化工具(如柱状图、折线图)呈现数据趋势。他特别指出,这部分工作虽看似基础,但在实际比赛中占比超过 50%,需要特别注意细节(在后文将着重展开)


  3. 数学建模:要根据问题类型选择合适的算法。监督学习适用于有明确标签的预测任务(如回归分析人均收入与 GDP 的关系),而无监督学习则用于探索数据内在结构(如聚类分析区域经济特征)。此外,若数据特征过多,可先通过降维技术减少维度,再进行建模。因为数据建模可使用的方法很多,这也可以作为体现作品创新性的一个切入点。



数据分析与可视化报告

“好的数据分析,就是用数据讲述一个生动的故事。”


01 如何讲述得生动


1.图表美观丰富

制作的图表应该“美观、丰富且信息量大”,但注意图表的作用是“辅助”,用于进一步突出、强调观点,因此背后的数据信息要充分,且要能让人一眼看出来它想要表达的是什么。


2.文字逻辑清晰

报告的逻辑需清晰,张同学建议大家把报告当成一篇论文去写。撰写可以采用“数据-信息-分析-结论”的结构,在将图表的信息转换成文字后,还需要对图表所传递的信息进行具体分析,最后得出一个有创新性的结论。

需注意的是清晰的文字报告只是锦上添花,而不是雪中送炭。即使文字逻辑再精妙、修辞再华丽,如果内容本身还是比较空、比较匮乏的话,也是没有说服力的。


3.用好 Word

除了基础的排版清晰外,参赛选手也需要了解数学公式、三线表在 word 中的操作技巧。最后提交时将报告转为 pdf 格式。



02 如何画图


1. 图表类型


画图时要注意不同图表类型的搭配,包括基础的柱状图、折线图、扇形环形图等,可以利用双 Y 轴等技巧提升信息丰富度。

选手也可以掌握一些进阶的图表类型,如雷达图用以数据对比、提琴图用以模型误差测算等;需要特别注意的是,在使用地图的时候,一定要需要注意版图的完整性。


2.画图工具


平台上所有的代码只能用 python 或者 R 语言来写,所以最好是以 python 作为画图主力,尽量保证 80% 以上的图都是用 python 来画。

  • matplotlib.pyplot (PLT):适合严谨、清晰的建模部分,学术领域采用偏多;

  • seaborn (SNS) 和 Pyecharts:适合描述性统计,数据分析部分;色彩丰富、视觉效果突出,容易吸引评委注意力。


张同学也推荐一些画图的辅助工具:


  • Matlab:可以直接在 UI 界面编辑标题、轴标签等细节,便于更换风格;相较于 Python 需要修改代码,Matlab 会更易于操作;

  • ECharts(或 Plotly):前端可视化工具,可以丰富数据图,避免图表过于单调。

  • 一些与数据无关的作图也可以使用 PPT,比如说流程图,框架图等。

张同学也建议组建团队时可以考虑加入擅长美工的队员以提升作品的整体美观度。



作品与答辩技巧


01 注意比赛流程与事项


通过学校报名后,选手会经历校赛(视学校而定)——省赛——国赛。

  • 省赛开始时,参赛作品就不能再修改了;

  • 但省赛结束后,若作品上推国赛,选手还可以有 1~2 周的时间做最后的修改。

比赛一定要通过学校报名,报名之后在和鲸社区生成作品链接,并提交至大赛官方报名系统。


无论是省赛和国赛,选手都不能自带 U 盘拷贝,所以参赛选手要注意将作品及时存入网盘。除了作品链接,作品简介、创新点、指导老师评语等都需要留意备份。


总体而言,参赛选手需要注意作品提交的三大平台:和鲸社区(用来生成代码和作品的展示链接)、大赛官方报名系统(作品所有内容都需要提交至此)和大赛官网(主要关注比赛的时间和地点,以及一些官方性的文件,因为比赛下设多条赛道,每个赛道的时间节点也不一样)。



02 作品注意事项


一定要确保代码能够在和鲸平台上完整复现并跑通,代码能在本地跑通不等于在和鲸社区上跑通,因为本地电脑和和鲸社区远端服务器的运行系统不同,因此要确保代码能够在和鲸社区平台上复现。


和鲸平台的作品链接是最后评审看到的成果,如果存在模型随机性(比如深度学习)运行代码无法复现等情况,一定要注明原因,可以在代码中注释一下。


最后需要注意的是上传作品至百度网盘时需要参照官网要求操作,按照官方要求命名文件夹和文件,确保结构清晰。



答辩准备

答辩环节至关重要,需要注意以下几点:


  1. PPT 设计:尽量控制在 20 页左右,突出核心内容,避免堆砌文字。使用高质量图片和图表,提升视觉效果。


  2. 时间管理:严格把控展示的时间,每个作品有 20 分钟展示时间(国赛 10 分钟展示+10 分钟问答,省赛视具体省份而定),可以提前多次彩排,保证不提前太久结束/超时。


  3. 表达技巧:脱稿演讲,自信大方,避免照本宣科。如果遇到评委提问到没有涉及的部分,需要灵活应对,避免直接回答“不会”,可以将话题引至已掌握的领域。


  4. 礼仪规范:尊重评委,避免争论,对评委建议表示感谢并承诺改进。


总结与建议

非技术背景选手的核心优势在于跨学科视角,可以发挥经济学、社会学等领域的知识,结合数据解读能力,讲好“数据故事”。建议团队成员分工明确,包括技术实现、数据分析、报告撰写和答辩展示等角色。希望参赛者能积极备赛,利用大赛平台提升自身能力,为未来发展积累宝贵经验。




和鲸始终贯彻大赛“以赛促学、以赛促教、以赛促创”的精神与理念,为参赛师生提供多层面、多角度、全方位的工作支持。


对于和鲸平台的环境配置与操作等有疑问,可以在大赛主页查看和鲸平台用户手册。


赛道系列培训回放,您可点击此处进入赛道主页观看。



希望同学们能够充分利用这些信息,在比赛中发挥出自己的最佳水平,用数据驱动创新,在大赛中取得优异成绩。衷心期待本届中国大学生计算机设计大赛能够涌现出更多的优秀作品。


赛事相关咨询、答疑需求您也可以点击此处了解详情。


用户头像

ModelWhale

关注

个人数据分析工具,组织数据科学协同平台 2022-07-29 加入

ModelWhale 将数据管理、建模分析、模型训练管理、算力资源管理等功能深度整合,通过逐级开放的数据基础设施、 Jupyter Notebook 和 Canvas 两种分析界面、即开即用的云端分析环境,使数据驱动的研究更便捷高效。

评论

发布
暂无评论
满满干货,选手必读!4C大赛大数据主题赛国赛一等奖选手参赛经验分享完整实录已整理!_人工智能_ModelWhale_InfoQ写作社区