先进工具,助力数据科学工作者快速调优丨和鲸科技 × Weights & Biases
12 月 14 日,和鲸科技与数据科学平台厂商 Weights & Biases 联合举办的目标识别类 Workshop 公益活动正式告一段落,这也标志着两家数据科学领域的杰出企业即将开启新的合作征程。
和鲸科技 × Weights & Biases
携手助力数据科学工作者,应用先进工具提升模型调优效率
人工智能、机器学习技术的发展与成熟,催生了国内外各类工具呈爆发式增长,其中不乏许多优秀的生产力工具脱颖而出。本次与和鲸合作的 Weights & Biases(下简称“W&B”),就是美国先进机器学习开发工具独角兽公司。
W&B 针对机器学习从业者工作流程所创建的模型训练监督工具,已在美国市场受到广泛好评,成为了即将替代并超越 TensorBoard 的存在。而通过近两年用户观察,他们发现现有用户群体中,竟有相当可观比例的部分来自中国,惊喜与好奇促使 W&B 萌生了想进一步检验其工具适用性,探索能否为更多中国数据科学家提供支持的想法。对此,和鲸作为国内少有兼备数据科学生态的平台开发商,自然成为首选合作伙伴。
和鲸旗下数据科学协同平台 ModelWhale 基于 ModelOps 框架,可实现云端一站式模型全生命周期管理,与 W&B 工具有着极高适配度。 ModelWhale 打通了从数据集处理到模型生产、应用、管理、迭代的全流程链路,能帮助 W&B 更全面地展现其工具价值;而 W&B 在可视化记录、评估模型实时性能指标等方面所做的延展,也能为模型生产、模型迭代提供更多参考和支持。
除了工具能力外,和鲸社区作为中国最大的数据科学人才社区,40w+用户背景的多样性为 W&B 进行用户观察提供了最佳样本池。社区内训练营、Workshop、数据竞赛等多种类型实践活动,配合丰富的开源项目案例和数据集资源,早已成为用户实操练习、能力提升的重要渠道,借助活动也能更自然地将 W&B 工具介绍给用户了解、使用。
另外,和鲸还具备数据竞赛服务专业项目团队,即和鲸科赛。统筹 400+ 数据竞赛所积累下的运营能力,不仅能支持活动从 0 到 1 搭建,更包括对数据科学赛题/教案作质量把控、全过程跟进及活动成效保障,真正帮助双方合作的开展从概念走向落地。
在和鲸的数据科学生态下,双方决定以举办 Workshop 的形式进行首次合作,一方面能切实帮助机器学习领域的研究者与爱好者学习如何借助两款实用工具实现模型快速调优,另一方面,W&B 也能更直观地观察到中国数据科学家的建模习惯及对其工具的接受度。
目标识别 Workshop
和鲸提供工具应用、社区资源、活动运营三重保障
为了最大化凸显 W&B 工具的价值,和鲸运营团队在综合工具能力、数据科学前沿方向、用户学习体验、活动预估成效四个维度后,决定以目标识别作为本次 Workshop 的主题,并结合当前疫情形势,创作了“口罩面部识别”的教案,详细展现 W&B 在训练代码中的基本使用,以及如何借助 W&B 对训练过程进行可视化分析。
ModelWhale 作为即开即用的在线数据分析建模平台,为本次 Workshop 提供数据分析建模基础设施及算力支持。云端环境下,学员可以一键获取教案及数据并同步镜像环境,后续只需根据教程简单修改参数就能在线运行案例体验模型训练,训练完成后再至 W&B 界面查看训练记录的可视化结果即可。
当然,学习案例只是抛砖引玉,学员还需自行挑选选题训练并创建报告。在教案的基础上,使用 ModelWhale 云端 Jupyter Notebook 交互式编程 ,学员可以很方便地修改模型代码;同时,ModelWhale 也已与和鲸社区全面打通,则学员可以直接选择社区内感兴趣的数据集当作练习素材,类似“行人重识别”、“手写识别”、“天气识别”等图像数据都是十分符合主题的优质数据集。
考虑到大多数学员都是利用碎片时间参与活动,则每一次代码的修改都可以通过版本管理进行记录;而对于需要长时间训练的模型,则可以使用离线训练来跑,这样不会影响到电脑的正常使用,方便同时开展其他工作。训练完成后,W&B 会反映出模型训练过程中的各项数值,识别模型预测的不佳和偏差,并自动搜索最优化的模型参数,协助学员模型调优。借助 W&B 工具所提供的信息,学员就可以返回 ModelWhale ,选择进一步修改模型或直接将其部署应用。
除了工具支持外,和鲸科赛的运营团队也设计了多种运营手段保障学员体验和活动成效。由于 W&B 位于国外,国内访问有时可能会不太顺畅,技术人员特地提前将其进行了私有化部署来保障活动期间的流畅使用。而在活动宣传与 W&B 工具推广层面,运营团队更是前、中、后期三个阶段分别着力。
前期除了通过社区活动页推送给社区用户获得自然流量外,更在多个长期运营的数据科学社群内号召大家报名;中期为了提高学员积极性,特地开设线上会议邀请 W&B 的战略发展总监 Rebecca ,从创造者视角为大家介绍 W&B 工具的使用,这也同时让来自全国各地的学员和 W&B 这家来自海外的优秀公司进一步相互了解;活动期间,运营人员在工单和社群两个渠道全天在线答疑,所有问题都在 2 小时内得到了有效解决;最后,活动收尾前,运营团队发布了调查问卷收集学员对活动的整体反馈,并挑选其中部分 1 对 1 沟通了解。
W&B 工具介绍在线会议
学员视角下的 Workshop
从初学者到资深数据科学家的“兼容并包”
本次活动共有近百名来自全国各地的数据科学分析建模研究者与爱好者报名参与,背景横跨双一流高校学生、国家重点研究所的研究员及企业的工程师、数据科学家等。尽管大家能力上存在参差,但都各有收获 —— 初学者可以通过此次 Workshop 学习如何理解模型,并借助工具做判断;而本身能力较强的学员则可以直接使用工具提高模型调优的效率;活动结束后主办方评选出了多份优秀作品。
第一份作品来自中国科学院计算技术研究所的工程师“致 Great”,他也是和鲸社区的知名创作者。“致 Great”可以说是和鲸实实在在的老朋友,双方的结缘可以追溯到 2017 年的一场数据竞赛,那时候的和鲸还不叫和鲸,叫“Kesci”。
“之前在社区里我主要都是以比赛为向导,真正开始创作应该是从去年开始的。本来只是把写在博客里的东西搬运到社区,后来发现社区确实方便我更体系化地去做一些沉淀,比如开设专栏什么的,也就慢慢养成了习惯。粉丝多可能是因为社区的人越来越多了吧,跟和鲸一起成长,还挺荣幸的。”
“致 Great”本身的研究领域是自然语言处理,主要负责信息抽取与知识构建。谈及本次 Workshop ,他表示很惊喜能认识到 W&B 这款工具。“虽然主题是目标识别,但 W&B 作为一款能直观记录模型训练的工具,只要熟练搭配代码使用,对于图像分割、自然语言处理等都能有很大帮助。”
把数据科学领域先进的理念和做法分享给用户,正是和鲸的初衷。
“致 Great”作品:《基于 VGG 进行天气识别》
来自华东师范大学气象学专业研二的学生“lqy”,也是和鲸社区气象数据科学频道的版主,他的作品报告长达 11 页,被评为了唯一的杰出作品。还记得今年 3 月和鲸《对话数智》栏目采访“lqy”时,他惊叹于自己竟在社区收获了 3600+粉丝,而现在这个数字已经翻了两倍还不止。平均每个月创作 2-3 个项目,勤勤恳恳参与每场 Workshop 和训练营,以学习、实践为目的参加数据竞赛,我们相信人生和时间对于勤奋者的馈赠一定会甚于数字的衡量。
对于此次活动,“lqy”表示 W&B 与 ModelWhale 衔接的整个流程特别丝滑,简单照着教程做就能上手。另外对于 W&B 工具他也是赞不绝口:“交互式的可视化非常友好,调参实验时能很方便地进行不同参数之间的比较,对提高模型精度有很大帮助,很实用!”
“lqy”作品:《航空影像目标识别》
除了像前两位这样的“社区大 v”外,还有很多平时比较低调的用户也在这次活动中崭露了头角,比如从事供应链行业的“xoahui”。去年才刚加入和鲸社区的她却是一个活动先锋,几乎每场 Workshop 和训练营都会报名参与。“现在竞争越来越激烈,我就想提升自己的数据分析能力,正好社区的活动都很实用,难度上也很合适,所以有空就会参加。” “xoahui”还表示,这也不是她第一次知道 W&B 这个工具,只是之前一直没有动力去尝试,但经过这次 Workshop,自己应该会成为 W&B 的忠实用户。
“xoahui”作品:《基于天气识别的 Weights & Biases 实例》
回收调查问卷,无论是初学者还是资深数据科学家,大家对于活动的满意度都很高,对于 W&B 工具的反馈都很正向,相信 W&B 也已经从本次活动中获得了他们想要的答案。
多维联结,价值共创
在数字化洪流中与和鲸携手,实现共同增长
数字化将会给时代带来一场根本性变革。在数字化的路上探索,尽管路的终点尚不知通往何处,但现在已经走在路上的数字化服务商、数字化平台开发商、数字化转型企业、数字化研究机构,都是第一批勇敢的开拓者、先行者。
和鲸叠加工具能力、社区资源、赛事运营,已在数据智能产业链上占据了关键生态位。漫漫数字化之路,和鲸秉持开放协作的态度,携手更多开发者及合作伙伴,以更丰富的形式、更深层次的合作,激活、释放数据和人的巨大潜能。数字化产业的价值已突显,未来会走向何方,我们共同探索,拭目以待。
版权声明: 本文为 InfoQ 作者【ModelWhale】的原创文章。
原文链接:【http://xie.infoq.cn/article/2b99b307fa3eebc57ecc5463e】。未经作者许可,禁止转载。
评论