写点什么

莫把暑假插错秧,代码哪有足球香,Alluxio 足球青训营在线摇人!

作者:Alluxio
  • 2022 年 6 月 15 日
  • 本文字数:2438 字

    阅读完需:约 8 分钟

莫把暑假插错秧,代码哪有足球香,Alluxio足球青训营在线摇人!

足球开源编程夏令营,开始组队啦!

首先出场的是两位队长第一位队长是来自 南京大学的顾荣(影子前锋—12 年) 第二位是来自 微软亚洲研究院的张虔熙(后腰—20 年)

正所谓,“没有什么 Bug 是一场球赛解决不了的”,如果有,那就来一场夏令营

‍👉活动介绍

GitLink 编程夏令营(GLCC),是在 CCF 中国计算机学会指导下,由 CCF 开源发展委员会(CCF ODC)举办的面向全国高校学生的暑期编程活动。

活动覆盖近千所高校,并联合各大开源基金会、开源企业、开源社区、开源专家,旨在鼓励青年学生通过参加真实的开源软件开发,提升自身技术能力,为开源社区输送优秀人才。为青年学生提供开放友好的交流平台,希望进一步推动国内开源社区的繁荣发展。

‍👉高校学生参与能够获得

1. 参与一线开源项目贡献直接接触开源项目开发,熟悉开源社区运作流程,提高代码水平;远程参与,可自由安排时间。

2.结识技术大咖,获得开源软件专家指导结识更多伙伴和技术大咖,每位学生配备一名开源项目导师,享受资深开源专家指导。

3. 丰厚奖金与周边 &实习机会 &官方证书入选同学完成开源任务后获得丰厚奖金和结项证书,GLCC 也会评选出优秀学生,同时有机会进入企业实习。

‍👉活动介绍

Alluxio 系统是全球首个分布式超大规模数据编排系统,孵化于加州大学伯克利分校 AMP 实验室。自项目开源以来,已有超过来自 300 多个组织机构的 1200 多位贡献者参与开发,包括全球最头部科技公司、最顶尖的计算机科研院所等,现已成为发展最快的开源大数据项目之一。

目前,全球十大互联网公司中已有包括 Meta(原“Facebook 公司”)、Airbnb、Uber、阿里巴巴、腾讯和字节跳动在内的八家企业部署了 Alluxio,还有更多大型企业在生产中运行 Alluxio。

【点击下方,深入了解 Alluxio】

社区GitHub

Slack

Alluxio网站

‍👉项目介绍

项目一

基于近似数据结构的分布式缓存数据工作集大小在线预估

(导师介绍)

邮箱地址

gurong@nju.edu.cn

申请课题

点击申请

课题简介

一. 【题目描述】

使用缓存来降低分布式查询系统的查询时延越来越常见,为了提高缓存利用率,一个关键的因素是要调整缓存容量,使得缓存能够存下目前应用的工作集。所谓工作集就是应用访问的所有对象的集合。然而,一个合理的工作集大小估计算法不仅要考虑时间上的动态性、统计结果的准确性,还需要综合考虑对 CPU、内存等资源的使用量,以及同时支持多域工作集大小估计的扩展性。

我们将需要解决的关键问题罗列如下:

(1)实时性:能够快速响应用户的工作集大小查询请求。

(2)动态性:给出的结果要随着最近一段时间内的工作集大小的变化而变化。

(3)空间高效性:能以较小的空间开销跟踪海量的工作集。

(4)准确性:给出的结果要能有精度的保证。

(5)可扩展性:该算法结构能够被扩展到跟踪多域,并分别给出每个域的工作集大小。

二. 【编码任务】

为了解决这个问题,我们正在基于 Alluxio 推进一个名为 ShadowCache 的基本功能实现,该实现基于一个近似的数据结构来估计工作集大小,但由于 Alluxio 的版本重大更新,ShadowCache 暂时被合并了。

接下来我们的主要工作是需要在解决上面所提及问题的同时优化以下三点:

(1)空间开销:目前对于每个数据流对象的编码方式较为原始,可以考虑加入一些新型的编码方式来节省空间开销。

(2)时间开销:设计并实现基于优化位操作的 ShadowCache 数据流对象更新,从而降低操作的时间开销。

(3)兼容性和其他优化:考虑 Alluxio 版本升级的兼容性与其他统计数据存储和访问的优化方案。

可以从以上几点中选择任意几点编写代码实现。

三. 【技能要求和编程语言】

✓ 了解 Alluxio;✓ 熟悉缓存机制;✓ 熟悉滑动窗口机制;✓ 熟悉布隆过滤器、布谷鸟过滤器等数据结构;✓ 编程语言:Java

四. 【预期完成结果】

能够以较小的空间开销,实时灵活的地告知用户或上层应用最近时间内的 Alluxio 数据访问的工作集大小。

项目二

AI 训练场景下数据缓存优化

(导师介绍)


邮箱地址

Qianxi.Zhang@microsoft.com

申请课题

点击申请

课题简介

一. 【题目描述】

随着 GPU 等计算加速器的快速发展,数据存储层逐渐成为潜在的性能瓶颈。很多时候我们喜欢把数据放在如 S3、Azure Storage、阿里云对象存储 OSS 等云存储服务中,但如果直接读取云存储上的数据来进行 AI 训练,性能很多时候并不理想。数据缓存是优化数据服务的重要手段,尤其是在存储与计算的平台环境中。

在面向多用户的 AI 训练场景中,有一些问题需要解决:

(1) 什么样的缓存淘汰算法可以提高缓存利用率?因为缓存容量是有限的,当缓存空间被占满后再有新的数据需要被缓存,就要决定删除原来的哪些数据,常见的淘汰算法如 FIFO、LRU、LFU 是否仍然适合 AI 训练的场景?

(2) 如何管理分布式缓存副本?缓存副本不但可以提升缓存数据的可用性,并且可以缓解数据热点,那么多少个数据副本是最优的?

(3) 如何分配数据的缓存容量,从而提升计算性能和缓存利用率?在多任务场景中,给每一个任务分配多少缓存容量可以使得全局训练效率最高?

(4) 如何支持数据共享和重用?在 AI 训练场景中,很多场景的数据集会被很多任务反复地读取,数据的共享和重用可以减少数据被换入换出的代价。

二.【编码任务】

上述问题中可以选择一个或者多个并基于 Alluxio 进行编码实现解决。

三.【技能要求和编程语言】

✓ 了解缓存机制

✓ 了解 AI 训练中数据访问模式

✓ 编程语言不限

四.【预期完成结果】

可以提升缓存利用率,优化 AI 训练性能。

‍👉 参与流程

1. 申请资格

只要年满 18 岁的在读学生均可参加,参加学生需要在报名时提供证明,包含但不限于:

  • 在校学生证,有效期内

  • 在校学生卡,有效期内

  • 录取通知书,且申请时间在毕业之前

  • 在读证明,且申请时间在毕业之前

  • 其他证明,且当前申请时间在毕业之前

2. 项目时间表

3. 参与建议

✓ 仔细阅读学生指南:【点击阅读】

✓ 认真了解社区:仔细阅读社区的文档、设计、源码,认真熟悉社区的参与方式。

✓ 多与导师沟通:对开源项目有一个全面的认识;主动联系导师,和导师充分沟通;细化方案,提升可行性。

✓ 为了方便学生与 Alluxio 社区项目导师及时交流,添加 Alluxio 小助手微信,备注“夏令营”进入【Alluxio GLCC 编程夏令营】微信群


用户头像

Alluxio

关注

还未添加个人签名 2022.01.04 加入

Alluxio是全球首个面向基于云原生数据分析和人工智能的开源的资料编排技术!能够在跨集群、跨区域、跨国家的任何云中将数据更紧密地编排接近数据分析和AI/ML应用程序,从而向上层应用提供内存速度的数据访问。

评论

发布
暂无评论
莫把暑假插错秧,代码哪有足球香,Alluxio足球青训营在线摇人!_微软_Alluxio_InfoQ写作社区