OpenAI 将 k8s 扩展至 7500 个节点以支持机器学习;Graph Diffusion Network 提升交通流量预测精度
开发者社区技术周刊又和大家见面了,快来看看这周有哪些值得我们开发者关注的重要新闻吧。
Google 研究院推出处理文本图像新框架 TReCS
OpenAI 将 k8s 扩展至 7500 个节点以支持机器学习
Apache ECharts 5 正式发布
WebRTC 成为 W3C 与 IETF 正式标准
国内首个自主可控区块链技术体系“长安链”发布
京东开源 PyTorch 人脸识别工具包 FaceX-Zoo
AAAI 2021 丨 Graph Diffusion Network 提升交通流量预测精度
AAAI 2021 丨利用标签之间的混淆关系,提升文本分类效果
行 业 要 闻
1.Google 研究院推出处理文本图像新框架 TReCS
为创建一种能够在任何语言之间进行翻译的通用神经机器翻译系统,Google 研究人员研发了一种新框架,即 TReCS(Tag-Retrieve-Compose Synthesize system)。通过改进图像元素的唤起方式以及迹线如何通知其位置,从而显着增强图像生成过程。该系统接受了超过 250 亿个示例的培训,具有处理 103 种语言的潜力。其功能使鼠标轨迹与文本描述对齐,并为提供的短语创建可视标签。该框架利用可控的鼠标轨迹作为细粒度的视觉基础,根据用户的叙述生成高质量图像。标记器被用来预测短语中每个单词的对象标签。
2.OpenAI 将 k8s 扩展至 7500 个节点以支持机器学习
为了满足 GPT-3、CLIP 和 DALL+等大型模型的需要,以及类似于神经语言模型的缩放定律的快速小规模迭代研究,OpenAI 将基础设施 k8s 集群扩展到 7500 各节点。据其描述,对于大型机器学习作业来说,一个节点通常由单个 pod 占据,并且 OpenAI 部署的集群具有二等分带宽,因此尽管其有许多节点,但是调度程序的压力相对较低,仅在一项新任务一次性创建数百个 pod 时会有调度压力。除此之外,OpenAI 还详细说明了其在扩展 k8s 集群时的重要工作内容,比如通过改用基于别名的 IP 寻址来解决大量节点的联网问题,在专用节点上部署 etcd 和 API 服务器以分散负载,定位使用 Prometheus 和 Grafana 收集指标时的 OOM 问题,设计对集群的健康检查,以及在团队中合理分配集群资源等。
3.Apache ECharts 5 正式发布
1 月 28 日,Apache Echarts 5 正式发布,此次带来了 5 大模块、15 项特性全新升级,具体内容如下:
动态叙事(新增动态排序柱状图和折线图,多维度展示、更加细腻的自定义系列动画)。
视觉设计(默认设计大改进、标签更加清晰、时间轴功能、个性化的提示框、全面升级的仪表盘、更加好看的扇形圆角设计)。
交互能力(状态管理优化改进,新增特效、性能大幅提升)。
开发体验(加强了数据集数据转换能力、更简单的语言包更换设置)。
用 TypeScript 重写代码,带来了非常多激动人心的特性。
可访问性(依旧注重无障碍设计、新增贴花图案区分颜色表达)。
4.WebRTC 成为 W3C 与 IETF 正式标准
经过多年发展,WebRTC 已获得诸多流行 Web 浏览器的支持。最细消息是,万维网联盟(W3C)和互联网工程任务组(IETF)刚刚宣布:基于 Web 的实时通讯技术(简称 WebRTC),已经正式成为 Web 领域的一项音视频传输标准。从技术层面上来说,该框架允许开发者轻松地将音视频聊天功能添加到各自的项目中。IETF 主席 Alissa Cooper 评论道:“基于 IP 的音视频通讯技术,已经彻底改变了全世界人民的交流方式。通过将这些技术集成到 Web 平台,更是有助于极大地扩展其使用范围”。得益于 IETF 和 W3C 之间的紧密合作,WebRTC 技术终于在今日正式完成了标准化工作。据悉,在 WebRTC 标准化工作完成之后,未来任何想要实现类似功能的软件项目,都将拥有一套可明确遵循的准则,以确保相关功能可以正确实现和满足各项需求。
5.国内首个自主可控区块链技术体系 “长安链”发布
据央视新闻报道,国内首个自主可控的区块链软硬件技术体系“长安链”在北京正式发布,并推出供应链金融、碳交易等首批应用场景。
据悉,“长安链”具有模块化特点,支持按需定制,实现数据“可用不可见”,构建共享机制,助力在交易、流通、统计等全流程的数据可信存储和共享。目前,“长安链”已实现软硬件全部自主研发。
6.京东开源 PyTorch 人脸识别工具包 FaceX-Zoo
京东开源了框架 FaceX-Zoo。依靠高度模块化和可扩展的设计,FaceX-Zoo 提供具备多种多种 supervisory head 和骨干网络的训练模块,以实现效果最优的人脸识别。在这个工具中,人们只需改动简单的配置就可以在大多数流行基准上进行模型测试。此外,它还有一个简单但功能齐全的人脸 SDK 用于验证训练后的模型,并进行初步应用。该工具并不包含大量现有技术,但也因此易于拓展升级。京东的开发者们表示,在未来研究人员还计划进一步增加 FaceX Zoo 的模块数量,如面部分析和 face lightning,补充骨干网络架构和 supervisory head 数量,并尝试通过分布式数据并行技术和混合精度训练来提升模型训练的效率。
学 术 前 沿
1.AAAI 2021 丨 Graph Diffusion Network 提升交通流量预测精度
城市流量预测作为智能交通中的一个重要问题,致力于精确预测城市中不同区域的流量信息,从而更好地实现区域间的流量管控、拥塞控制以及保障城市公共安全。本文将介绍一种基于时空图扩散网络的城市交通流量预测模型。由京东数科硅谷研发实验室,京东城市和华南理工大学合作的一篇论文《Traffic Flow Forecasting with Spatial-Temporal Graph Diffusion Network》,目前该论文已经被人工智能领域的顶级会议 AAAI 2021(CCF A 类)接收。
*论文链接:
http://urban-computing.com/pdf/AAAI2021TrafficFlow.pdf
2.AAAI 2021 丨利用标签之间的混淆关系,提升文本分类效果
本文主要是针对标签信息的充分利用进行了深入的研究。区别于传统的 label smoothing 或者 label embedding 方法,本文希望在利用标签信息时能够充分考虑输入的情况,是输入影响了标签之间的重叠或者依赖关系。同时本文的方法是模型不可知的,能够进一步提升不同模型的效果,具有灵活的使用方法。最后对标签进行更全面的建模,更充分的使用,能够以较小的代价取得更好的效果。
*论文链接:https://arxiv.org/abs/2012.04987
*以上信息来源于网络,由“京东科技开发者”公众号编辑整理,
不代表京东科技开发者立场*
推荐阅读
欢迎点击【京东科技】,了解开发者社区
更多精彩技术实践与独家干货解析
欢迎关注【京东科技开发者】公众号
版权声明: 本文为 InfoQ 作者【京东科技开发者】的原创文章。
原文链接:【http://xie.infoq.cn/article/c1f0b76378d4a69f0ea08e0cc】。文章转载请联系作者。
评论