写点什么

阶跃星辰启动「繁星计划」开放平台;运动迁移框架 MotionClone 无需训练,一键克隆视频运动丨 RTE 开发者日报

作者:声网
  • 2024-07-16
    四川
  • 本文字数:2032 字

    阅读完需:约 7 分钟

阶跃星辰启动「繁星计划」开放平台;运动迁移框架 MotionClone 无需训练,一键克隆视频运动丨 RTE 开发者日报


开发者朋友们大家好:


这里是 「RTE 开发者日报」 ,每天和大家一起看新闻、聊八卦。我们的社区编辑团队会整理分享 RTE(Real-Time Engagement) 领域内「有话题的新闻」、「有态度的观点」、「有意思的数据」、「有思考的文章」、「有看点的会议」,但内容仅代表编辑的个人观点,欢迎大家留言、跟帖、讨论。


本期编辑:@JLT,@鲍勃

01 有话题的新闻

1、阶跃星辰启动「繁星计划」开放平台


AI 初创公司阶跃星辰昨日宣布,旗下开放平台「繁星计划」第一期正式启动,将寻找多模态大模型领域的初创企业和优秀独立开发者团队合作。


官方介绍,将为合作伙伴提供免费 Tokens、产品曝光、对接合作、技术支持、RPM/TPM 支持等多方面支持,而对方需要向用户介绍、推广阶跃星辰,并提供模型的使用反馈。(@爱范儿)


2、 谷歌全新 AI 训练技术,训练速度提升 13 倍,效率提高 10 倍


Google DeepMind 的研究团队最近发表了一项突破性研究,提出了一种名为 JEST(Joint Example Selection)的新方法,旨在提高大规模多模态学习的效率。


JEST 通过创新的联合样本选择和学习性评分机制,显著加速了模型训练过程,同时提高了模型性能,谷歌声称其新方法可以将 AI 模型的训练速度和能效大幅提升一个数量级,以高达 13 倍更少的迭代和 10 倍更少的计算量超越了最新的模型。(@元力社)


3、腾讯 AI 实验室项目 vta-ldm:输入视频生成对齐音频


腾讯 AI 实验室发布名为 “隐含对齐视频到音频生成” 的新模型 VTA-LDM,该模型能够生成与视频内容在语义和时间上相匹配的音频。研究团队在模型设计上进行了深入探索,结合了多种技术手段,以确保生成音频的准确性与一致性。


实验结果显示,VTA-LDM 模型在生成质量和视频与音频同步对齐方面表现出色,用户可以通过将视频片段放入指定的数据目录并运行推理脚本来生成对应的音频内容。模型提供了多个不同的模型版本,以满足不同的研究需求。(@AI 科技评论)


4、百度推出「文小言」AI 数字人社交 APP


百度公司最近推出了一款名为「文小言」的 AI 数字人社交 APP。这款应用基于先进的文心大模型技术,允许用户与 AI 虚拟角色进行实时沟通、互动,并建立情感联系。文小言 App 采用了仿真的数字人形象,为用户带来更真实、更自然的交互体验。


进入文小言 App 后,用户可以在「发现」功能栏内,通过上下滑动来寻找自己喜欢的数字人聊天对象。每一个 AI 数字人都提供独特的聊天服务,他们可以成为用户的百科全书、生活小助手,甚至是心灵导师。在每个数字人的个人界面上,用户不仅能看到逼真的动态数字人形象,还能了解到他们的年龄、地方、性格、职业等信息,以及一段语音形式的自我介绍。这让用户对每个数字人有了更全面的了解。(@Tech 星球)


5、AI 赋能文字编辑:AiEditor 开源富文本编辑器问世


AiEditor 的开源 AI 驱动富文本编辑器,为文本编辑领域带来新的变化。这款工具融合了人工智能技术,为用户提供智能化的编辑体验,包括实时推荐和修改建议,大幅提升了文字处理的效率和精准度。


作为开源项目,AiEditor 不仅为用户带来了先进的编辑功能,还为开发者社区提供了持续优化和定制的机会。这种开放的特性使得 AiEditor 有望在未来得到更广泛的应用和发展,为各类文字工作者带来更多便利。(@AI 科技评论)


6、MotionClone:无需训练,一键克隆视频运动



MotionClone 是一个创新的视频运动克隆框架,它突破性地允许用户在无需任何模型训练或微调的情况下,将参考视频中的运动信息一键迁移到新场景中。这项技术通过主成分时序注意力和空间语义引导机制,显著提升了运动质量和空间位置关系的准确性。MotionClone 的实现细节包括 DDIM 反转、引导阶段和高斯掩码,这些步骤共同确保了视频生成过程中运动和语义的全面引导。


该框架无需额外训练或微调,有效提高了运动泛化能力,同时保留了基座模型的生成质量。MotionClone 的引入,为视频生成领域带来了一种即插即用的运动定制化方案,它在保留原有生成质量的基础上,通过高效的运动信息指导和空间语义引导,显著提高了视频生成的质量和可控性。此外,MotionClone 的高扩展性使其能够适配丰富的社区模型,实现多样化的视频生成效果。(@机器之心)

02 有态度的观点

1、脑机接口初创公司 Synchron 称 AI 将对设备发挥重要作用


据报道,脑机接口初创公司 Synchron Inc。利用 OpenAI 的最新人工智能模型,帮助瘫痪病人借助植入物进行交流。该公司首席执行官称,这种硬件与人工智能的结合尚处于早期阶段,最终可能为病患带来变革性的影响。


Synchron 设备目前仍处于早期的可行性研究阶段,只有少数患者在测试。(@界面新闻)


写在最后:


我们欢迎更多的小伙伴参与 「RTE 开发者日报」 内容的共创,感兴趣的朋友请通过开发者社区或公众号留言联系,记得报暗号「共创」。


对于任何反馈(包括但不限于内容上、形式上)我们不胜感激、并有小惊喜回馈,例如你希望从日报中看到哪些内容;自己推荐的信源、项目、话题、活动等;或者列举几个你喜欢看、平时常看的内容渠道;内容排版或呈现形式上有哪些可以改进的地方等。



素材来源官方媒体/网络新闻

用户头像

声网

关注

还未添加个人签名 2021-02-05 加入

声网(NASDAQ:API)成立于2014年。开发者可通过声网API,在应用内构建多种实时音视频互动场景。使用声网服务的包括小米、陌陌、斗鱼、哔哩哔哩、新东方、小红书、HTC VIVE 、Yalla等遍布全球的巨头、独角兽企业。

评论

发布
暂无评论
阶跃星辰启动「繁星计划」开放平台;运动迁移框架 MotionClone 无需训练,一键克隆视频运动丨 RTE 开发者日报_声网_InfoQ写作社区