对标 GPT-4o,法国开源实验室发布多模态大模型 Moshi;腾讯汤道生:AI 领域不应只关注大模型丨 RTE 开发者日报
开发者朋友们大家好:
这里是 「RTE 开发者日报」 ,每天和大家一起看新闻、聊八卦。我们的社区编辑团队会整理分享 RTE(Real-Time Engagement) 领域内「有话题的新闻」、「有态度的观点」、「有意思的数据」、「有思考的文章」、「有看点的会议」,但内容仅代表编辑的个人观点,欢迎大家留言、跟帖、讨论。
本期编辑:@JLT,@鲍勃
01 有话题的新闻
1、对标 GPT-4o!法国开源 AI 实验室发布多模态大模型 Moshi
Moshi 演示回放:https://www.youtube.com/live/hm2IJSKcYvo
7 月 4 日凌晨,法国知名开源 AI 研究实验室 Kyutai 在官网发布了,具备看、听、说多模态大模型——Moshi。
Moshi 功能与 OpenAI 在 5 月 14 日展示的最新模型 GPT-4o 差不多,可以听取人的语音提问后进行实时推理回答内容。但 GPT-4o 的语音模式要在秋天才能全面开放使用,而 Moshi 已经提供使用了。
Moshi 不锁区,填写一个邮箱地址就能直接使用,无需任何等待。值得一提的是,Moshi 是支持手机移动端使用的,只不过对普通话支持较差,最好使用英语提问。(@AIGC 开放社区)
2、CAMB.AI 发布突破性 AI 语音合成技术 MARS5,支持克隆推理
CAMB.AI 推出了先进的英文语音合成模型 MARS5,采用创新的两阶段自回归-非自回归流程。该模型仅需 5 秒音频和文本片段即可生成适用于多种场景的高质量语音,支持 140 多种语言,并可通过标点和大小写控制语调。
MARS5 提供了快速的「浅层克隆」和高质量的「深度克隆」两种推理方式,用户可根据需求选择。该模型在 GNU AGPL 3.0 许可下开源,同时也提供 API 调用。CAMB.AI 团队计划持续优化模型性能,并鼓励社区贡献。(@AI 科技评论)
3、苹果 Vision Pro 头显新专利探索「头控」方案,可调音量、亮度等
7 月 3 日消息,根据美国专利商标局最新公示清单,苹果公司申请了一项与 Vision Pro 头显相关的新型专利。该专利涉及头部控制方案,可替代手势和眼球追踪技术。
根据专利描述,佩戴者可通过倾斜或转动头部来移动屏幕上的滑块,从而调整音量和亮度等参数。这项新技术为双手不便的 Vision Pro 头显用户提供了新的操作方式:只需通过头部和观察事物即可控制头显上的一切功能。
然而,需要指出的是,在实现这一技术时可能会引发晕动症问题。因此尚不清楚苹果未来是否会将该专利应用于 Vision Pro 产品的生产中。(@中关村在线)
4、AI 音乐生成器 Suno 推出 iOS 应用程序
AI 音乐生成器 Suno 推出了一个新的 iOS 应用,允许用户在 iPhone 上使用文本、自己的声音或者器乐来创作完整的歌曲。
目前 Suno 的 App 只适用于美国的 iPhone,但 Suno 表示它将在未来进入其他国家和地区并推出 Android 版本,并会带来一些「有趣的更新」。(@爱范儿)
5、智谱清言智能体更新定制 UI 组件、多平台发布功能
昨日,AI 助手智谱清言宣布清言智能体迎来两大更新:新增定制 UI 组件和支持多平台发布。
智能体的界面定制新增「定制 UI 组件」功能,可选择单/多行文本、段落、分类、下拉等不同组件,满足创作者与用户的个性化需求,引导用户沉浸式使用智能体。
清言智能体可以自定义配置第三方平台,自由调用 api 发布。以微信公众号为例,只需点击「配置」键,扫码授权就能把智能体接入公众号,实现后台免费的 AI 回复。(@爱范儿)
02 有态度的观点
1、对话腾讯汤道生:AI 不止于大模型
腾讯云与智慧产业事业群 CEO 汤道生认为,AI 领域不应只关注大模型,企业应保持开放态度,关注多种技术路线。腾讯在 AI 投入上采取有节奏的长期策略,通过「721」方法分配资源,即 70%投入核心业务,20%投入发展中产品,10%投向前沿技术。
汤道生强调,腾讯高层对技术变革保持高度敏感,通过亲身体验产品来获取反馈,指引团队前进的方向。(@腾讯新闻潜望)
写在最后:
我们欢迎更多的小伙伴参与 「RTE 开发者日报」 内容的共创,感兴趣的朋友请通过开发者社区或公众号留言联系,记得报暗号「共创」。
对于任何反馈(包括但不限于内容上、形式上)我们不胜感激、并有小惊喜回馈,例如你希望从日报中看到哪些内容;自己推荐的信源、项目、话题、活动等;或者列举几个你喜欢看、平时常看的内容渠道;内容排版或呈现形式上有哪些可以改进的地方等。
素材来源官方媒体/网络新闻
评论