写点什么

Claude 大更新,AI 可模仿人类访问电脑;月之暗面招募微软亚研院谭旭,研发类 GPT- 4o 的端到端语音模型

作者:声网
  • 2024-10-23
    四川
  • 本文字数:2983 字

    阅读完需:约 10 分钟

Claude 大更新,AI 可模仿人类访问电脑;月之暗面招募微软亚研院谭旭,研发类 GPT- 4o 的端到端语音模型


开发者朋友们大家好:


这里是 「RTE 开发者日报」 ,每天和大家一起看新闻、聊八卦。我们的社区编辑团队会整理分享 RTE(Real-Time Engagement) 领域内「有话题的 新闻 」、「有态度的 观点 」、「有意思的 数据 」、「有思考的 文章 」、「有看点的 会议 」,但内容仅代表编辑的个人观点,欢迎大家留言、跟帖、讨论。


本期编辑:@SSN,@鲍勃

01 有话题的新闻

1、开源文生图 AI 重磅选手上新:Stable Diffusion 3.5 全家桶登场、消费级硬件上「开箱即用」



Stability AI 公司昨日(10 月 22 日)发布博文,宣布推出 Stable Diffusion 3.5,这标志着开源 AI 文生图模型的重大进步。


Stable Diffusion 3.5 共有 Medium、Large 和 Large Turbo 三种规模版本,旨在满足科学研究人员、爱好者、初创公司和企业的不同需求,相关介绍如下:


Stable Diffusion 3.5 Large:共有 80 亿个参数,具有卓越的质量和快速响应,是 Stable Diffusion 家族中最强大的模型,非常适合 100 万像素分辨率的专业应用场景。Stable Diffusion 3.5 Large Turbo:是 Large 的精简版,在出色地遵循提示词上,仅需 4 个步骤内生成高质量图像,且生成速度明显快于 Large。Stable Diffusion 3.5 Medium(将于 10 月 29 日发布):该模型拥有 25 亿个参数,采用改进的 MMDiT-X 架构和训练方法,旨在能够在消费级硬件上「开箱即用」,平衡质量和易于定制,能够生成分辨率在 25 万到 200 万像素之间的照片。


Stability AI 为此次发布实施了一项相当宽松的社区许可,这些模型可供非商业用途免费使用,并且对年收入低于 100 万美元的企业开放,超过此门槛的企业必须获得单独的许可安排。(@IT 之家)


2、Anthropic 发布 Claude 3.5 Haiku 以及一项革命性新功能, AI 可以模仿人类访问电脑


Anthropic 宣布推出改进版的 Claude 3.5 Sonnet、全新的 Claude 3.5 Haiku,以及一项名为「computer use 模拟计算机使用」的新功能。


也就是 Claude 能够模仿人类的方式使用电脑,它可以自主查看屏幕、移动光标、点击按钮、输入文本等。还能够自动化执行多个步骤的复杂任务,如填写在线表格、搜索数据、提交报告等,从而大幅减少人工操作时间。


Claude 3.5 能够在计算机界面上导航,通过切换窗口、打开菜单、选择选项等操作,完成多步骤的任务。


开发者可以利用这项功能自动化重复任务、开发和测试软件、进行开放式任务(如研究),甚至在复杂的应用场景中进行交互。


Claude 3.5 Sonnet 改进


该版本在多项行业基准测试中表现优异,尤其在编程和工具使用任务上有显著提升。在编程测试(SWE-bench Verified)中表现提高到 49%,在零售领域的工具使用测试(TAU-bench)中提升至 69.2%,航空领域则达到了 46%。


新版 Sonnet 与其前代版本保持相同的价格和速度,并在多步开发过程中提高了推理和编程能力。


Claude 3.5 Haiku 发布


Claude 3.5 Haiku 是速度最快的新一代模型,在多项测试中超越了上一代的 Claude 3 Opus。在编程测试(SWE-bench Verified)中,Claude 3.5 Haiku 的得分为 40.6%,超过许多其他先进模型(如原版 Claude 3.5 Sonnet 和 GPT-4o)。


该模型在低延迟、跟随指令的准确性以及工具使用的精确度方面都有显著提升。特别适用于用户界面任务、个性化体验生成和大规模数据处理(如购买记录、定价或库存记录)。(@小互 AI)


3、消息称 OPPO 将收购大模型创业公司波形智能,纳入后者 CEO 姜昱辰


界面新闻昨日(10 月 22 日)援引波形智能内部人士消息称,该公司将被手机厂商 OPPO 收购,CEO 姜昱辰将入职 OPPO。OPPO 方面向界面新闻表示:「目前暂无更多信息。」


「我们只是被收购,产品仍在正常运营,不是网传的关张。」上述波形智能内部人士表示。


公开资料显示,姜昱辰生于 1998 年,本科毕业于浙江大学竺可桢学院工高班,博士毕业于苏黎世联邦理工大学,师从 Prof。Ryan Cotterell ,主攻自然语言生成。


波形智能旗下拥有自研的中文创作垂直领域大模型「Weaver」,以及由其驱动的面向用户写作类 Agent 产品「蛙蛙写作 2.0」。其主要盈利方式为订阅会员和单次服务计费,用户定位是一款帮助专业小说作者、自媒体运营者等内容生产者提升写作速度的效率工具。但是,用户的付费意愿、能力以及市场空间等都有待验证。


另据《科创板日报》,姜昱辰曾表示,Weaver 大模型专为创作而生,最大特点是 50B tokens 高质量中文内容进行预训练,再加上工程师不断调整,使得该大模型的写作内容更有「人味」。(@IT 之家)


4、微软亚研院前首席研究经理加入月之暗面


据晚点 Auto 独家报道,微软亚研院前首席研究经理谭旭,已经于 8 月加入大模型创业公司月之暗面,主要负责研发端到端语音模型。


谭旭在离开微软研究院前担任首席研究经理,方向是生成式 AI、语音 / 音频 / 视频内容生成,论文引用量达上万次,他也曾担任 NeurIPS 等学术会议期刊的审稿人;其多项语言、语音、音乐、视频生成成果已应用在 Azure、Bing 等微软的产品与服务中。


报道指出,月之暗面的整个多模态研究在 2023 年 10 月就开始了。在受市场关注的视频生成大模型上,有接近月之暗面的人士称,月之暗面目前有十人左右的团队在研发视频模型,为确保产品更具差异性,对外发布计划仍在推迟。


谭旭加入月之暗面后,主要目标之一可能是帮月之暗面打造类似 GPT-4o 的语音体验。( @APPSO)


5、华为原生鸿蒙操作系统正式发布



我国首个国产移动操作系统——华为原生鸿蒙操作系统正式发布,这也是继苹果 iOS 和安卓系统后,全球第三大移动操作系统。


据介绍,此前已经发布过的鸿蒙系统,由于系统底座仍使用了部分 AOSP 开放源代码,而不得不兼容部分安卓应用软件。而此次发布的原生鸿蒙,实现了系统底座的全部自研,系统的流畅度、性能、安全特性等提升显著,也实现了国产操作系统的自主可控。(@腾讯科技)

02 有态度的观点

1、AI 教父 Hinton:我很担心 AI 从人类手中夺过控制权;AI 智能终将超越人类


Hinton 在一次访谈中提到了自己对 AI 发展的担忧。「我一如既往对 AI 的发展表示担忧,但我很高兴看到世界开始认真对待这个问题...AI 会变得比人类更聪明。我们必须担心它们会想从我们手中夺取控制权,这是我们应该认真思考的问题。」Hinton 认为 AI 的智慧可能超越大多数人类,只是时间问题。有的专家认为掌控 AI 不是问题——我们设定目标,它们会服从我们,按我们说的做。也有其他专家认为它们绝对会夺取控制权。但 Hinton 认为谨慎一些是明智的。他个人认为 AI 有可能会夺取控制权,而且这个可能性比 1%大很多。


Hinton 提出,军事领域的 AI 应用应该受到国际共识制约。「使用 AI 制造自动化致命武器的风险并不取决于 AI 是否比我们聪明,这与 AI 本身可能失控并试图接管的风险是完全不同的。我对这两种情况都很担心...自动化武器显然会出现,至于人工智能是否会失控并试图接管它,我们可能能够控制也可能无法控制,我们对此一无所知。因此在它比我们更有掌控力之前,我们应该投入大量资源来研究我们是否能够控制它。」(@Z potentials)


写在最后:


我们欢迎更多的小伙伴参与「RTE 开发者日报」内容的共创,感兴趣的朋友请通过开发者社区或公众号留言联系,记得报暗号「共创」。


对于任何反馈(包括但不限于内容上、形式上)我们不胜感激、并有小惊喜回馈,例如你希望从日报中看到哪些内容;自己推荐的信源、项目、话题、活动等;或者列举几个你喜欢看、平时常看的内容渠道;内容排版或呈现形式上有哪些可以改进的地方等。



素材来源官方媒体/网络新闻

用户头像

声网

关注

还未添加个人签名 2021-02-05 加入

声网(NASDAQ:API)成立于2014年。开发者可通过声网API,在应用内构建多种实时音视频互动场景。使用声网服务的包括小米、陌陌、斗鱼、哔哩哔哩、新东方、小红书、HTC VIVE 、Yalla等遍布全球的巨头、独角兽企业。

评论

发布
暂无评论
Claude 大更新,AI 可模仿人类访问电脑;月之暗面招募微软亚研院谭旭,研发类 GPT- 4o 的端到端语音模型_声网_InfoQ写作社区