写点什么

Hume AI 语音控制功能:创建个性化语音;李飞飞空间智能首个模型:单图生成 3D 交互场景丨 RTE 开发者日报

作者:声网
  • 2024-12-03
    四川
  • 本文字数:4348 字

    阅读完需:约 14 分钟


开发者朋友们大家好:


这里是 「RTE 开发者日报」 ,每天和大家一起看新闻、聊八卦。我们的社区编辑团队会整理分享 RTE(Real-Time Engagement) 领域内「有话题的 新闻 」、「有态度的 观点 」、「有意思的 数据 」、「有思考的 文章 」、「有看点的 会议 」,但内容仅代表编辑的个人观点,欢迎大家留言、跟帖、讨论。


本期编辑:@SSN,@鲍勃

01 有话题的新闻

1、李飞飞 World Labs 推出首个 AI 系统—— 生成从图片到可交互的 3D 场景


李飞飞创立的 World Labs 推出了首个项目 —— 一个能从单张照片生成类似游戏 3D 场景的 AI 系统,其独特性在于支持交互且可以修改。


World Labs 的系统能为场景提供交互效果和动画,例如更改物体的颜色和动态调整背景灯光。该系统属于一个新兴的 AI 类别——「世界模型」(World Models),许多此类模型可以模拟游戏和 3D 环境,但通常存在伪影和一致性问题。


World Labs 在官方博客中提到,目前的大多数生成式 AI 工具生成的是 2D 内容,比如图像或视频,而生成 3D 内容则提升了控制力和一致性。这将改变我们制作电影、游戏、模拟器以及其他物理世界数字表现形式的方式。World Labs 的系统将图片转换为可交互和探索的 3D 场景。用户可以通过使用箭头键或 WASD 移动,然后单击并拖动鼠标来探索这些 AI 生成的场景。


这些场景在浏览器中实时渲染,并配备可调的模拟景深效果(DoF)。官网上提供了一个调节景深的滑块,景深效果越强,背景物体就越模糊。


World Labs 还提到,大多数生成模型预测的是像素,而预测 3D 场景则具有许多优势:


  • 持久的现实感 一旦生成了一个世界,它会保持稳定。如果你暂时离开视线,然后再回来,场景不会发生变化。这种持久性提供了更连贯的体验,避免了传统生成模型中场景不一致的情况。

  • 实时控制 在生成场景后,用户可以实时在场景中自由移动。例如,你可以停下来仔细观察一朵花的细节,或者绕过一个角落,看看背后隐藏了什么。这种实时互动使场景更具沉浸感和探索性。

  • 正确的几何结构 World Labs 生成的世界遵循 3D 几何的基本物理规则。这些场景具有实体感和深度感,与某些 AI 生成视频的梦幻性质形成对比,更贴近现实体验。


通过这些特性,World Labs 的技术为生成式 AI 3D 场景奠定了坚实基础,并大幅提升了内容的交互性、真实性和一致性。(@有新 Newin)


2、英特尔宣布 CEO 帕特·基辛格退休


芯片制造商英特尔周一表示,首席执行官帕特·基辛格 (Pat Gelsinger) 从 12 月 1 日起退休,并从董事会辞职。


帕特·基辛格已经在英特尔工作了 40 多年,他说,「领导英特尔是我一生的荣幸——这群人是业内最优秀、最聪明的人之一,我很荣幸能称他们为同事。当然,今天是苦乐参半的一天,因为这家公司是我职业生涯大部分时间的生活。我可以自豪地回顾我们共同取得的成就。对我们所有人来说,这是充满挑战的一年,因为我们做出了艰难但必要的决定,让英特尔适应当前的市场动态。」


英特尔已任命首席财务官大卫·津斯纳 (David Zinsner) 和高级执行官米歇尔·约翰斯顿·霍尔索斯 (Michelle Johnston Holthaus) 为临时联席首席执行官,同时董事会正在寻找新任首席执行官。


截至北京时间今日早间收盘,英特尔股价为 24.05 美元,市值为 1037 亿美元。基辛格退休的消息宣布后,英特尔盘前股价上涨超过 4%。(@极客公园)


3、Cohere 推新的搜索模型 Rerank 3.5:可处理 100 多种语言精准查询



人工智能公司 Cohere 近日发布了一款全新的搜索模型 Rerank3.5,旨在彻底改变全球企业如何查找和利用数据。该模型最显著的特点是能够处理超过 100 种语言的查询,尤其在阿拉伯语、日语和韩语等主要商业语言中表现突出。这一能力不仅突破了语言障碍,还可能帮助跨国公司更有效地管理信息检索。在当前数据孤岛和语言障碍依然存在的背景下,Rerank3.5 或许能为非英语市场的企业提供平等的竞争机会,加快全球业务的运营效率。


根据 Cohere 内部测试,Rerank3.5 在金融服务数据集上的表现相较于混合搜索系统提高了 23.4%,与传统 BM25 搜索算法相比提高了 30.8%。这种精确的信息检索能力在金融、医疗和制造等行业尤为关键,能够为这些受监管行业节省数百万的成本并降低风险。


此外,Rerank3.5 还具备更强的推理能力,采用 「交叉编码」 技术,使其能够更好地理解包含多个约束的查询。这一进步意味着从简单的关键词匹配转向对上下文和意图的真实理解,从而减少了企业搜索中常见的试错过程。


Cohere 推出 Rerank3.5 的时机也非常关键。随着企业人工智能从试验阶段转向生产阶段,智能搜索市场的竞争愈发激烈。Cohere 在实际应用中的关注点,允许企业以最小的代码变更和极小的延迟影响进行部署,显示了其对企业痛点的深刻理解。(@AIbase 基地)

02 有亮点的产品

1、告别语音克隆侵权!Hume AI 推出语音控制功能,可创建个性化 AI 语音


Hume AI,这家专注于情感智能语音界面的初创公司,近日推出了一项名为 「语音控制」 的实验性功能。


这个新工具旨在帮助开发者和用户无需任何编码、AI 提示工程或音效设计技能,就能创造出个性化的 AI 声音。用户可以通过精确调节声音特征,轻松定制符合需求的声音。


这项新功能建立在公司之前推出的 「共情语音界面 2」(EVI2)的基础上,EVI2 增强了语音的自然性、情感反应能力和可定制性。与传统的语音克隆技术不同,Hume 的产品专注于提供独特且富有表现力的声音,以满足客户服务聊天机器人、数字助手、教师、导游以及无障碍功能等多种应用的需求。


语音控制功能允许开发者在十个不同的维度上调整声音特征,包括性别、果断性、兴奋度、自信心等。


用户可以通过虚拟滑块实时微调这些属性,让定制变得简单明了。该功能目前在 Hume 的虚拟平台中提供,用户只需免费注册即可访问。


语音控制目前已推出测试版本,并与 Hume 的 Empathic Voice Interface (EVI) 集成,使其可用于广泛的应用程序。开发人员可以选择基本语音,调整其特性,并实时预览结果。此过程可确保会话间的可重复性和稳定性,这是客户服务机器人或虚拟助手等实时应用程序的关键功能。(@AIbase 基地)


2、商汤办公小浣熊升级 2.0 版本 集成分析、写作等多种 AI 办公工具



商汤科技近日宣布其办公工具小浣熊升级至 2.0 版本,进化为「AI 原生一站式创作空间」,集成了多种 AI 功能以提高办公效率。新版本的核心功能围绕「浣熊三步法(PAW)」展开,即规划(Plan)、分析(Analyze)、写作(Write),旨在覆盖工作和学习的多个方面。办公小浣熊 2.0 在数据分析能力上进行了增强,并新增了文档解析能力,能够化繁为简,省时高效。


升级后的版本支持用户构建个人知识库,整合文件、文档、数据,形成第二大脑,并在执行任务中实现快速精准的信息检索。对话中产生的信息可以一键转换成文档并进行编辑,无需切换空间,实现对话到文档的一站式转换。小浣熊 AI 还能联网搜索世界信息,帮助用户高效分解任务,制定计划。例如,分析师可以通过小浣熊 AI 的推理能力,从用户行为、商品表现到营销模型分析,将复杂问题分解成可行的规划。


在分析方面,办公小浣熊 2.0 无需编程或表格技巧即可获得数据洞察,自动提炼并完成留存率计算、频率分析、趋势变化等任务。基于商汤的「日日新」基座大模型,小浣熊能够自动解析并检索关键词,提炼要点、数据可视化、总结归纳。此外,升级后的数据可视化能力能够满足复杂需求,如时序图、双 Y 轴图等。


在写作方面,办公小浣熊 2.0 是一款超好用的文档编辑工具,可以通过对话生成文档,并在文档中进行对话,开启「唤熊一下」功能。用户可以在编辑界面中召唤 AI 辅助、AI 内容编辑、AI 生成等十几种 AI 文本能力,包括翻译、找灵感、扩写、纠错等。编辑界面的成果可以一键导出,方便用户随时润色、查找、写作。(@AIbase 基地)


3、亚马逊发布 AI 提示词自动优化工具,开发者迎来效率革命


亚马逊正在彻底改变人工智能应用开发的游戏规则。通过为 Bedrock AI 服务推出自动提示词优化功能,这家科技巨头承诺用最小的用户成本,显著提升 AI 任务的性能。


这一创新工具允许开发者通过单次 API 调用或在 Amazon Bedrock 控制台点击按钮,轻松优化多个 AI 模型的提示词。目前,该系统已支持包括 Anthropic 的 Claude3、Meta 的 Llama3、Mistral Large 和亚马逊自身的 Titan Text Premier 在内的多种领先 AI 模型。


在开源数据集上的测试结果令人印象深刻。亚马逊宣布,这一优化工具在不同 AI 任务中取得了显著进步:


  • 文本摘要任务性能提升 18%

  • 基于检索增强生成(RAG)的对话连续性提升 8%

  • 函数调用能力提升 22%


这一功能的实际应用场景包括聊天记录或通话日志的分类。系统能够自动精炼原始提示词,使其更加精确,并简化添加和测试变量的流程。


对于开发者而言,这意味着过去需要耗费数月时间进行手动提示词工程的繁琐过程,如今有望大幅缩短。开发者可以更快速地为不同模型和任务找到最优提示词。


然而,亚马逊也坦诚这一工具并非万能。业内专家指出,自动优化系统在处理复杂的多示例提示词时仍存在局限。尽管可以帮助添加结构和细节,但人类专业判断在理解任务需求和设计有效提示词方面仍然不可替代。(@AIbase 基地)

03 有态度的观点

1、AI 教父 Hinton:AI 系统已经具备了主观体验


近期,加拿大 AI 研究机构 Vector Institute,公开了深度学习和人工神经网络的创始人之一、Vector Institute 联合创始人 Geoffrey Hinton 的演讲视频。


在演讲中他提出了一个观点:他认为人工智能系统已经具备了主观体验。


在演讲开始时,他指出,大多数人仍然相信这些系统和人类之间存在巨大的差异。人是有意识的、有主观体验的,而这些东西只是运行在计算机上的程序,没有主观体验。他认为这种观点完全是错误的,这种误解源于对主观体验的本质的错误理解。


他指出,多模态聊天机器人感知系统出错时表达方式类似人类,表明 AI 与人类无本质区别,只是数字化且更聪明或即将更聪明,因此也能证明人工智能系统已经具备了主观体验。(@APPSO)



更多 Voice Agent 学习笔记:


WebRTC 创建者刚加入了 OpenAI,他是如何思考语音 AI 的未来?


人类级别语音 AI 路线图丨 Voice Agent 学习笔记


语音 AI 革命:未来,消费者更可能倾向于与 AI 沟通,而非人工客服


语音 AI 迎来爆发期,也仍然隐藏着被低估的机会丨 RTE2024 音频技术和 Voice AI 专场


下一代 AI 陪伴 | 平等关系、长久记忆与情境共享 | 播客《编码人声》


Voice-first,闭关做一款语音产品的思考|社区来稿

写在最后:

我们欢迎更多的小伙伴参与「RTE 开发者日报」内容的共创,感兴趣的朋友请通过开发者社区或公众号留言联系,记得报暗号「共创」。


对于任何反馈(包括但不限于内容上、形式上)我们不胜感激、并有小惊喜回馈,例如你希望从日报中看到哪些内容;自己推荐的信源、项目、话题、活动等;或者列举几个你喜欢看、平时常看的内容渠道;内容排版或呈现形式上有哪些可以改进的地方等。



素材来源官方媒体/网络新闻

用户头像

声网

关注

还未添加个人签名 2021-02-05 加入

声网(NASDAQ:API)成立于2014年。开发者可通过声网API,在应用内构建多种实时音视频互动场景。使用声网服务的包括小米、陌陌、斗鱼、哔哩哔哩、新东方、小红书、HTC VIVE 、Yalla等遍布全球的巨头、独角兽企业。

评论

发布
暂无评论
Hume AI 语音控制功能:创建个性化语音;李飞飞空间智能首个模型:单图生成 3D 交互场景丨 RTE 开发者日报_声网_InfoQ写作社区