Fish Speech 1.5 发布,TTS-Arena 排名开源第一;DeepMind Genie 2,一键生成无限虚拟世界
开发者朋友们大家好:
这里是 「RTE 开发者日报」 ,每天和大家一起看新闻、聊八卦。我们的社区编辑团队会整理分享 RTE(Real-Time Engagement) 领域内「有话题的 新闻 」、「有态度的 观点 」、「有意思的 数据 」、「有思考的 文章 」、「有看点的 会议 」,但内容仅代表编辑的个人观点,欢迎大家留言、跟帖、讨论。
本期编辑:@SSN,@鲍勃
01 有话题的新闻
1、OpenAI 官宣预告为期 12 天活动明日开启
OpenAI 首席执行官山姆·奥特曼(Sam Altman)宣布,将从太平洋时间明天上午 10 点开始进行为期 12 天的 OpenAI 活动,期间每个工作日都会有直播,展示最新技术或产品演示,包括许多「重磅内容」和一些「小惊喜」。
这次连续 12 天的技术分享活动在科技界极为罕见。网友预测,本次活动内容可能包括:发布文生视频模型 Sora、为 ChatGPT 引入圣诞老人风格语音、增强 ChatGPT 的高级语音模式并增加视觉功能、发布 o1-preview、展示即将推出的 AI Agent、发布 GPT-4o 图像等等。
此外,OpenAI 预计还将在此次活动中发布新的开发者工具、展示新文生图模型「Dalle」、发布更大上下文窗口的 GPT-NEXT 模型、发布辩论游戏、推出 Microscope 神经网络模型可视化集合,以及增加高级语音模式的使用时间等。( @APPSO)
2、Google DeepMind 发布 Genie 2,一键生成无限虚拟世界
Google DeepMind 近期发布的 Genie2,正以其惊人的世界生成能力,重新定义了 AI 训练和交互的可能性。
Genie2 是一个革命性的基础世界模型,能够通过自然语言指令,实时生成高度多样化且逻辑连贯的虚拟世界。这一模型最大的亮点在于:它不仅可以创建复杂的 3D 环境,还能让用户或 AI 智能体与之进行长达一分钟的交互。
这个「虚拟世界生成器」的应用场景极其广泛。无论是迷宫、自然场景,还是模拟人类社会环境,Genie2 都能精准地生成。对于 AI 训练来说,这意味着可以构建无限多样且富有挑战性的学习场景,特别是在机器人和虚拟助手等领域,将产生革命性影响。
Genie2 展现出的能力令人瞩目:它可以智能识别操作控件、生成反事实场景、记忆不可见世界、动态创建内容,并模拟复杂的物理现象。从水效果、烟雾、重力到光照反射,Genie2 几乎涵盖了现实世界的所有关键物理特征。
更令人兴奋的是,这个模型可以从单个图像提示开始,通过键盘和鼠标输入,快速构建一个完整的交互世界。研究人员甚至可以使用真实世界的照片作为起点,生成栩栩如生的虚拟场景。
尽管 Genie2 目前还处于早期研究阶段,但 Google DeepMind 的研究团队相信,这项技术将为训练更加通用的人工智能系统铺平道路。它不仅能帮助开发更智能的 AI 代理,还为未来的创意工作流程提供了全新的可能性。(@AIbase 基地)
3、Videodb Director:构建可实时推理视频 AI 智能体
VideoDB 推出了 Director,一个开源框架,用于构建能够理解复杂视频任务并实时输出结果的 AI 视频智能体。如同一位人类电影导演,Director 可以无缝协调各种视频任务。例如,收到「文本生成电影」的指令后,Director 将会:
构建叙事
生成视觉效果
创作配乐
合成所有元素
实时播放最终影片
Director 基于聊天的用户界面、强大的编辑智能体和内置视频播放器,极大简化了下一代互动媒体的创作过程。例如,Director 可以轻松实现从视频中删除脏话等功能。
VideoDB 处理所有视频基础架构,包括场景和语音索引。借助 Director,用户甚至可以为无声视频构建多模态搜索/检索增强生成(RAG)智能体,这非常适用于监控、自动驾驶、光学字符识别(OCR)等领域。
为了支持创意工作流程,Director 不仅集成了常用的生成式 AI 音频/视频 API,还集成了各种大型语言模型 (LLM)、数据库和工具。
在 LLM 和智能体优先的世界中,视频的重要性日益凸显。VideoDB 团队希望 Director 能够赋能开发者,帮助他们构建真正的下一代媒体体验。Director 提供了 20 多个预构建的智能体,让用户可以轻松上手,快速实现创意。(@Videodb)
4、Fish Speech 1.5 发布,TTS-Arena 排名第二,开源第一
亮点:
在 TTS-Arena 上排名第 2(以「Anonymous Sparkle」身份)。
拥有 100 万小时的多语言训练数据
支持 13 种语言,包括英语、中文、日语等。
延迟低于 150 毫秒,提供高质量的即时语音克隆
预训练模型现已开源,方便用户使用
提供自托管或云选项
增加了 websocket 复用
增加了音量、速度、音标调节(@Fish Audio@X)
02 有亮点的产品
1、Coval:用模拟评估确保高质量的语音和聊天 AI
Coval 是一个赋能开发者快速构建可靠语音和聊天智能体的平台,它通过无缝的模拟和评估实现这一目标。Coval 支持自定义指标创建、千级场景运行、工作流追踪以及与 CI/CD 管道的集成,从而提供切实可行的洞察和最佳智能体性能。
Coval 致力于彻底改变语音和聊天智能体的测试、调试和监控方式。用户只需少量测试用例即可模拟数千种场景。用户提供提示,Coval 负责模拟环境并全方位测试智能体。
Coval 的创始团队曾领导 Waymo 的评估基础架构团队,构建了用于测试每次代码变更的模拟工具,确保 Waymo Driver 每次迭代都得到改进。从赛道上的人工测试到可扩展的自动化模拟,这一转变将自动驾驶汽车从早期原型发展成为如今在旧金山街道上行驶的可靠系统。现在,AI 智能体也面临着类似的挑战:前景光明的原型在扩展过程中常常会遭遇可靠性瓶颈。凭借在 Waymo 的经验,Coval 的创始团队打造了这个平台,为 AI 智能体提供自动化模拟和评估,帮助团队更快地实现可靠的实际性能。
Coval 的使命是确保 AI 智能体在执行关键任务时值得信赖,正如模拟技术如何释放自动驾驶汽车的潜力一样。Coval 由开发者构建,专为开发者设计,旨在节省时间、增强信心,并消除对话式 AI 开发过程中的痛点。
Coval 解决了以下关键痛点:
1.告别耗时的人工测试: 手动测试语音或聊天智能体效率低下且费时费力。Coval 与 CI/CD 管道集成,每次提示更改后自动运行千级规模的模拟,从而节省时间,提高测试覆盖率,并增强对生产性能的信心。
2. 化解调试的噩梦: 修复一个 bug 常常会引入新的 bug。Coval 通过提供对智能体工作流程的可操作洞察,跟踪每次模拟的各项指标,帮助用户精确定位并高效解决问题,从而消除这种令人沮丧的反复。
3.简化生产监控: 确定生产环境中智能体错误的根本原因可能极其困难。Coval 的监控功能提供对自定义指标(例如 LLM-as-a-Judge 或工具调用)的即时可操作洞察,从而更轻松地确保可靠的性能。(@Producthunt)
2、Agentplace:通过简单文本指令创建互动 AI 网站和应用的平台
Agentplace 是一个创新的 AI 应用开发平台,其核心价值在于通过简单的文本指令实现 AI 驱动的网站和应用构建。
该产品主要面向无代码开发者和创意工作者,通过降低技术门槛和开发成本来解决传统 AI 应用开发的痛点。
产品的主要特色在于文本指令驱动开发、实时交互体验以及 AI 模型的直接集成,这些特性使其在竞争激烈的无代码开发市场中独具优势。
在当前 AI 应用需求快速增长的背景下,Agentplace 通过其简单直观的用户体验和灵活的定制能力,为用户提供了一个高效的 AI 应用开发解决方案,展现了良好的市场发展潜力。(@Zpotentials)
03 有态度的观点
1、Perplexity CEO:AI 搜索的未来是替用户完成任务
近日,在与斯坦福商学院 MBA 学生艾斯林·罗斯(Aislin Roth)的深入对话中,Perplexity 的联合创始人兼 CEO 阿罗因德·斯里尼瓦斯(Aravind Srinivas)分享了他的个人成长经历、创立 Perplexity 的过程以及公司的发展愿景。
斯里尼瓦斯指出了 Perplexity 在 AI 搜索领域的创新,即不仅帮助用户找到信息,而是完成任务和节省时间。他还讨论了 AI 的伦理和未来,包括广告引入和版权争议,并且强调了 Perplexity 在保持答案客观性和真实性方面的决心。
他还分享了在团队构建、筹资和竞争中的经验,以及如何通过利用现有技术和开源模型来构建差异化业务。斯里尼瓦斯展望了 Perplexity 成为一个可靠答案机器的未来,同时他也分享了自己的领导风格,以及如何通过亲身体验产品来做出更好的决策。
本次访谈中,斯里尼瓦斯表达了他对知识获取民主化、AI 伦理和创新商业模式的深刻见解,以及他对 Perplexity 成为一家具有历史定义意义的公司的愿景。( @APPSO)
更多 Voice Agent 学习笔记:
2024 语音模型前沿研究整理,Voice Agent 开发者必读
从开发者工具转型 AI 呼叫中心,这家 Voice Agent 公司已服务 100+客户
WebRTC 创建者刚加入了 OpenAI,他是如何思考语音 AI 的未来?
人类级别语音 AI 路线图丨 Voice Agent 学习笔记
语音 AI 革命:未来,消费者更可能倾向于与 AI 沟通,而非人工客服
语音 AI 迎来爆发期,也仍然隐藏着被低估的机会丨 RTE2024 音频技术和 Voice AI 专场
下一代 AI 陪伴 | 平等关系、长久记忆与情境共享 | 播客《编码人声》
写在最后:
我们欢迎更多的小伙伴参与「RTE 开发者日报」内容的共创,感兴趣的朋友请通过开发者社区或公众号留言联系,记得报暗号「共创」。
对于任何反馈(包括但不限于内容上、形式上)我们不胜感激、并有小惊喜回馈,例如你希望从日报中看到哪些内容;自己推荐的信源、项目、话题、活动等;或者列举几个你喜欢看、平时常看的内容渠道;内容排版或呈现形式上有哪些可以改进的地方等。
素材来源官方媒体/网络新闻
评论