AI 实时通话视频生成产品 Tavus：能听说看且有形象；Anthropic 推出 API 长文本缓存功能丨 RTE 开发者日报

作者：声网

2024-08-19
四川
本文字数：2962 字
阅读完需：约 10 分钟

AI 实时通话视频生成产品 Tavus：能听说看且有形象；Anthropic 推出 API 长文本缓存功能丨 RTE 开发者日报

开发者朋友们大家好：

这里是 「RTE 开发者日报」 ，每天和大家一起看新闻、聊八卦。我们的社区编辑团队会整理分享 RTE（Real-Time Engagement）领域内「有话题的新闻」、「有态度的观点」、「有意思的数据」、「有思考的文章」、「有看点的会议」，但内容仅代表编辑的个人观点，欢迎大家留言、跟帖、讨论。本期编辑：@SSN，@鲍勃

01 有话题的新闻

1、Tavus 推出革命性 AI 视频通话产品，秒级响应

Tavus 推出了一款名为 Conversational Replicas 的 AI 视频通话产品，能在不到一秒的时间内响应，提供现实、智能的数字孪生体验。该产品在 Product Hunt 上获得高度评价，吸引了广泛关注。Tavus 的 AI 不仅能听、能看、会说，还有形象，主要功能是搭建身临其境般的 AI 生成视频体验。产品特点包括小于一秒的延迟、即插即用的端到端构建块、模块化、可定制的组件等。

Tavus 的模型，特别是 Phoenix-2，能够生成高度真实的数字复制品，支持超过 30 种语言，并能够在不同环境下录制并快速训练自定义复制品。Tavus 提供了一个灵活且模块化的平台，同时确保了内置的安全性和信任，包括 SOC 2 合规性、安全协议、内容审查和防幻觉检查。此外，Tavus 还计划推出未来的配音和词汇替换 API。（@雷锋网）

2、新一代智能体 Agent Q 发布！Llama 3 零样本成功率提升 340%

AI 初创公司 MultiOn 上周发布的智能体 Agent Q，声称是目前最强的 AI 智能体。据介绍，Agent Q 结合了多种先进技术，包括蒙特卡洛树搜索（MCTS）、自我批评和直接偏好优化（DPO），使 AI 模型能够通过迭代微调和基于人类反馈的强化学习进行自我改进。

在真实世界的预订任务中，Agent Q 的成功率达到了 95.4%，在自主性和复杂决策能力上取得了重大突破。Agent Q 的性能是 Llama 3 基线零样本性能的 3.4 倍，在多步推理任务的泛化能力和成功率上得到显著提升。

在官方发布的演示 demo 中，Agent Q 能够完成的任务涵盖了预订餐馆、安排会议、订购飞机票等，这些任务均需经历复杂的计划制定、逻辑推理、决策制定以及与众多应用程序的协同操作。( @APPSO)

3、Anthropic 推出 API 长文本缓存，一次性记住整个代码库

Anthropic 推出的 API 长文本缓存功能，能够让模型一次性记住整本书或整个代码库，极大降低了处理长文本的延时，并且能够节省成本高达 90%。

这项技术能够显著提高 Claude 响应时间。使用缓存提示，开发者可以一次性存储详细说明、示例响应和相关信息，从而在不同的聊天机器人实例之间实现一致的响应，而不需要每次都重新加载。Anthropic 表示，这种方法可以降低总体成本高达 90%，并提高响应速度高达两倍。该功能已经在 Anthropic 的应用程序编程接口上以 Beta 版本推出，适用于 Claude 3.5 Sonnet 和 Claude 3 Haiku 模型。（@雷锋网）

4、Rendora AI：你只需输入文字就能在几秒钟内生成逼真的 3D AI 数字人视频

Rendora AI 是一个可以让你快速制作高质量 3D 形象的 AI 视频平台。你只需输入文字，就能在几秒钟内生成带有逼真 3D AI 数字人视频。你可以自定义这些头像的表情、动作、声音和外观。这个平台还提供了各种 3D 场景，非常适合用在市场营销、教育和培训等领域。制作过程非常简单，不需要演员、专业技能或者额外的软件和硬件。

主要功能包括：

文本转 3D 视频：用户可以将输入的文本快速转换成高质量的 3D 视频。视频中的 3D AI 头像逼真，能够进行自然的表情和动作表现。

个性化定制：提供多种定制选项，用户可以根据自己的需求调整头像的外观，包括种族、年龄、服装、妆容和发型等。还可以通过一张图片来个性化生成头像。

专业级 3D 场景与拍摄：平台提供超过 400 个 3D 场景和环境，用户可以在这些场景中进行专业级的拍摄。场景设置专业，配有专家级的灯光和镜头角度，非常适合用于市场营销、教育和培训等领域。

全流程一体化平台：从视频生成到后期制作，Rendora AI 提供一站式服务。用户不需要额外的特效艺术家或额外的软件/硬件支持，就能轻松完成专业级的视频制作。

AI 自动生成镜头：平台可以根据输入的文本自动生成专业级的可编辑镜头角度，用户可以根据需要进行调整，无需具备专业的摄影技能。（@小互 AI）

5、清华 &智谱 AI 新研究，提升大模型文本生成长度

清华大学的李涓子和唐杰团队，以及智谱 AI 合作，发布了新的研究成果，通过改进大模型的输出长度，使得 GLM-4 和 Llama-3.1 模型能够生成超过 2 万字的长文本。研究表明，大模型的输出长度受限于监督式微调阶段使用的数据集中缺少长输出样本。为了解决这个问题，研究人员提出了 AgentWrite 框架，将长文本生成任务分解为多个子任务，并制定了详细的写作计划。目前论文和代码已经开源在 GitHub 上。（@雷锋网）

6、GitHub 推出 AI 驱动的 Copilot Autofix，捕获和修复代码中的漏洞

GitHub 于 8 月 14 日在生产环境中引入了 Copilot Autofix，这是一个人工智能驱动的软件漏洞修复服务，作为其 GitHub 高级安全（GHAS）服务的一部分。

GitHub 在声明中说：「Copilot Autofix 分析代码中的漏洞，解释它们为什么重要，并提供代码建议，帮助开发人员在发现漏洞时尽快修复漏洞。」GitHub Enterprise Cloud 上的 GHAS 客户已经在他们的订阅中包含了 Copilot Autofix。GitHub 在 GHAS 代码扫描设置中为这些客户默认启用了 Copilot 自动修复功能。从 9 月开始，Copilot Autofix 将在开源项目的 pull request 中免费提供。

在 3 月份开始的公开测试期间，GitHub 发现使用 Copilot Autofix 的开发人员修复代码漏洞的速度比手动修复的速度快三倍以上，这表明了 Copilot Autofix 等人工智能代理可以从根本上简化和加速软件开发。该公司表示，Copilot Autofix 可以针对数十种类型的漏洞生成，例如 SQL 注入和跨站脚本，开发人员可以在 pull request 中驳回、编辑或提交这些漏洞。（@AI 科技评论）

02 有态度的观点

1、Yann LeCun：AI 系统能够发现新事物，但不是基于大语言模型

Yann LeCun 在 X 上转发了一篇新研究发现：人工智能不会对人类构成生存威胁，并由此提出了对大型语言模型能力的看法。

他指出，LLMs 无法创造性地回答不在其训练数据中的问题，也无法解决未经训练的问题。此外，LLMs 需要大量的人类帮助才能获得新技能或知识，并且它们不能独立发明新事物。LeCun 认为，LLMs 只是人工智能技术的一个子集，单纯地扩大 LLMs 的规模不足以实现这些能力。他对人工智能未来能够达到这些能力持有乐观态度，但强调在没有小型原型或蓝图之前，关于人工智能存在风险的讨论就像是在 1920 年代担心涡轮喷气发动机的安全一样是不切实际的。

LeCun 还回应了一个网友声称他的主张已被证实为错误的情况。他提到了自动驾驶汽车在 1980 年代末就已有跨国演示，但即使在深度学习的推动下，35 年后我们仍然没有实现 5 级自动驾驶汽车，这表明事情往往比人们想象的要复杂得多。他还强调了其他类型的人工智能系统确实能够发现新事物，但它们不是自回归的 LLMs。（@AI 科技评论）

写在最后：

我们欢迎更多的小伙伴参与「RTE 开发者日报」内容的共创，感兴趣的朋友请通过开发者社区或公众号留言联系，记得报暗号「共创」。

对于任何反馈（包括但不限于内容上、形式上）我们不胜感激、并有小惊喜回馈，例如你希望从日报中看到哪些内容；自己推荐的信源、项目、话题、活动等；或者列举几个你喜欢看、平时常看的内容渠道；内容排版或呈现形式上有哪些可以改进的地方等。

素材来源官方媒体/网络新闻

发布于: 15 小时前阅读数: 2

声网

关注

还未添加个人签名 2021-02-05 加入

声网（NASDAQ:API）成立于2014年。开发者可通过声网API，在应用内构建多种实时音视频互动场景。使用声网服务的包括小米、陌陌、斗鱼、哔哩哔哩、新东方、小红书、HTC VIVE 、Yalla等遍布全球的巨头、独角兽企业。

发布

暂无评论

创作场景

AI 实时通话视频生成产品 Tavus：能听说看且有形象；Anthropic 推出 API 长文本缓存功能丨 RTE 开发者日报

01 有话题的新闻

02 有态度的观点

声网

评论