写点什么

OpenAI Realtime API 升级,集成 WebRTC 且降价 60%;豆包发布视觉理解模型,实时语音模型也将上线

作者:声网
  • 2024-12-18
    四川
  • 本文字数:4458 字

    阅读完需:约 15 分钟


开发者朋友们大家好:


这里是 「RTE 开发者日报」 ,每天和大家一起看新闻、聊八卦。我们的社区编辑团队会整理分享 RTE(Real-Time Engagement) 领域内「有话题的 新闻 」、「有态度的 观点 」、「有意思的 数据 」、「有思考的 文章 」、「有看点的 会议 」,但内容仅代表编辑的个人观点,欢迎大家留言、跟帖、讨论。


本期编辑:@SSN,@鲍勃

01 有话题的新闻

1、OpenAI Realtime API 升级,集成 WebRTC 且降价 60%


在 OpenAI 第九场发布会上 ,其焦点主要放在 API 和开发者服务的全新升级上,并宣布向 API 使用等级 5 级的开发者开放 OpenAI o1 API 的访问权限。据官方介绍,现已正式上线的 o1 具备多项关键功能,可支持实际应用场景如下:


  • 函数调用:无缝连接 o1 与外部数据和 API。

  • 结构化输出:生成可靠地遵循自定义 JSON 模式的响应。

  • 开发者指令:为模型指定指令或上下文,例如定义语气、风格以及其他行为指导。

  • 视觉能力:推理图像,开启更多科学、制造或编程领域的应用,特别是在视觉输入至关重要的场景中。

  • 更低延迟:与 o1-preview 相比,o1 在处理相同请求时,推理 token 使用量平均减少 60%。


OpenAI 对 Realtime API 也进行了全面升级。新版本特别适合开发语音助手、实时翻译工具等应用场景。同时,Realtime API 能够集成到智能眼镜等可穿戴设备中,或者轻松接入各类摄像头和麦克风系统。Realtime API 此次更新重点包括 WebRTC 直接集成、价格调整以及更精细的响应控制。


据介绍,WebRTC 可自动处理音频编码、流媒体传输、降噪和拥塞控制等关键功能,即使在网络条件不稳定的情况下也能保证流畅的用户体验。Realtime API 还新增了多项实用功能:


  • 后台任务,如内容审核或分类,可以在不干扰用户语音互动的情况下进行。

  • 允许自定义输入上下文,指定哪些对话内容作为模型的输入。

  • 控制响应时机,利用服务器端语音活动检测(VAD),但不自动触发回应。

  • 延长最大会话时长,将原本 15 分钟的会话时长增加到 30 分钟。


在定价方面,OpenAI 大幅下调了相关服务费用:gpt-4o-realtime-preview-2024-12-17 音频 token 价格下调 60%,降至每百万输入 token 40 美元,每百万输出 token 80 美元;音频输入缓存费用仅需每百万 token 2.50 美元,大幅下降 87.5%;同时推出的 GPT-4o mini 为开发者提供了更具性价比的选择,在保持体验的同时,将音频价格设定为每百万输入 token 10 美元,每百万输出 token 20 美元,文本 token 则分别为 0.60 美元和 2.40 美元。(@ APPSO)


2、谷歌推出全新 AI 工具 Whisk 无需提示词,可多张图片混合生成新风格图像


谷歌发布了一款名为 Whisk 的新 AI 工具,它颠覆了传统的图像生成模式,允许用户使用图片作为提示词,而非冗长的文字描述。


通过 Whisk,你可以上传图片来指定 AI 生成图像的主题、场景和风格,并且可以为这三者分别使用多张图片。


如果手头没有合适的图片,也可以让谷歌自动填充一些图片作为提示(这些图片似乎也是 AI 生成的)。


Whisk 还为每张生成的图片提供了文字提示。如果对结果满意,用户可以收藏或下载图像;如果想要进一步优化,可以在文本框中添加更多文字,或直接点击图像编辑文字提示。


谷歌在博客文章中强调,Whisk 旨在进行「快速的视觉探索,而非像素级的精确编辑」。该公司还表示,Whisk 可能会「跑偏」,因此允许用户编辑底层的提示词。


谷歌表示,Whisk 使用了最新版本的 Imagen3 图像生成模型。谷歌还同时发布了新一代视频生成模型 Veo2,据说它能够理解「电影的独特语言」,并且「更少」出现诸如多余手指之类的幻觉。Veo2 将首先在谷歌的 VideoFX 中推出,用户可以通过谷歌实验室的候补名单申请体验,并计划在明年扩展到 YouTube Shorts 和其他产品。(@AIbase 基地)


3、OpenAI 称目前尚无推出视频生成模型 Sora API 的计划


OpenAI 今日表示,目前没有推出其视频生成模型 Sora 的应用程序接口(API)的计划,该模型可基于文本、图像生成视频。


在 OpenAI 开发团队成员的在线问答活动中,OpenAI 开发者体验负责人 Romain Huet 明确指出:「我们目前还没有推出 Sora API 的计划。」


此前,由于访问量远超预期,OpenAI 此前不得不紧急关闭了基于 Sora 的视频创作和编辑套件的申请通道。OpenAI 首席执行官 Sam Altman 为此在社交平台 X 上公开道歉,承认「严重低估了对 Sora 的需求」,并表示「需要一段时间才能让所有人都能使用,正在努力寻找尽快实现的方法!」值得一提的是,OpenAI 已于数日前重新开放了 Sora 的注册申请。


OpenAI 暂缓推出 Sora API 的策略,或使其在与主要竞争对手的角逐中处于不利地位。其主要竞争对手谷歌已于 12 月初推出了其视频生成模型 Veo 的有限访问 API。谷歌本周还宣布,因其高质量输出而在网络上迅速走红的 Veo 的升级版 Veo 2,也将在 2025 年的某个时候推出 API。(@IT 之家)


4、视觉 AI 迎来「厘时代」!豆包视觉理解模型正式发布,比行业价格便宜 85%!


在 12 月 18 日举办的火山引擎 Force 大会上,字节跳动正式发布豆包视觉理解模型,该模型千 tokens 输入价格仅为 0.003 元,一元钱可处理 284 张 720P 图片,比行业价格便宜 85%。


豆包视觉理解模型不仅能精准识别视觉内容,还具备出色的理解和推理能力,可完成分析图表、处理代码、解答学科问题等复杂任务。


目前,豆包大模型已覆盖约 3 亿台智能终端设备,日均 tokens 使用量超过 4 万亿,较七个月前增长 33 倍。


此次大会上,字节跳动还发布了豆包 3D 生成模型,并宣布 2025 年春季将推出具备更长视频生成能力的豆包视频生成模型 1.5 版,豆包端到端实时语音模型也将很快上线。(@硬 AI)

02 有亮点的产品

1、语音 AI 初创公司 Kardome 获得 1,000 万美元融资,并宣布在韩国设立地区总部


位于特拉维夫的语音人工智能公司 Kardome 已获得 1000 万美元的 A 轮融资,由 Korea Investment Partners 领投。主要投资者还包括现代汽车集团、Next Gear Ventures 和 Techstars。


这笔资金旨在加速开发 Kardome 的空间听觉人工智能(Spatial Hearing AI),该技术通过让设备更自然地隔离和响应声音来增强语音交互,就像人类的听觉一样。从汽车到 AR 眼镜,Kardome 的技术正在重塑语音指令的工作方式。


作为扩张战略的一部分,Kardome 正在韩国首尔设立地区总部。此举旨在提升公司在亚洲的影响力,尤其是在汽车和消费电子市场。


「Kardome 的技术与基于 LLM 的语音解决方案相结合,将彻底改变汽车、智能家居、AR/VR 和机器人领域的通信方式,」Korea Investment Partners 董事总经理 Min-Q Kim 说。「这种协同效应使 Kardome 站在了快速增长市场的前沿。


Kardome 的空间听觉人工智能已经应用于超过 100 万台设备。通过开设首尔办事处,该公司旨在利用韩国先进的技术生态系统,加深与现代汽车等汽车巨头的联系,现代汽车也是该公司的投资者之一。


有了这笔新资金,Kardome 希望将环境音频转变为真正的响应式、情境感知体验。想象一下人工智能在您的汽车或家中的应用,它能适应您周围的环境,实现自然、无缝的交互——这就是 Kardome 正在构建的世界。(@ maginative)


2、Cresta Virtual Agent:AI 驱动虚拟代理解决方案



Cresta Virtual Agent 是一款 AI 驱动虚拟代理解决方案。这款虚拟代理能够在没有人力参与的情况下提供 24/7 的服务,不仅减少了依赖人类代理的时间限制,还提升了客户对企业响应速度的期待。通过自然语言处理(NLP)和情感分析,Cresta Virtual Agent 能够捕捉客户语言中的情绪信号,并根据语境调整语气和语言,营造类似人类的互动体验。


除了回答简单问题,Cresta Virtual Agent 还能执行复杂操作,如预订、取消订单、升级套餐等。它通过分析客户历史数据和行为识别增销和交叉销售机会。虚拟代理内置明确的护栏和权限管理,确保其行动范围在企业设定的规则内,避免过度授权或非预期行为。这一功能特别适用于金融、医疗等高合规行业,确保数据安全性和操作透明度。


Cresta Virtual Agent 还能够理解上下文,处理会话中断,并根据客户的情绪动态调整对话节奏。通过持续学习最佳对话实践,Cresta Virtual Agent 能够自动化更多具有复杂决策和结果导向的任务,不仅节省人力成本,还确保自动化流程的结果符合客户需求与企业目标。当虚拟代理无法解决问题时,能快速无缝地将对话转交给人类代理,并确保人类代理接手时已完全了解客户背景和需求,避免客户重复叙述问题的情况,大幅提升服务效率,同时提高了客户的满意度。(@ Z potentials)

03 有态度的观点

1、27 岁华裔亿万富翁 Alexandr Wang:中美 AI 技术差距在缩小,Agent 是 2025 年最大创业机会之一


全球最年轻的 95 后亿万富翁、MIT 辍学生以及估值超 1000 亿的 AI 独角兽 Scale AI 创始人 Alexandr Wang 近期在 SPC 对谈时回顾了自己在 YC 创业加速器的经历。


Alexandr 坦言初期阶段充满了焦虑和迷茫。他引用 YC 的一句话:「在 YC,失败就像《饥饿游戏》一样,90% 公司会失败,但往往需要三年才能知道。」


他强调,创业者必须具备非理性但坚定的自信 ——「如果要竞争,我们就把更好的东西做出来」,这种信念最终成为 Scale 成功的核心动力。


在谈到全球科技的竞争时,Alexandr 提出,美国和中国的 AI 技术对决将决定未来全球的技术主导地位。中国最近在 AI 领域取得了突破性进展,尤其是在复制 OpenAI 的「思维循环」技术方面,这标志着中美在 AI 技术上的差距几乎已经缩小。


此外,他还提到了数据墙和合成数据的挑战,认为数据的稀缺性将成为未来 AI 发展的重要瓶颈。


尽管计算能力的提升不可忽视,但只有在数据的扩展上与计算能力同步增长,才能打破这一瓶颈。Alexandr 预计,当前 AI 模型在多轮交互中的表现仍然有限,但随着模型的改进,未来 AI 智能体将成为一个巨大的创业机会。到 2025 年,AI 智能体将彻底改变 C 端 和 B 端的互动方式,是一个极具潜力的创业方向。(@有新 Newin)



更多 Voice Agent 学习笔记:


Gemini 2.0 来了,这些 Voice Agent 开发者早已开始探索……


帮助用户与 AI 实时练习口语,Speak 为何能估值 10 亿美元?丨Voice Agent 学习笔记


市场规模超 60 亿美元,语音如何改变对话式 AI?


2024 语音模型前沿研究整理,Voice Agent 开发者必读


从开发者工具转型 AI 呼叫中心,这家 Voice Agent 公司已服务 100+客户


WebRTC 创建者刚加入了 OpenAI,他是如何思考语音 AI 的未来?


人类级别语音 AI 路线图丨 Voice Agent 学习笔记


语音 AI 革命:未来,消费者更可能倾向于与 AI 沟通,而非人工客服


语音 AI 迎来爆发期,也仍然隐藏着被低估的机会丨 RTE2024 音频技术和 Voice AI 专场


下一代 AI 陪伴 | 平等关系、长久记忆与情境共享 | 播客《编码人声》


Voice-first,闭关做一款语音产品的思考|社区来稿


写在最后:


我们欢迎更多的小伙伴参与「RTE 开发者日报」内容的共创,感兴趣的朋友请通过开发者社区或公众号留言联系,记得报暗号「共创」。


对于任何反馈(包括但不限于内容上、形式上)我们不胜感激、并有小惊喜回馈,例如你希望从日报中看到哪些内容;自己推荐的信源、项目、话题、活动等;或者列举几个你喜欢看、平时常看的内容渠道;内容排版或呈现形式上有哪些可以改进的地方等。



素材来源官方媒体/网络新闻

用户头像

声网

关注

还未添加个人签名 2021-02-05 加入

声网(NASDAQ:API)成立于2014年。开发者可通过声网API,在应用内构建多种实时音视频互动场景。使用声网服务的包括小米、陌陌、斗鱼、哔哩哔哩、新东方、小红书、HTC VIVE 、Yalla等遍布全球的巨头、独角兽企业。

评论

发布
暂无评论
OpenAI Realtime API 升级,集成 WebRTC 且降价 60%;豆包发布视觉理解模型,实时语音模型也将上线_声网_InfoQ写作社区