写点什么

AI 测试 前 OpenAI 音频 AI 负责人获投 4000 万,打造情感通用智能;TEN Agent 一键让 Coze Bot 开口对话

作者:声网
  • 2024-12-10
    四川
  • 本文字数:3567 字

    阅读完需:约 12 分钟


开发者朋友们大家好:


这里是 「RTE 开发者日报」 ,每天和大家一起看新闻、聊八卦。我们的社区编辑团队会整理分享 RTE(Real-Time Engagement) 领域内「有话题的 新闻 」、「有态度的 观点 」、「有意思的 数据 」、「有思考的 文章 」、「有看点的 会议 」,但内容仅代表编辑的个人观点,欢迎大家留言、跟帖、讨论。


本期编辑:@SSN,@鲍勃

01 有话题的新闻

1、TEN Agent 一键让 Coze Bot 开口对话



构建实时多模态 AI Agent 的 TEN Framework 新增 Coze Bot 支持。在 TEN Agent 界面简单输入 Bot ID 和 API Token 即可连接 Coze 和 TEN Agent。


Coze 分国际和国内版本,国内扣子用户可以直接在 ten.rtcdeveloper.cn 体验 Coze,国际版 Coze 用户可以直接在 agent.theten.ai 上体验。


了解更多:《一个真正意义上的实时多模态智能体框架,TEN Framework 为构建下一代 AI Agent 而生》


2、智谱首个免费多模态模型 GLM-4V-Flash 上线,支持图像描述生成、视觉问答等



继 8 月语言模型 GLM-4-Flash 免费后,智谱 AI 于昨日(12 月 10 日)上线第一款免费的多模态模型 —— GLM-4V-Flash。GLM-4V-Flash 不仅基于 4V 系列模型的各项优秀能力,更在图像处理上实现了精确度的提升。


据介绍,GLM-4V-Flash 模型拥有图像描述生成、图像分类、视觉推理、视觉问答(VQA)以及图像情感分析等高级图像处理功能,并且支持包括中文、英语、日语、韩语、德语在内的 26 种语言。


在企业应用中,GLM-4V-Flash 能够针对特定垂直行业提供精准的场景解决方案,以低成本投入助力开发者迅速融入大模型时代,无需顾虑大模型图像处理的高昂成本。(@IT 之家)


3、消息称百川智能联合创始人已离职


据《智能涌现》消息,百川智能联合创始人、前商业化负责人洪涛已离职。据接近百川智能的人士透露,洪涛已不再参与公司日常运营,且离职已有一段时间。百川智能回应称,洪涛因个人原因离职,并感谢他在公司创立初期为商业化团队建设所做的贡献。


据悉,洪涛曾是搜狗公司首席营销官(CMO),并成功推动搜狗跻身互联网广告收入前六。2023 年 7 月,洪涛与前搜狗 CEO 王小川及 COO 茹立云共同创办百川智能,负责公司商业化工作。根据公司消息,百川智能目前已服务数千家客户,包括北电数智、完美世界、爱奇艺、360 等各行业领军企业。


洪涛的离职引发了对大模型创业公司面临的挑战的关注。今年下半年,多家大模型独角兽的核心成员选择离职或创业,包括零一万物算法副总裁黄文灏,以及「月之暗面」数位出海产品负责人。


业内人士指出,核心人物频繁离职背后反映了大模型企业在商业化和技术竞争方面的巨大压力。一位投资人表示,中国大模型企业不仅需要在内部解决商业化闭环问题,还要面对 OpenAI 等外部竞争者技术更新加速的挑战。(@AIbase 基地)

02 有亮点的产品

1、OpenAI 正式上线 Sora,ChatGPT Pro 用户可无限生成、最长 20 秒



OpenAI 近日正式推出其全新的超写实 AI 视频生成软件 Sora Turbo,时隔近十个月自首次展示以来,Sora Turbo 已经经历了多项重要升级。


Sora 现已对 ChatGPT Plus 和 Pro 的付费用户开放,用户需支付每月 20 美元或 200 美元的订阅费用,服务覆盖美国及大部分非欧盟和英国地区。


Sora Turbo 允许用户通过文本输入或静态图像生成多种视频,时长在 10 到 20 秒之间,支持 480p 、720p 、1080p 的不同分辨率,以及横向、方形和竖向的多种画面比例分别为 16:9、1:1、9:16 三种尺寸。


此外,Sora Turbo 还提供了一种名为 「情节提要(Storyboard)」 的功能,用户可以在时间轴视图中生成多个相互关联的剪辑。该功能使得剪辑之间的过渡更加顺畅,用户可以根据需求自由调整剪辑的切换方式,创造出更流畅的视觉效果。


对于 ChatGPT Plus 用户来说,每月可以生成最多 50 个视频,分辨率最多 720P、5s,有水印。而 Pro 用户则能够获得更高的分辨率和更长的持续时间,最多快速生成 500 个视频,同时享有慢速无限生成的视频服务,支持 1080P、20s、无水印。


OpenAI 还宣布计划在 2025 年初之前为不同的用户需求发布量身定制的定价选项。


尽管 Sora Turbo 能够生成令人印象深刻且极其真实的视频,但 Brownlee 也指出,该软件在生成内容时偶尔会出现幻觉现象,如随机生成模糊的文本和不自然的物理效果。值得注意的是,OpenAI 对生成真实人像、暴力和露骨主题实施了严格的限制。(@AIbase 基地)


2、前 OpenAI 研究员筹集 4000 万美元,致力于打造更具同理心的音频人工智能


前 OpenAI 研究员 Alexis Conneau 最新创立 WaveForms AI,目前已获 a16z 4000 万美元种子轮融资,剑指音频 AI 交互领域。


公司创始人 Alexis Conneau 曾在 OpenAI 主导开发 ChatGPT 的高级语音模式 (Advanced Voice Mode),拥有丰富的语音 AI 经验。


WaveForms AI 公司的愿景是让人工智能语音交互更加自然,更具情感共鸣,并希望实现情感通用智能(EGI),让人工智能系统能够实时解释和响应情感线索,从而带来更有意义和更具吸引力的互动。


Conneau 表示该 AI 音频系统灵感部分来源于电影《她》,能够避免成瘾性和隔离性体验等负面影响下,让更多用户感受 AI 的优势,此外公司将优先考虑同理心和连接,构建更积极的人机交互体验。


公司计划于 2025 年发布首批产品,但目前尚未公开技术演示,公司网站也仅限于对音频智能愿景的描述。


WaveForms AI 完成 4000 万美元种子轮融资,公司估值达 2 亿美元,由 Andreessen Horowitz 领投,知名风险投资家 Marc Andreessen 对此项目表现出浓厚兴趣。(@IT 之家)


3、HappyRobot A 轮融资 1560 万美元,提供物流 AI 语音解决方案


物流行业 AI 语音解决方案提供商 HappyRobot 完成 1560 万美元 A 轮融资,由 Andreessen Horowitz 领投,Y Combinator 和 RyderVentures 等战略投资者跟投。


HappyRobot 专注于为物流行业提供 AI 驱动的智能体,旨在帮助企业大规模提升沟通效率,重塑行业经济模式。其解决方案赋能货运代理、第三方物流 (3PL) 提供商、仓库及其他供应链企业,实现运营扩展、数据自动化交换以及 AI 驱动的流程效率提升。HappyRobot 通过简化进出站电话管理,自动化装载更新、调度、付款状态查询及承运人谈判等流程,并与现有系统集成,为客户提供实时分析、意图识别和全天候支持,最终优化产能,提升生产力和服务质量。(@FinSMEs)

03 有态度的观点

1、微软 AI CEO 苏莱曼:不看好 Altman 对 AGI 的预判,当前硬件无法实现


据 The Verge 今晚报道,微软 AI CEO 穆斯塔法・苏莱曼对 OpenAI CEO Altman 的最新表态提出了异议,称当前硬件无法实现 AGI。


苏莱曼接受采访时指出,这一目标或许还需十年时间。当谈及「现有硬件」定义时,以 The Verge 提出的「比现有硬件领先一到两代」为标准,苏莱曼回应称,这一条件下难以实现 AGI。「我认为英伟达 GB200s 无法胜任。不过在未来两到五代硬件中实现是可能的,但我不认为两年内成功的概率很高。根据硬件开发周期,目前每代硬件需要 18 到 24 个月,所以五代可能意味着十年。」


苏莱曼补充:「围绕这一问题存在大量不确定性,任何断言都会显得武断,甚至夸大其词。」他进一步区分了 AGI 和「奇点」的概念,「AGI 并不是奇点。后者是一种能够以指数递归方式自我提升的系统,其能力将迅速超越人类智慧。而 AGI 是一种能够适应各种训练环境的通用学习系统,既包括知识工作,也涵盖体力劳动。机器人技术的复杂性让我对短期内实现这一目标持怀疑态度。但未来五到十年内,我们可能会开发出一种无需过多干预提示即可适应多种环境的 AI 系统。这虽未必等同于 AGI,也不会直接通向奇点,但可能取代大部分人类知识工作。」


他还认为,当前对 AGI 的关注有些偏离实际:「与其沉迷于奇点或超级智能,我更专注于开发对人类有实际帮助的 AI 系统。这些 AI 应该为用户服务,成为其团队的一员,而非追求遥不可及的理论目标。」(@IT 之家)


更多 Voice Agent 学习笔记:


2024 语音模型前沿研究整理,Voice Agent 开发者必读


从开发者工具转型 AI 呼叫中心,这家 Voice Agent 公司已服务 100+客户


WebRTC 创建者刚加入了 OpenAI,他是如何思考语音 AI 的未来?


人类级别语音 AI 路线图丨 Voice Agent 学习笔记


语音 AI 革命:未来,消费者更可能倾向于与 AI 沟通,而非人工客服


语音 AI 迎来爆发期,也仍然隐藏着被低估的机会丨 RTE2024 音频技术和 Voice AI 专场


下一代 AI 陪伴 | 平等关系、长久记忆与情境共享 | 播客《编码人声》


Voice-first,闭关做一款语音产品的思考|社区来稿


写在最后:


我们欢迎更多的小伙伴参与「RTE 开发者日报」内容的共创,感兴趣的朋友请通过开发者社区或公众号留言联系,记得报暗号「共创」。


对于任何反馈(包括但不限于内容上、形式上)我们不胜感激、并有小惊喜回馈,例如你希望从日报中看到哪些内容;自己推荐的信源、项目、话题、活动等;或者列举几个你喜欢看、平时常看的内容渠道;内容排版或呈现形式上有哪些可以改进的地方等。



素材来源官方媒体/网络新闻

用户头像

声网

关注

还未添加个人签名 2021-02-05 加入

声网(NASDAQ:API)成立于2014年。开发者可通过声网API,在应用内构建多种实时音视频互动场景。使用声网服务的包括小米、陌陌、斗鱼、哔哩哔哩、新东方、小红书、HTC VIVE 、Yalla等遍布全球的巨头、独角兽企业。

评论

发布
暂无评论
AI测试 前 OpenAI 音频 AI 负责人获投 4000 万,打造情感通用智能;TEN Agent 一键让 Coze Bot 开口对话_声网_InfoQ写作社区