写点什么

在 GPT-4o 释放完整能力前,听听实时多模态 AI 创业者的一手经验 | 编码人声

作者:声网
  • 2024-05-28
    四川
  • 本文字数:984 字

    阅读完需:约 3 分钟

在 GPT-4o 释放完整能力前,听听实时多模态 AI 创业者的一手经验 | 编码人声


「编码人声」是由「RTE 开发者社区」策划的一档播客节目,关注行业发展变革、开发者职涯发展、技术突破以及创业创新,由开发者来分享开发者眼中的工作与生活。


5 月中旬 GPT-4o 的发布,让人与 AI 的交互,从对话框的文本交流加速推进到了音视频多模态的实时互动。


本期节目,我们邀请到实时互动 AI 创业者史业民。他结合了自己的一手研发经验,深度分析了 GPT-4o 在多模态、实时交互、情感语音的新能力和能力边界,分享了 GPT-4o 正在催生的潜在场景和新机会。史业民还从开发者视角,提出了面向开发者的 GPT-4o 和面向用户的 ChatGPT 能力可能存在区别的提醒,以及在开发多模态 AI 产品时需要注意到的技术细节。


从对话框到音视频,多模态的实时互动 AI 已成趋势。希望本期节目能对你有所启发。



本期主播与嘉宾

  • 史业民:实时互动 AI 创业者,前智源研究院研究员。

  • 朱峰:「津津乐道播客网络」创始人,产品及技术专家。

相关信息

  • 史业民团队最新项目:Pandora,一个可通过语言交互控制的生成视频世界模型。https://world-model.ai

  • 一起探索人和 AI 的新连接方式!RTE 开发者社区将在 6 月 22 日、23 日,联合 Founder Park 在北京举办线下的 AGI Playground 活动,边玩边探索 AGI 和 RTE 实时互动的新可能。加入社区微信群,还可以提前获取活动消息,抽免费活动门票。关注「RTE 开发者社区」微信公众号,在后台回复「小助手」即可入群。

制作团队

  • 后期 / 卷圈

  • 监制 / 姝琦

  • 产品统筹 / bobo

  • 联合制作 / RTE 开发者社区

关于「编码人声」

「编码人声」是由「RTE 开发者社区」策划的一档播客节目,关注行业发展变革、开发者职涯发展、技术突破以及创业创新,由开发者来分享开发者眼中的工作与生活。


录制嘉宾覆盖信通院 & 科委专家、国内外资深投资人、VR/AR & 虚拟人 & AIGC 等新兴技术领域头部创业者、一线网红 & 硬核开发者、跨界画家 & 作家 & 酿酒师等。


RTE 开发者社区是聚焦实时互动领域的中立开发者社区。不止于纯粹的技术交流,我们相信开发者具备更加丰盈的个体价值。行业发展变革、开发者职涯发展、技术创业创新资源,我们将陪跑开发者,共享、共建、共成长。


社区于 2023 年底正式启动了「主理人+工作组」的运营机制,并确认了社区的 3 位联合主理人 ——


· 零一万物 01.AI 开源负责人 @林旅强 Richard

· FreeSWITCH 中文社区创始人 @杜金房

· 小红书音视频架构负责人 @陈靖


本节目由津津乐道播客网络与 RTE 开发者社区联合制作播出。



用户头像

声网

关注

还未添加个人签名 2021-02-05 加入

声网(NASDAQ:API)成立于2014年。开发者可通过声网API,在应用内构建多种实时音视频互动场景。使用声网服务的包括小米、陌陌、斗鱼、哔哩哔哩、新东方、小红书、HTC VIVE 、Yalla等遍布全球的巨头、独角兽企业。

评论

发布
暂无评论
在 GPT-4o 释放完整能力前,听听实时多模态 AI 创业者的一手经验 | 编码人声_声网_InfoQ写作社区