写点什么

视觉理解 + 实时语音,打造你的多模态实时 AI 丨 TEN+ 亚马逊云科技开源工作坊

作者:声网
  • 2025-02-25
    云南
  • 本文字数:1864 字

    阅读完需:约 6 分钟

视觉理解+实时语音,打造你的多模态实时 AI丨 TEN+亚马逊云科技开源工作坊

如何快速打造一个能听懂你说话、理解你情绪,甚至看懂你手势、理解你周围图像的 AI 助手?


在这场 TEN x 亚马逊云科技联合工作坊中,我们将带你使用 TEN 框架Amazon Nova 大模型 ,亲手构建属于你的 Voice Agent ,并部署在 Amazon Bedrock 平台上。无需复杂的代码,TEN 框架将助你快速搭建 AI Agent,而 Amazon Nova 模型的语音和视频理解能力,则为你的 Agent 提供强健大脑。


TEN 是一个用以创建实时语音 AI Agent 的开源框架。支持语音、文本和图像的输入与输出,内置优化的实时通信能力,以提供低延时、可打断的交互体验。通过内置的 STT/LLM/TTS 模块,以及插件化开发与灵活编排,帮助开发者快速测试和迭代对话体验,即使没有深厚 AI 背景的开发者也能快速构建强大的实时语音 AI Agent。



Amazon Nova 是亚马逊最新推出的基础模型系列,包含 3 个理解模型(Pro/Lite/Micro)和 2 个创意模型(Canvas/Reel),满足不同场景需求。支持多语言处理,支持文本、图像、视频等多模态输入,提供丰富 API 接口,可通过 Amazon Bedrock 平台进行定制化开发。支持跨区域推理、批量处理、微调等多种部署方式,具备完善的安全防护机制。



在工作坊中,你将一步步解锁 TEN 与 Amazon Nova Pro/Lite 的能力,一个小时学会如何从零开始构建你的 AI 助手!现场有来自 TEN Framework 与亚马逊云科技技术专家的答疑指导,还准备了精美茶歇与开发者礼品。期待与大家现场相会~



活动时间


2025/3/8 13:30-16:30


地点


上海前滩(具体场地审核通过后入群通知)


活动流程


13:00 - 13:30 签到


13:40 - 14:20 主题分享利用 Amazon Nova 构建生成式 AI 应用——陈一品,亚马逊云科技解决方案架构师


TEN 开源框架及最佳实践——Plutoless,TEN Framework 共同发起者


14:20 - 16:00 动手实操 TEN+ Amazon Nova (茶歇 &礼品)


16:00 - 16:30 demo 展示 &自由交流


动手实操 TEN+ Amazon Nova


我们为大家准备了几步语音 AI Agent 挑战,帮助大家循序渐进地了解、使用 TEN+ Amazon Nova。


本场使用以下相关技术:


AI Agent 框架:TEN


https://github.com/TEN-framework/TEN-Agent


大模型:Amazon Nova Pro/Litehttps://aws.amazon.com/cn/ai/generative-ai/nova/


ASR:Amazon Transcribehttps://aws.amazon.com/cn/transcribe/


TTS:Amazon Pollyhttps://aws.amazon.com/cn/polly/


*本场将为大家提供免费的亚马逊云科技测试账号,并为大家准备所需的各种 key。


  • 阶段 1


在 Amazon bedrock 上简单几步完成 TEN + Amazon Nova 大模型的部署,启动 Agent 服务开始对话。


  • 阶段 2


体验 Amazon Nova Pro 和 Amazon Nova Lite,修改 Prompt 和 Amazon Polly 音色等配置,切换音/视频交互、实时翻译等交互模式,来定制自己专属的语音 AI Agent!


  • demo 展示


自行报名向大家展示你的创意、你的场景和你的 demo!


🎁 完成阶段 1&2 的朋友,可以获得由亚马逊云科技和 TEN 提供的开发者周边,进行 demo 展示的朋友更有好礼相赠~


本场将为大家提供免费的亚马逊云科技测试账号,并为大家准备所需的各种 key,建议报名参与者提前做好如下软硬件配置:


  • 知识:会用命令行、git、docker;

  • 预装 docker;

  • 自备电脑一台。


报名并审核通过后,将会邀请大家进入工作坊专属答疑群,搞定前序工作,现场专注探索你的实时 AI 场景!欢迎报名~



本场活动由 TEN Framework 和亚马逊云科技联合主办,亚马逊云科技 User Group 和 RTE 开发者社区协办。

关于 RTE 开放者社区介绍


RTE 开发者社区是聚焦实时互动领域的开发者社区。希望通过社区链接领域内的开发者和生态力量,萌芽更多新技术、新场景,探索实时互动领域的更多可能。这里你将遇见一群致力于改变人和人、人和世界,以及人和 AI 连接方式的开发者。官网:rtecommunity.dev

关于 UG 社区介绍


亚马逊云科技 User Group 开发者社区是一个为开发者们提供彼此学习、分享技术实践、培训进阶等活动的技术交流分享社区。欲知更多信息或活动预告,请持续关注微信公众号【User Group】,期待热爱前沿技术和开源技术的您加入到 User Group 大家庭。



更多 Voice Agent 学习笔记:


多模态 AI 怎么玩?这里有 18 个脑洞


AI 重塑宗教体验,语音 Agent 能否成为突破点?


对话 TalktoApps 创始人:Voice AI 提高了我五倍的生产力,语音输入是人机交互的未来


2024,语音 AI 元年;2025,Voice Agent 即将爆发丨年度报告发布


对话谷歌 Project Astra 研究主管:打造通用 AI 助理,主动视频交互和全双工对话是未来重点


这家语音 AI 公司新融资 2700 万美元,并预测了 2025 年语音技术趋势


语音即入口:AI 语音交互如何重塑下一代智能应用


Gemini 2.0 来了,这些 Voice Agent 开发者早已开始探索……



用户头像

声网

关注

还未添加个人签名 2021-02-05 加入

声网(NASDAQ:API)成立于2014年。开发者可通过声网API,在应用内构建多种实时音视频互动场景。使用声网服务的包括小米、陌陌、斗鱼、哔哩哔哩、新东方、小红书、HTC VIVE 、Yalla等遍布全球的巨头、独角兽企业。

评论

发布
暂无评论
视觉理解+实时语音,打造你的多模态实时 AI丨 TEN+亚马逊云科技开源工作坊_声网_InfoQ写作社区