写点什么

社区来稿丨一个真正意义上的实时多模态智能体框架,TEN Framework 为构建下一代 AI Agent 而生

作者:声网
  • 2024-09-25
    四川
  • 本文字数:2445 字

    阅读完需:约 8 分钟

社区来稿丨一个真正意义上的实时多模态智能体框架,TEN Framework 为构建下一代 AI Agent 而生

本文由 RTE 开发者社区成员通过社区网站投稿提供,如果你也有与实时互动(Real-Time Engagement,RTE)相关的项目分享,欢迎访问网站 rtecommunity.dev 发布,优秀项目将会在公众号发布分享。



自从 OpenAI 展示了 GPT-4o 的实时对话能力后,感觉电影《Her》中的场景瞬间成了现实。受这种突破性多模态体验的启发,开发者们开始疯狂寻找构建实时对话 AI 智能体的方法。虽然现在有一些开源工具可以让大家轻松上手做点编排,但要真正构建一个多模态 AI Agent 还是很难——这些智能体不仅需要超低延迟,还得掌握聊天、语音转文字、文字转语音、实时音视频通信等技术。更别提要把这些技术都无缝整合在一起,打造出像人类一样的互动体验,真的是个「脑力活儿」。


不过,好消息来了!有了 TEN(Transformative Extensions Network,变革性扩展网络),开发者们终于不用再「绞尽脑汁」了!TEN 是全球首个真正实现 实时多模态智能体 的框架,不仅能减少开发痛点,还让你轻松从头开始构建下一代 AI 应用。

什么是 TEN 框架?

TEN 框架是一个开源的开发框架,专为那些希望快速构建支持语音、视频、数据流、图像和文本的实时多模态智能体的开发者打造。它让开发者轻松试验、集成大语言模型,并创建可复用的扩展。想要做语音聊天机器人?AI 生成的会议记录?语言导师或虚拟伴侣?甚至是 AI 心理咨询师?TEN 都能帮你实现!它提供了丰富的 AI 服务和扩展,让你完全自由地构建、测试和发布能够实时思考、倾听、观察和互动的下一代 AI agent。


你可能听过开发者抱怨:「我想尽快构建出 AI agent!」或者企业开发者说:「我们需要一个能随着业务增长而扩展的解决方案。」对于那些想要快速构建演示版实时多模态 AI 智能体,或是需要一个能够轻松扩展到生产环境并允许添加新功能或大语言模型的框架,TEN 框架就是你的最佳选择



你能用 TEN 框架构建什么?

使用 TEN 框架,你可以构建能够像人类一样自然、实时互动的 AI 智能体。让我们来快速了解一下由 TEN 驱动的代理演示,感受它的强大魅力吧!



Voice, Vision and RAG


TEN Agent 是一个服务器端的演示 AI 智能体,它通过多个扩展实现实时音频和视频交互,并支持 RAG(检索增强生成),可以访问和利用本地文档提供答案。开发者可以轻松修改提示词和其他配置参数,以满足自己的需求。快来试试吧!你会惊讶于在不到 10 分钟内就能创建出一个 AI 智能体!


当然,你也可以使用 TEN 框架在本地构建自己的 AI 智能体。对于更复杂的用例,TEN 框架允许开发者通过社区的第三方插件,集成一个或多个大语言模型(LLM),并使用内置的扩展管理工具 TEN Manager 来管理它们之间的数据流。此外,Graph Designer 提供了一个简单的拖拽界面,方便你轻松设计工作流(如下图所示)。



TEN Graph Designer

为什么选择 TEN 框架?

未来的生成式 AI 预计将迅速转向语音和视频作为主要且最自然的交流界面,而实时交互(RTE)将成为大多数应用的标准。在这一转变过程中,我们发现现有的 AI 智能体平台存在一些局限性。


例如,一些平台虽然在快速开发多模态代理方面表现出色,但仅限于使用 Python,这限制了其构建更复杂应用程序并扩展到更广泛用例的潜力。同样,其他平台可能对音频和视频的支持有限,进一步限制了它们的多样性。


TEN 框架的设计初衷是帮助开发者更快、更轻松地创建实时多模态 AI 智能体:


- 真正的实时多模态,超低延迟。 TEN 支持语音、视频、数据流、图像和文本,尤其适用于实时翻译等语音或视频交互的用例。此外,不同扩展之间的交互(如数据传输)得到了优化,简化了端到端的开发和性能。


- 广泛的支持与可定制的扩展组件。 与其他仅支持有限多模态和编程语言的工作流构建工具不同,TEN 框架支持 Golang、C++和 Python,Node.js 也即将推出。此外,TEN 支持在所有主要平台上进行开发,包括 Windows、Mac、Linux 和移动设备。所有扩展组件都是模块化结构,跨多种语言具备完全的灵活性。非常欢迎扩展组件开发者将他们的服务连接到框架和社区中。


- 实时响应与状态管理。 TEN 框架通过优先考虑实时响应、动态工作流和同步数据,构建出的 AI 智能体能够提供更具互动性、类似人类的 AI 体验,特别是在多用户的场景下。使用 TEN,开发者拥有一个低延迟、同步、可调节媒体质量、支持并发用户、网络弹性等功能的框架。


- 同时支持边缘计算与云端。 通过 TEN 框架,部署在边缘和云端的扩展可以无缝结合,创建各种应用程序。对于隐私敏感的边缘部署,可以使用本地计算能力来降低整体成本并减少延迟,而云端的大语言模型可以集成以实现成本与性能的最佳平衡。


- 极速构建体验,开发者友好。 直观的可视化界面和拖放组件让开发者轻松上手。对于有更复杂需求的开发者,TEN 的灵活架构和开放 API 提供了一个强大的平台,用于构建自定义扩展。此外,TEN 欢迎社区的各种创意和贡献。


使用 TEN 作为你的 AI 智能体框架,让你的想象力起飞!立即访问 TEN Agent 仓库,构建你的第一个 AI 智能体吧!如果你享受构建和探索的乐趣,记得在仓库上为我们点赞。https://github.com/TEN-framework/ten_framework



Star TEN to stay up with TEN


如果您对 TEN 框架感兴趣,欢迎访问我们的网站 www.theten.ai,随时关注未来的更新和发布。我们非常期待听到您的意见、想法和反馈!同时,欢迎加入我们的 Discord 社区群,和大家一起交流探讨。



TEN Discord


您还可以通过以下平台找到我们:


• Discord:https://discord.gg/VnPftUzAMJ


• X(推特):https://x.com/TenFramework


• Medium:https://ten-framework.medium.com/


• Reddit:https://www.reddit.com/r/TenFramework/


• 邮箱:developer@theten.ai


尽情享受 TEN 框架,让您的实时多模态 AI 智能体栩栩如生!



本文由 RTE 开发者社区成员通过社区网站投稿提供,如果你也有与实时互动(Real-Time Engagement,RTE)相关的项目分享,欢迎访问网站 rtecommunity.dev 发布,优秀项目将会在公众号发布分享。同时还有 RTE Meetup demo 分享、《编码人声》播客录制、RTE Open Day 展位优先申请等机会。


有意投稿者请联系鲍勃微信(bob_fu,请备注身份和来意)。



用户头像

声网

关注

还未添加个人签名 2021-02-05 加入

声网(NASDAQ:API)成立于2014年。开发者可通过声网API,在应用内构建多种实时音视频互动场景。使用声网服务的包括小米、陌陌、斗鱼、哔哩哔哩、新东方、小红书、HTC VIVE 、Yalla等遍布全球的巨头、独角兽企业。

评论

发布
暂无评论
社区来稿丨一个真正意义上的实时多模态智能体框架,TEN Framework 为构建下一代 AI Agent 而生_声网_InfoQ写作社区