写点什么

Voice agent connected!回顾一场 24 小时的黑客松

作者:声网
  • 2024-08-22
    四川
  • 本文字数:2218 字

    阅读完需:约 7 分钟


📣


24 小时对于一场黑客松来说可能确实太短了,但对于想要感受开放地获取新知,并得到毫无保留反馈的选手来说,已经足够,在这里知识和创造力都是极其自由的。


这里是 Lingo,社区上周又带着 Astra/TEN 去了黑客松,这次是在 GOGC 2024 的现场。从 8 月 15 日下午 2 点到 8 月 16 日下午 2 点,选手们要基于我们的开源框架来创造自己的 AI 智能体。



正式开始前,让我们再介绍一下这个社区项目。


  • TEN (Transformative ExtensionsNetwork,https://doc.theten.ai)是一个平台型开源框架,能够让开发者一站式快速、灵活的搭建属于自己的多模态实时互动 AI agent,这个框架包括了基于 Rust 语言开发的 all-in-one TENmanager,支持实时互动的多模态标准协议,支持多种编程语言混合使用的 TEN Runtime,用于可视化低代码编排逻辑的 GraphDesigner,以及支持社区公开发布、分享的 Extension Store,供开发者在构建 AI Agent 的过程中即插即用地挑选心仪的模块灵活替换。

  • Astra (https://theastra.ai/)则是一个用 TEN 开发的多模态实时互动的 demo AIAgent,玩家可以通过语音与 LLM 进行交互,还可以通过摄像头和 Astra 进行对话,同时也支持基于特定知识库内容回答问题(RAG)。Astra 完全开源,供社区使用。



欢迎关注 x 账号


当然,社区就是要吆喝大家一起来玩。除了 TEN 开源框架,我们还叫上了零一万物、Moonshot、阶跃星辰、Rokid 几家来自多模态大模型、空间计算等领域的伙伴,一起为选手提供技术支持。


并且组织各方导师进行前期的技术宣讲,给大家介绍 TEN 新上线的视频理解和 RAG 能力,零一万物多模态大模型及其 cookbook,Moonshot 的长文本和上下文缓存,阶跃星辰大模型的图像理解和生成,Rokid AR+AI 的不同最佳实践等等。



总之赛题就是要组合 TEN 与不同的技术能力,做一个“感官复苏”的 AI Agent ,赋予 TA 听见和看见的能力!接下来的时间就交给选手们了。


🏃🏃


为了给大家丰富的比赛体验,我们准备了大量的周边小礼品。TEN 还现场附加了一个小挑战:只要能跑通基础的 Astra demo,就可以领取社区的 T 恤/帆布袋。



https://github.com/rte-design/ASTRA.ai


也就是依照 Github 的 readme 页面,依次创建配置文件、绑定 API key、创建 Docker 容器,然后在 Docker 内创建 Agent 服务并开启,接下来打开前端页面,就能听到默认的一句语音:


“Astra Agent connected! How can I help you today? ”


Yes! 这就代表一个 Voice Agent 在你的电脑里诞生了。


在比赛开始 4 个小时内,就有 6 组选手完成了挑战!有朋友立刻换上了 T 恤,成为 RTE 开发者社区行走的广告牌。



但跑通 Astra 仅仅只是开始,还需要大家继续往远处走一步。这次比赛的选手有学生、打工人和创业者,很多是第一次参与黑客松比赛。24 小时内如果想要做出一个项目,就需要大家尽快确定方向,分配好任务,与组内成员和导师积极沟通。



09 年出生的高一生 Sam 大概是 TEN 开源项目最年轻的使用者了!小孩哥虽然说自己技术还很业余,但是自己跑通 Astra 之后也会在现场帮助其他人,非常有社区精神。


导师们照例是选手的大后方,陪选手们奋斗到深夜,因为此刻正是❓(问题)与⚡️(灵感)最充沛的时候。



我和 RTE 开发者社区的伙伴鲍勃也尝试用 TEN 跑了一个自己的实时白板 Agent。下面这个是晚上 12 点在会场响起的声音,鲍勃基于 Astra 的视频理解能力,调用 OBS 虚拟摄像头,录制白板软件,做了一个白板互动 Agent 的 demo。


☀️


每场黑客松必跟选手一起熬夜的 plutoless ,他的保留节目就是拍摄黑客松清晨的阳光。



24 小时实在是很短暂,最终有十几个组别提交了完整作品。其中两组获得我们颁发的最佳创意奖,各拿走四千元奖金!


XR Agent 结合 TEN 框架与 Rokid 硬件,构建了一个可跨平台控制与对话的语音助理,允许用户下达语音指令来完成操作,他们还额外开发了 TEN 可用的插件。团队成员基于对 AR 技术的兴趣,将眼镜想象成一个控制流集成终端,搭配 voice agent 提供的智能与命令进行无缝切换,来提升人机交互体验。



小智旅行助手 为旅游者提供全方位的陪伴,在 TEN 框架下调用高德地图 API,以更自然的语音交互的方式提供基于用户偏好和位置的智能餐厅推荐,以及旅游地点推荐与天气预警等等。小智团队的成员都是初次见面的网友,但都热爱旅游,所以这个项目的初心是让 J 人更有条理,P 人无计划也不慌乱。



我们的技术合作方也选出了各自的最佳实践奖,包括 AI 宝藏猎人、AI 情感交流、文物探秘、生息、插班生、XR Agent、红酒风味、赛博按摩师等团队。



马拉松跑到了最后,这次赛程当中,也有很多队伍给人留下深刻印象。比如 AI 宝藏猎人是临时组队,但把大家的兴趣点很好地融合在一起;生息对 AI 游戏与冥想的结合非常有热情;赛博按摩是因为有选手经常在照顾家里老人而选择的产品方向。


而比赛的结束,是社区旅程的开始;已经有一些朋友开始更深度地成为社区一员,像 Sam 就为 Astra 的 Github 页面提供了韩语版的 readme,并且提交了几个 issue。


最后,如果有可能,大家下一场黑客松再见👋


接下来,在 Github 上搜索 ASTRA.ai,为我们点 🌟,你可以持续获得 TEN 与 Astra 的最新进展。也欢迎联系 Elliot(微信 cyfyifanchen)加入社群。


https://github.com/rte-design/ASTRA.ai


RTE 开发者社区也会持续关注 voice AI 和语音驱动的下一代人机交互界面,并且会举办线下或线上开发者 meetup 活动。如果你对此有浓厚兴趣,也期待和更多开发者交流,欢迎加入我们的社区(加微信 bob_fu),一同探索人和 AI 的实时互动新范式。




用户头像

声网

关注

还未添加个人签名 2021-02-05 加入

声网(NASDAQ:API)成立于2014年。开发者可通过声网API,在应用内构建多种实时音视频互动场景。使用声网服务的包括小米、陌陌、斗鱼、哔哩哔哩、新东方、小红书、HTC VIVE 、Yalla等遍布全球的巨头、独角兽企业。

评论

发布
暂无评论
Voice agent connected!回顾一场 24 小时的黑客松_声网_InfoQ写作社区