多模态 AI 怎么玩?这里有 18 个脑洞

在 RTE 开发者社区,我们会和大家一起探索全球最前沿的 Real-Time AI 技术,和最有想法的新兴场景。
Google 近期举办了一场名为「MultiModal Hackathon」的限时编程活动,聚焦于 多模态与 Gemini 2.0 的最新能力。活动汇聚了 200 多位开发者,共同探索多模态 AI、实时 AI、生成式视频的前沿应用。
联合组织方 AgentOps AI 的 CEO Alex Reibman 在 X 上分享了活动的 demo 视频片段,并介绍了每一个项目。
其中,既有 Z 世代才想出来的 多模态应用 ,例如梗图翻译器、动漫角色生成器、动动嘴剪出 GIF 图等;也有充分利用对 视觉理解能力 的产品,例如服装购物 AI 助手、AI 物理治疗师等;也有利用 实时对话和视频 能力的作品,譬如通过语调、肢体评测性格的 agent、技术面试官和编程助手等。
一起来欣赏限时创作氛围下,粗糙但是鲜活的创意吧!其中一些说不定会变成未来生活的一部分。
活动网页可查看项目 slide 和 GitHub 仓库:https://app.agihouse.org/events/google-20250118
1.动作到视频:Gesture-to-video 丨第一名
通过结合 Gemini 视频理解和 Veo2 技术,识别视频中的动作,并将这些动作转换成动漫风格的视频内容。
开发者:aliceheimanhttps://x.com/aliceheimanxyz

2. 视频生成对比:Firefly vs Veo2
比较 Adobe Firefly 与 Veo2 对相同提示的输出,与此同时,可能会产生一些有趣的结果。

3.技术面试官:Tech Interview 丨 Windsurf 赛道第三名
结合 Gemini 打造类似 LeetCode 风格的技术面试官和编程助理。
开发者:Rohan Katakamhttps://x.com/rohan_katakam

4.梗图翻译:Meme Lingo
使用 Gemini 多模态视觉,将外语表情包翻译成英语(或选择的任何语言)。Meme Machine Learning!
开发者:Xiaohan Yanghttps://x.com/Azura_xh

5.性格评估:Personality Assessment 丨 AgentOps 赛道获奖作品
能够基于用户的语调和肢体语言来评估其性格特征。

6.推特机器人:Twitter Bot
这是一个从零开始构建,通过 Gemini 2 控制浏览器在推特上发布内容的推特机器人。
开发者:Matthttps://x.com/m13v_

7.Computer Use 智能体:Computer Use Agent

这是一个通过 Gemini Flash 控制并且安全开源的 Computer Use 智能体。
开发者:James Murdzahttps://x.com/jamesmurdza
8.购衣助手:AI Outfit Suggestion
这是一个名为「AI Outfit Suggestion」的 AI 购物助手,它利用人工智能技术提供个性化的服装建议。用户可以简要描述自己和自己的风格,该助手会返回类似的购物商品的亚马逊链接。

9.视频专辑生成:WanderLoom 丨第二名
利用多模态视觉、位置、活动和时间信息,智能生成旅行和生活视频短片。
开发者:Vikram Subbiah、The Why Man (Anand Vallamsetla)https://x.com/tiovikramhttps://x.com/thewhyman

10. AI 老师:TeachMe!
AI 辅导老师,能够帮助测验学生并确保他们在继续学习之前掌握一门学科的所有方面。

11.冥想课程生成器:Personalized Meditation Generator
这款 AI 引导的冥想应用,能够根据您当前的生活状况构建课程。

12.服务中小型商户的广告生成器 Quick and Affordable Ad Creation for SMBs
AI 广告生成器,可接收产品描述并生成针对特定市场段的高质量 Veo2 定制视频。

13.运动补剂分析:Sweat
扫描运动前补剂的标签,立即查看成分、它们的效果以及能量、专注度和耐力等关键品质的分解。此外,还可以阅读评论和查看用户评分。
开发者:sunnyhttps://x.com/SunnyWangAI

14.事实核查服务:Ground Truth 丨第三名
为辩论和可能存疑的视频内容提供实时 YouTube 视频事实核查服务。开发者:Ayush Khandelwal;justinLLM
https://x.com/ayushkhd ;https://x.com/heyjustinai

15. AI 物理治疗师:Evi: AI Physio Therapist
AI 物理治疗师,根据您的状况创建指导性练习,并跟随您的动作来更新计划。

16. AI 生成推特社区笔记:3M
多模态的推特 moderator。AI 角色,负责阅读推文并判断内容是否事实正确或提供背景信息。

17.提示词剪辑视频成动图:GIF Anything
描述一个场景并分享一个视频链接,Gemini 将在幕后剪辑视频以创建一系列可分享的 GIF。
开发者:Frieda Huang、Tom、Devin Ersoyhttps://x.com/JYFHuanghttps://x.com/tomgregorsamsahttps://x.com/DevinErsoy496

18. AI 时代的 Stack Overflow:Trieoverflow 丨 Windsurf 赛道第二名
Stack Overflow 的进化版,它整合了多个网络大型语言模型 LLMs 无法直接引用的资源(如 Discord),并允许用户为他们发现的 bug 添加解答,以帮助遇到相同问题的后续用户。
开发者:Vikranth Kanumuruhttps://x.com/kanlanc

编译:qqq、鲍勃
原文:https://x.com/alexreibman/status/188624035729549729

更多 Voice Agent 学习笔记:
对话 TalktoApps 创始人:Voice AI 提高了我五倍的生产力,语音输入是人机交互的未来
2024,语音 AI 元年;2025,Voice Agent 即将爆发丨年度报告发布
对话谷歌 Project Astra 研究主管:打造通用 AI 助理,主动视频交互和全双工对话是未来重点
这家语音 AI 公司新融资 2700 万美元,并预测了 2025 年语音技术趋势
Gemini 2.0 来了,这些 Voice Agent 开发者早已开始探索……
帮助用户与 AI 实时练习口语,Speak 为何能估值 10 亿美元?丨Voice Agent 学习笔记

评论