写点什么

结合多模态 AI 谷歌展示 AR 眼镜原型机;Meta 被曝开发带摄像头的 AI 耳机丨 RTE 开发者日报 Vol.204

作者:声网
  • 2024-05-15
    四川
  • 本文字数:2285 字

    阅读完需:约 7 分钟

结合多模态 AI 谷歌展示 AR 眼镜原型机;Meta 被曝开发带摄像头的 AI 耳机丨 RTE 开发者日报 Vol.204


开发者朋友们大家好:


这里是 「RTE 开发者日报」,每天和大家一起看新闻、聊八卦。我们的社区编辑团队会整理分享 RTE(Real Time Engagement) 领域内「有话题的新闻」、「有态度的观点」、「有意思的数据」、「有思考的文章」、「有看点的会议」,但内容仅代表编辑的个人观点,欢迎大家留言、跟帖、讨论。


本期编辑:@CY,@JLT,@鲍勃

01 有话题的新闻

1、结合自家多模态 AI 助手「Project Astra」,谷歌 I/O 大会展示 AI+AR 眼镜原型机


今日凌晨,谷歌召开了其 2024 I/O 大会,本次大会核心围绕 AI,并展示了 Gemini、AI Overviews、Ask Photos 等新产品或新能力。


在这过程中,谷歌展示了一个结合了自家多模态 AI 助手「Project Astra」的 AR 眼镜演示视频片段。据了解,Project Astra 除了拥有常见多模态 AI 大模型的音频、文本以及视觉处理能力外,它还能记住并且推理它所看到的一切。


谷歌表示,Astra 的工作原理是「连续编码视频帧,将视频和语音输入组合到事件时间线中,并缓存这些信息以进行有效调用」。(@陀螺科技)


2、OpenAI 联合创始人兼首席科学家伊利亚·苏茨克沃将离职


北京时间 5 月 15 日早间,OpenAI 联合创始人伊利亚·苏茨凯弗(Ilya Sutskever)在社交媒体平台上宣布,他将在近十年后离开公司。苏茨凯弗称:「我对接下来的事情感到兴奋——这是一个对我个人非常有意义的项目,我将在适当的时候分享细节。」


在苏茨凯弗离职之际,奥特曼在社交媒体上表达了自己的想法。他写道:「这让我感到很难过,伊利亚无疑是我们这一代最伟大的人之一,是我们这个领域的一盏指路明灯,也是一位亲爱的朋友。他的才华和远见是众所周知的,但他的热情和同情心同样重要。」与此同时,奥特曼还宣布了雅各布·帕奇科(Jakub Pachocki)为该公司新一任的首席科学家。(@腾讯科技)


3、传 Meta 正开发内置摄像头 AI 耳机,可识别物体翻译外语


5 月 14 日消息,据 The Information 报道,Meta 正在探索开发带有摄像头的 AI 耳机,希望这种设备能用来识别物体和翻译外语。


三位「内部人士」透露,该项目的内部代号为 Camerabuds,目前还不清楚该产品的最终设计会是入耳式耳机还是头戴式耳机,不过 Meta 的 CEO 扎克伯格已经尝试过几种可能的设备设计,但他对这些产品原型都不满意。内部人士表示,Meta 公司领导层原本预计在今年第一季度正式批准一款原型设计,但许多测试人员发现大量问题,包括长发可能会遮挡耳机上的摄像头、耳机重量太大、续航太短、发热影响体验等。


除了 Meta 外,几家其他科技公司也在研发 AI 可穿戴设备,包括 Humane 和 Rabbit 在内的几家初创公司最近也推出了自家「AI 专用设备」,Meta 内部人士表示,包括扎克伯格等 Meta 领导层目前都希望加速 AI 耳机的开发过程,因为他们相信 Meta 的竞争对手也将开发类似的设备。(@搜狐科技)


4、腾讯混元文生图模型全面开源,包含模型权重、推理代码、模型算法等完整模型


5 月 14 日,腾讯宣布旗下的混元文生图大模型全面升级并对外开源,目前已在 Hugging Face 平台及 Github 上发布,包含模型权重、推理代码、模型算法等完整模型,可供企业与个人开发者免费商用。该模型支持中英文双语输入及理解,参数量 15 亿。升级后的混元文生图大模型采用了与 Sora 一致的 DiT 架构,不仅可支持文生图,也可作为视频等多模态视觉生成的基础。(@ CSDN)


5、字节跳动自研大模型家族即将亮相


火山引擎宣布,字节跳动自研大模型家族将于今日 9:30 举办的「2024 春季火山引擎 FORCE 原动力大会」首次亮相。同时,火山引擎大模型服务平台火山方舟也将迎来重大升级。凤凰网科技此前曾报道,字节跳动在 AI 方面的布局,主要集中在 Flow 部门。该部门目前的核心产品有:


AI 对话助手豆包( 海外版为 Cici)对标 GPTs 的 AI bot 开发平台扣子(海外版为 Coze )面向二次元群体的话炉


另外,在组建 Flow 部门前,字节跳动还在大模型上部署了代号为「seed」的团队,专注于模型层的研发。(@爱范儿)


6、苹果 iOS 18 或将推出广告屏蔽功能,英国报纸集团与新闻媒体协会对其发出警告


据外媒报道,苹果正准备在 iOS 18 软件更新中为 Safari 浏览器加入一个基于 AI 的隐私功能,该功能可以删除广告或其他不需要的网站内容。对此英国报纸集团警告苹果公司,推出任何屏蔽广告的「网络橡皮擦「(web eraser)工具,都将使新闻业的财务面临可持续性风险。


NMA(News Media Association、英国新闻媒体协会)向苹果英国政府事务主管表示,这个功能将影响新闻媒体行业在网络上的收入,新闻媒体行业需要资金来运行,而广告是他们的主要收入来源。编辑们则担心 AI 工具会选择性更改或删除文章内容,改变文章原意。目前一些新闻媒体已经在其网页上增加了对广告拦截插件的检测,若检测到广告拦截插件,会要求用户将其关闭,否则将不允许用户继续浏览。(@IT 之家)

02 有态度的观点

1、朱啸虎评 GPT-4o:称大模型技术迭代曲线明显放缓


金沙江创业投资基金主管合伙人朱啸虎点评 GPT-4o,他认为:


1.大模型的技术迭代曲线明显放缓。


2.开始卷免费,说明 GPT 的用户和收入增长都已经碰到瓶颈,不是深度绑定大厂的模型公司基本已经出局。


3.应用会迅速爆发,推理成本再降一个数量级就会普及出现 AI 时代的国民应用。


写在最后:


我们欢迎更多的小伙伴参与「RTE 开发者日报」内容的共创,感兴趣的朋友请通过开发者社区或公众号留言联系,记得报暗号「共创」。


对于任何反馈(包括但不限于内容上、形式上)我们不胜感激、并有小惊喜回馈,例如你希望从日报中看到哪些内容;自己推荐的信源、话题、活动等;或者列举几个你喜欢看、平时常看的内容渠道;内容排版或呈现形式上有哪些可以改进的地方等。



素材来源官方媒体/网络新闻

用户头像

声网

关注

还未添加个人签名 2021-02-05 加入

声网(NASDAQ:API)成立于2014年。开发者可通过声网API,在应用内构建多种实时音视频互动场景。使用声网服务的包括小米、陌陌、斗鱼、哔哩哔哩、新东方、小红书、HTC VIVE 、Yalla等遍布全球的巨头、独角兽企业。

评论

发布
暂无评论
结合多模态 AI 谷歌展示 AR 眼镜原型机;Meta 被曝开发带摄像头的 AI 耳机丨 RTE 开发者日报 Vol.204_声网_InfoQ写作社区