写点什么

ChatGPT 支持语音实时搜索;Meta Ray-Ban 智能眼镜新增视频识别与实时语音翻译功能丨 RTE 开发者日报

作者:声网
  • 2024-12-17
  • 本文字数:3717 字

    阅读完需:约 12 分钟


开发者朋友们大家好:


这里是 「RTE 开发者日报」 ,每天和大家一起看新闻、聊八卦。我们的社区编辑团队会整理分享 RTE(Real-Time Engagement) 领域内「有话题的 新闻 」、「有态度的 观点 」、「有意思的 数据 」、「有思考的 文章 」、「有看点的 会议 」,但内容仅代表编辑的个人观点,欢迎大家留言、跟帖、讨论。


本期编辑:@SSN,@鲍勃

01 有话题的新闻

1、Gemini 2.0 引入多语言原生音频输出


Google Deepmind 展示了 Gemini 2.0 Flash Experimental 的原生音频能力。视频中,Gemini 2.0 可以切换不同语言、使用不同语速、语调和情感说话;还支持使用 Prompt 的方式控制语音的输出结果。(@ Google Deepmind@X)


2、谷歌文生图 AI 模型 Imagen 3 再进化:多样艺术风格、构图更平衡



谷歌公司昨日(12 月 16 日)发布博文,在发布 Veo 2 视频生成模型之外,还增强了 Imagen 3 文生图 AI 模型,为用户带来更多花样的艺术风格。


谷歌表示 Imagen 3 是谷歌最强的文生图模型,在最新版本中添加了现实主义、幻想主义、肖像画等各种多样化艺术风格,并更精准地基于提示词转换,可以生成更明亮、构图更平衡的视觉效果。


谷歌 Imagen 3 还带来了更丰富的纹理、进一步增强了图片细节,在官方放出的测试中,超过了 OpenAI 的 DALL-E3 和 Flux 等主流模型。(@IT 之家)

02 有亮点的产品

1、月之暗面 Kimi 视觉思考版上线:基于 k1 模型打造 可识别图片内容



月之暗面旗下人工智能助手 Kimi 已上线新功能——视觉思考版。这一更新使得 Kimi 能够对用户发送的图片进行细致的观察和深入分析,揭示图片背后的秘密。用户现在可以直接向 Kimi 提出问题,利用其视觉思考能力来解答疑惑。


据报道,Kimi 的视觉思考功能基于 k1 视觉思考模型打造,这使得它能够对图片内容进行智能分析,为用户提供准确的反馈。


例如,用户可以询问 Kimi 关于他们即将拍摄的照片的地点,Kimi 将根据图片内容给出猜测。此外,用户还可以发送截图给 Kimi,请求帮助解答图中的题目。这项新功能不仅增强了 Kimi 的交互能力,也为用户提供了更加直观和便捷的服务体验。(@AIbase 基地)


2、ChatGPT AI 搜索免费开放


北京时间今天凌晨,在 OpenAI 第八场发布会上 ,宣布向全球用户免费开放 ChatGPT Search。


本次更新的主要亮点包括:


  • 高级语音模式现已支持实时网页搜索,并支持多语言实时翻译

  • ChatGPT 能够智能判断是否需要执行网页搜索,用户也可通过点击 🌐 图标手动触发搜索

  • 搜索结果中的视频可直接在 ChatGPT 聊天窗口中播放

  • 支持将 ChatGPT Search 设为默认浏览器,提升网页导航效率

  • 移动端搜索结果优化显示,包含完整商业信息描述和丰富视觉内容

  • iOS 设备集成原生苹果地图体验


根据投资公司 Evercore 在 9 月份对 1300 人进行的一项调查,有 8% 的受访者选择 ChatGPT 而不是 Google 作为他们首选的搜索引擎,相比之下,6 月份这一比例仅为 1%。那时更专业的 ChatGPT Search 功能尚未正式发布,便已经能从搜索市场份额身上撕咬下一块肉,收获如此多的忠实拥趸。


上个月,外媒 The Information 披露,OpenAI 正在筹划一款新产品,旨在将 AI 聊天机器人和网络浏览器相结合,为旅游、餐饮和房地产等领域的网站提供搜索功能。为了实现这一目标,OpenAI 甚至早些时候不惜重金挖来了 Google Chrome 团队的创始成员之一 Ben Goodger。(@ APPSO)


3、苹果将推出可折叠 iPad



近日,据彭博社记者 Mark Gurman 最新一期报道,苹果将在 2028 年推出可折叠 iPad,同时还将带来多款产品。


Gurman 提到,苹果目前正在研发一款介于手机和平板电脑、笔记本电脑的新形态产品,此款产品将会是可折叠的巨型 iPad,展开形态的尺寸可达两台 iPad Pro 并排的大小。


这款可折叠 iPad 目前已在内部打磨多年,并计划于 2028 年推向市场。Gurman 还猜测其将运行 iPadOS 的变体版版系统,甚至还将支持 MacOS 的软件。


Gurman 还透露了两款新产品,一款是新一代妙控鼠标。Gurman 的报道指出,苹果近几个月来一直在对妙控鼠标进行「全面改造」,使其设计「更适合现代」。Gurman 新的妙控鼠标会使用时会更加舒适,并且还会解决充电口的问题。不过他也表示,新款的妙控鼠标预计不会在「未来 12 到 18 个月」内发布,这意味着新的妙控鼠标至少要到 2026 年才能发布。


另外一款产品则是新款 AirTag ,该产品将配备新的 UWB 超宽频芯片,将定位范围提升至现有 AirTag 的三倍。(@ APPSO)


4、Meta 智能眼镜 Ray-Ban Meta 升级:实时 AI 视频与翻译功能


Meta 公司宣布对其 Ray-Ban Meta 智能眼镜进行了一次重大的更新,推出了多项基于人工智能的新功能,包括实时对话和语言翻译。这些新功能现已向美国和加拿大的早期体验用户开放,用户可以下载最新的固件版本 v11。


这次更新中最引人注目的 「实时 AI」 功能首次在秋季的 Meta Connect 开发者大会上亮相。该功能允许用户与 Meta 的 AI 助手进行持续对话,用户无需每次都说 「嘿,Meta」 来唤醒助手,而是可以随时打断 AI 进行后续提问或换话题。此外,用户还可以在佩戴眼镜时实时询问周围的环境,例如询问他们附近有什么。


在智能眼镜的实时 AI 视频功能上,Meta 已成为市场上的佼佼者。这项技术可以让用户在观看某物时询问 Meta 的 AI 关于该物品的信息,从而实现信息的即时获取。与之类似的技术,谷歌也计划推出 AR 眼镜,但尚未明确推出时间。


除了实时 AI 视频,固件 v11 还引入了实时翻译功能,支持英语与西班牙语、法语和意大利语之间的即时翻译。当用户与说这些语言的人交谈时,眼镜会通过开放耳扬声器将对方的讲话翻译成英语,并在用户的配对手机上显示文本内容。


此外,这次更新还新增了 Shazam 支持功能,用户只需说 「嘿,Meta,识别这首歌」,眼镜便会尝试找到正在播放的音乐。尽管 Meta 对新功能充满信心,但仍提醒用户,实时 AI 和实时翻译可能会出现错误,Meta 表示会不断学习和改进,以提升用户体验。


值得一提的是,在去年 11 月,Meta 曾为 Ray-Ban Meta 推出过一次重大更新,向法国、意大利和西班牙的用户推出了一些 AI 能力。根据埃西洛尔 - 鲁克特(EssilorLuxottica)最近的报告,Ray-Ban Meta 在欧洲、中东和非洲的 60% 门店中成为了最畅销的眼镜品牌。(@AIbase 基地)

03 有态度的观点

1、前谷歌 CEO 埃里克-施密特:2-4 年后人工智能可能开始自我完善,我们应该考虑拔掉插头


埃里克-施密特在 Axios 的采访中提到说:「我们很快就能让计算机自行运行,决定自己要做什么。」


他说,当系统开始 「自我完善 」时,可能就是考虑关闭系统的时候了。当被问及一个强大的系统是否能对抗关闭它的努力时,施密特对美国广播公司的乔治-斯特凡诺普洛斯说:「从理论上讲,我们最好有人能把手放在插头上。」


他补充道:「这种智能的力量......意味着每个人的口袋里都将有一个相当于多面手的东西...我们只是不知道赋予每个人这种能力意味着什么。」


许多业内专家都对匆忙开发生成式人工智能的风险提出了警告。


施密特去年告诉《Axios》杂志,根据一些专家的说法,计算机做出自己的决定可能只需要两到四年的时间。


Axios 的迈克-艾伦(Mike Allen)和吉姆-范德海(Jim VandeHei)报道说,生成式人工智能的支持者和反对者都一致认为,最强大的模型最快明年就能以博士生的智力运行。


施密特告诉美国广播公司(ABC),在一两年内,系统也许就能自己做研究了。(@ Chubby@X)


2、诺贝尔物理学奖得主:AI 的发展应回归生物学


近日,诺奖得主 Hinton 在 Vector's Remarkable 2024 中发表了最新演讲,并认为 AI 得发展应回归生物学。


Hinton 在演讲中提到,要实现硬件制造的高效率,AI 或许应该回归生物学的本源,并利用现代基因工程技术将神经元转化为人类所需的计算单元。Hinton 还认为使用模拟计算将拥有显著的优势,尤其是在追求低功耗方面。


Hinton 还在问答环节提到,不要开放大模型的源代码。被问到 AI 是否发展速度过快时,Hinton 认为放慢发展速度既不现实,也不是关注的重点。大众真正应该关注的是,如何确保 AI 的发展是仁慈且和谐共生的,以便人类能够应对 AI 可能带来的生存威胁。(@ APPSO)



更多 Voice Agent 学习笔记:


帮助用户与 AI 实时练习口语,Speak 为何能估值 10 亿美元?丨Voice Agent 学习笔记


市场规模超 60 亿美元,语音如何改变对话式 AI?


2024 语音模型前沿研究整理,Voice Agent 开发者必读


从开发者工具转型 AI 呼叫中心,这家 Voice Agent 公司已服务 100+客户


WebRTC 创建者刚加入了 OpenAI,他是如何思考语音 AI 的未来?


人类级别语音 AI 路线图丨 Voice Agent 学习笔记


语音 AI 革命:未来,消费者更可能倾向于与 AI 沟通,而非人工客服


语音 AI 迎来爆发期,也仍然隐藏着被低估的机会丨 RTE2024 音频技术和 Voice AI 专场


下一代 AI 陪伴 | 平等关系、长久记忆与情境共享 | 播客《编码人声》


Voice-first,闭关做一款语音产品的思考|社区来稿


写在最后:


我们欢迎更多的小伙伴参与「RTE 开发者日报」内容的共创,感兴趣的朋友请通过开发者社区或公众号留言联系,记得报暗号「共创」。


对于任何反馈(包括但不限于内容上、形式上)我们不胜感激、并有小惊喜回馈,例如你希望从日报中看到哪些内容;自己推荐的信源、项目、话题、活动等;或者列举几个你喜欢看、平时常看的内容渠道;内容排版或呈现形式上有哪些可以改进的地方等。



素材来源官方媒体/网络新闻

用户头像

声网

关注

还未添加个人签名 2021-02-05 加入

声网(NASDAQ:API)成立于2014年。开发者可通过声网API,在应用内构建多种实时音视频互动场景。使用声网服务的包括小米、陌陌、斗鱼、哔哩哔哩、新东方、小红书、HTC VIVE 、Yalla等遍布全球的巨头、独角兽企业。

评论

发布
暂无评论
ChatGPT 支持语音实时搜索;Meta Ray-Ban 智能眼镜新增视频识别与实时语音翻译功能丨 RTE 开发者日报_声网_InfoQ写作社区