写点什么

OpenAI 发布 GPT-4o mini;FasterLivePortrait 支持实时表情转移丨 RTE 开发者日报

作者:声网
  • 2024-07-19
    重庆
  • 本文字数:1928 字

    阅读完需:约 6 分钟

OpenAI 发布 GPT-4o mini;FasterLivePortrait 支持实时表情转移丨 RTE 开发者日报


开发者朋友们大家好:


这里是 「RTE 开发者日报」 ,每天和大家一起看新闻、聊八卦。


我们的社区编辑团队会整理分享 RTE(Real-Time Engagement) 领域内「有话题的新闻」、「有态度的观点」、「有意思的数据」、「有思考的文章」、「有看点的会议」,但内容仅代表编辑的个人观点,欢迎大家留言、跟帖、讨论。


本期编辑:@JLT,@鲍勃

一、有话题的新闻

1、OpenAI 发布 GPT-4o mini 大模型


OpenAI 官宣推出 GPT-4o mini,这是 GPT-4o 更小参数量的简化版本。即日起,ChatGPT 的免费用户、Plus 用户和 Team 用户都能够使用 GPT-4o mini 而并非 GPT-3.5 Turbo,企业用户在下周也将获得 GPT-4o mini 的权限。


GPT-4o mini 主打低成本和快速响应能力,可以支持需要连续或同时调用多个模型的应用程序,能够处理大量上下文信息,以及通过快速实时的文本回复与客户进行互动,能够处理多达 128K token 的长上下文,知识库截止日期为 2023 年 10 月份,对非英文内容支持更友好。


GPT-4o mini 目前在 API 中提供了文本和图像处理能力,后续还将逐步增加对视频和音频的支持。(@爱范儿)


2、微软发布 iOS / 安卓正式版 Designer 应用:可 AI 修图、生成贺卡等


微软在 iOS / Android 平台上推出了 AI 设计应用 Designer 的预览版,该应用允许用户通过模版创建自定义图像、贴纸、贺卡、邀请函等,还能实现 AI 编辑、重新设计图像的进阶功能,用户可以免费使用 15 次进阶功能,Copilot Pro 订阅用户可以获得 100 次。


Designer 最初可以在网页端和微软自家 Edge 浏览器上使用,现在拥有个人微软账户的用户都可以在 Windows、iOS 和 Android 平台使用其免费程序。


除了独立的应用,微软也在 Word、PowerPoint 中的 Copilot 助手添加了 Designer 支持,Copilot Pro 订阅者可以使用。(@爱范儿)


3、英伟达联合发布 Mistral-NeMo AI 模型:120 亿参数、上下文窗口 12.8 万个 token


英伟达联合法国初创公司 Mistral AI,发布了全新的 Mistral-NeMo AI 大语言模型,拥有 120 亿个参数,上下文窗口(AI 模型一次能够处理的最大 Token 数量)为 12.8 万个 token。


Mistral-NeMo AI 大模型主要面向企业环境,让企业不需要使用大量云资源的情况下,实施人工智能解决方案。由于 Mistral NeMo 依赖于标准架构,因此企业在使用过程中可直接替换任何使用 Mistral 7B 的系统。( @CSDN)


4、Haiper AI 视频模型更新,可生成 8 秒视频


Haiper AI 推出了其视频生成模型的升级版:Haiper 1.5。Haiper AI 由前谷歌 DeepMind 精英 Yishu Miao 和 Ziyu Wang 携手创立,Haiper 1.5 允许用户从文本、图像和视频提示生成长达 8 秒的片段,显著提升了内容生成的深度和广度。


Haiper 1.5 的核心亮点在于显著增强的视频生成能力。用户如今可以根据文本、图像及视频线索,轻松创作出长达 8 秒的视频片段,相较于初版模型,生成时长直接翻倍。此外,Haiper 1.5 还创新性地引入了上采样功能,允许用户通过一键操作将所有视频生成提升到 1080p,而不干扰现有的工作流程。(@聚大模型前言)


5、FasterLivePortrait:支持实时推理的表情转移


FasterLivePortrait 是基于 LivePortrait 的一个实现,在原有的功能上增加了:


  • TensorRT 实时运行:RTX 3090 上渲染速度达到 30+ FPS

  • Onnx 模型转换:onnxruntime-gpu + RTX 3090 推理速度约为 70ms/帧(约 12 FPS)

  • 原生 gradio app 支持:运行速度显著提升,并且能够同时对多张人脸进行推理(@三花 AI)

二、有态度的观点

1、谷歌 DeepMind Alex Irpan:大语言模型在面对现实世界时,会遇到与机器人学类似的问题


Alex Irpan 是谷歌 DeepMind 的机器人科学家,曾参与 SayCan、RT-1、RT-2 等具身智能项目。他指出,机器人学的难题并非机器人独有,这是由于其与现实世界的紧密连接和复杂性造成的。机器人必须处理不完美的感知和执行,以及全局可变状态的问题,这些问题也同样适用于大语言模型等技术。


游戏 AI 在面对特定策略时也可能受到挑战,正如一些围棋 AI 被特定策略击败。Irpan 还讨论了 LLM 在与现实世界交互时遇到的问题,以及人们对于模型是否已经证明了自己的评估问题。他认为,随着 AI 在日常生活中的应用越来越广泛,社会对于模型的评估和理解将变得更加重要。他预测,机器人学家将在这些挑战中走在前列,因为他们已经在处理这些问题上积累了经验。(@AI 科技评论)


写在最后:


我们欢迎更多的小伙伴参与「RTE 开发者日报」内容的共创,感兴趣的朋友请通过开发者社区或公众号留言联系,记得报暗号「共创」。


对于任何反馈(包括但不限于内容上、形式上)我们不胜感激、并有小惊喜回馈,例如你希望从日报中看到哪些内容;自己推荐的信源、项目、话题、活动等;或者列举几个你喜欢看、平时常看的内容渠道;内容排版或呈现形式上有哪些可以改进的地方等。



素材来源官方媒体/网络新闻

用户头像

声网

关注

还未添加个人签名 2021-02-05 加入

声网(NASDAQ:API)成立于2014年。开发者可通过声网API,在应用内构建多种实时音视频互动场景。使用声网服务的包括小米、陌陌、斗鱼、哔哩哔哩、新东方、小红书、HTC VIVE 、Yalla等遍布全球的巨头、独角兽企业。

评论

发布
暂无评论
OpenAI 发布 GPT-4o mini;FasterLivePortrait 支持实时表情转移丨 RTE 开发者日报_声网_InfoQ写作社区