写点什么

AI 日报|谷歌发布 Astra 反击 GPT-4o,字节发布 9 个自研大模型,腾讯混元开源文生图大模型...

作者:可信AI进展
  • 2024-05-17
    浙江
  • 本文字数:2018 字

    阅读完需:约 7 分钟

文章推荐

GPT-4o重磅发布,第一时间用户测评,OpenAI也存在夸张宣传?


OpenAI直播倒计时,GPT-5被证缺席,GPT-3.5至5,一文看懂AI进化大不同!


本期热点


谷歌召开 I/O 2024:发布 Project Astra 反击 GPT-4o,Gemini 系列模型大更新


联合创始人兼 AI 先驱 Ilya Sutskever 离开 OpenAI


美国和中国将举行人工智能安全谈判,以防止“误判和意外冲突”


字节跳动正式发布自研豆包大模型系列,“比行业便宜 99.3%”


升级对标 Sora,腾讯混元开源文生图大模型


...

谷歌 I/O 2024:发布 Project Astra 反击 GPT-4o,Gemini 系列模型大更新

在 Google I/O 2024 大会上,谷歌分享了如何利用 AI 构建更有用的产品和功能,大会包含以下分享内容:


  • Gemini 系列模型更新:


Gemini 1.5 Pro 升级:将上下文窗口扩展到 200 万个 token,还通过数据和算法的进步增强了其代码生成、逻辑推理和规划、多轮对话以及音频和图像理解。Gemini 1.5 Pro 升级,可以遵循日益复杂和细致的指令,包括指定涉及角色、格式和风格行为指令。


Gemini 1.5 Flash 发布:1.5 Flash 是 Gemini 模型系列的最新成员,也是 API 中速度最快的 Gemini 模型。它针对大规模大批量、高频的任务进行了优化,服务更具成本效益。


Gemini Advanced:引入 Gemini 1.5 Pro 后可以处理多个大型文档,制定复杂计划,并且将为 Gemini Advanced 订阅者推出 Gemini Live,实现更好语言交互。


  • 发布有视觉记忆的 AI 助手 Project Astra:


它可以实时处理文本、视频和音频,能够回答有关对方的问题并解释它们,或生成创意输出,并且可以识别和解释白板上的图表或程序代码。


  • 对标 Sora,推出视频生成模型 Veo:


Veo 可以生成超过一分钟高质量 1080p 分辨率视频,具有多种电影和视觉风格。并且可以准确地捕捉提示的细微差别和基调,提供前所未有的创意控制水平—理解各种电影效果的提示,例如延时或风景的空中拍摄。


  • Google Search AI 发布 AI Overviews:


基于定制的 Gemini 模型的多步推理功能,AI Overviews 将有助于解决日益复杂的问题。无需将问题分解为多个搜索,可以一次性提出最复杂的问题,以及您想到的所有细微差别和注意事项。


  • Gemma family 加入新成员:


第一个视觉语言开放模型 PaliGemma,针对图像字幕、视觉问答和其他图像标记任务进行了优化。


下一代开放模型 Gemma2 将于今年 6 月发布,性能优于一些尺寸超过其两倍的模型,并且可以在 GPU 或 Vertex AI 中的单个 TPU 主机上高效运行。


了解详情:


https://blog.google/inside-google/message-ceo/google-io-2024-keynote-sundar-pichai/

联合创始人兼 AI 先驱 Ilya Sutskever 离开 OpenAI

OpenAI 的联合创始人兼开创性 AlexNet 论文的合著者 Ilya Sutskever 在近 10 年后离开公司,去追求一个对其“个人有重要意义”的新项目。Jakub Pachocki 将接任研究主管一职,Jakub 在 OpenAI 工作了 7 年多,被首席执行 Sam Altman 描述为他这一代最杰出的思想家之一。根据 Sam 的说法,他领导了公司的大部分重大项目。2022 年 11 月,Ilya 参与了首席执行官 Sam Altman 的临时罢免,后者因强制商业化和相关安全风险而受到批评。然而,调查发现解雇是没有根据的。Ilya 道歉,帮助恢复了 Altman 的职位,然后离开了董事会。在 Ilya 辞职几小时后,AI 安全研究员 Jan Leike 也宣布了离开。Leike 与 Ilya 共同领导了 OpenAI 在 2023 年夏天成立的 Superalignment 团队,目标是逐步迭代对齐超级智能,创造一位与人类能力相当的自动化对齐研究员。


了解详情:


https://the-decoder.com/co-founder-and-ai-pioneer-ilya-sutskever-leaves-openai/

字节跳动正式发布自研豆包大模型系列,“比行业便宜 99.3%”

今日举办的 2024 春季火山引擎 FORCE 原动力大会上,字节跳动重磅推出了其自研的“豆包大模型”系列。这款大模型家族涵盖了豆包通用模型 Pro、liti,以及豆包·角色扮演模型、豆包·语音合成模型、豆包·声音复刻模型、豆包·语音识别模型、豆包·文生图模型、豆包·Function Call 模型等九大模型,全面展现了字节跳动在人工智能领域的深厚积累和创新能力。“大的使用量,才能打磨出好模型,也能大幅降低模型推理的单位成本。豆包主力模型在企业市场的定价只有 0.0008 元/千 Tokens,0.8 厘就能处理 1500 多个汉字,比行业便宜 99.3%。”谭待表示,大模型从以分计价到以厘计价,将助力企业以更低成本加速业务创新。


了解详情:


https://mp.weixin.qq.com/s/WPs7Gt3Dt_SqkN1PJXsmmw

升级对标 Sora,腾讯混元开源文生图大模型

腾讯宣布旗下的混元文生图大模型升级并对外开源,目前已经在 Hugging Face 及 Github 上发布,包含模型权重、推理代码、模型算法等完整模型,可供企业与个人开发者免费商用。升级后的混元文生图大模型采用了与 Sora 一致的 DiT 架构,腾讯表示,混元 DiT 是首个中英双语 DiT 架构。混元 DiT 是一个基于 Diffusion transformer 的文本到图像生成模型,此模型具有中英文细粒度理解能力,混元 DiT 能够与用户进行多轮对话,根据上下文生成并完善图像。这也是业内首个中文原生的 DiT 架构文生图开源模型,支持中英文双语输入及理解,参数量 15 亿。


了解详情:


https://www.ithome.com/0/767/876.htm


如有侵权,请联系删除。


发布于: 刚刚阅读数: 4
用户头像

分享SPG,AGL,ACE和LLM在金融领域的进展。 2023-12-25 加入

还未添加个人简介

评论

发布
暂无评论
AI日报|谷歌发布Astra反击GPT-4o,字节发布9个自研大模型,腾讯混元开源文生图大模型..._可信AI进展_InfoQ写作社区