写点什么

马斯克宣布“全球最大 AI 训练集群”投入使用!苹果、Mistral AI、英伟达、OpenAI 加入小模型争霸赛!|AI 日报

作者:可信AI进展
  • 2024-07-24
    浙江
  • 本文字数:2597 字

    阅读完需:约 9 分钟

文章推荐

万字长文年中盘点,2024上半年大模型技术突破与应用展望

“人工智能教母”李飞飞创立的公司现估值10亿美元!字节将于明日首次公布视频大模型进展?|AI日报

今日热点

由 10 万个英伟达 H100 GPU 打造,马斯克宣布“全球最大 AI 训练集群”投入使用

马斯克宣布,孟菲斯超级计算机集群(Memphis Supercluster)于 7 月 22 日凌晨 4:20 开始进行训练,并在 X 上特别感谢 xAI 团队、X 团队、英伟达及其支持公司所做的贡献。

马斯克介绍,该集群配备了 10 万个英伟达 H100 GPU,采用液冷散热,并使用单一的 RDMA 网络互连架构,是全世界最强大的 AI 训练集群。

从 GPU 规模上来看,这一集群已经全面超越了最新 Top500 榜单上的任何一台超级计算机,包括世界上最强的 Frontier(37888 个 AMD GPU)、Aurora(60000 个 Intel GPU)和微软 Eagle(14400 个 Nvidia H100 GPU)。

马斯克还透露,其目标是“在今年 12 月前训练出世界上最强大的人工智能(Grok3)”

https://www.ithome.com/0/783/616.htm

阿里云正式亮相巴黎奥运会!

阿里云官方正式宣布,阿里云以 AI 驱动的云计算技术全面支撑巴黎奥运会“云上全球转播”!

通过实现云上 AI 多镜头回放、超高清视频传输与海量赛事内容编辑,阿里云将为奥运转播带来更精彩的观赛体验。

目前,阿里云官宣画面已登陆巴黎戴高乐机场,并同步亮相于北京、上海、深圳、杭州等地。

https://mp.weixin.qq.com/s/VOMxXojMM7dNOATDJukeTw

谷歌发布全新的 AI 天气预测模型 NeuralGCM :运行成本更低、预测更准

谷歌公司最新发布了名为 NeuralGCM 的全新 AI 模型,结合机器学习和传统技术,构建了全新的 AI 天气预测模型,相关成果于昨日发表在《Nature》期刊上。

谷歌公司表示相比较其它纯粹基于机器学习的天气预报模型,NeuralGCM 的特点在于成本更低,在预报未来 1-10 天天气方面准确度更高。

研究报告的共同作者、谷歌研究公司的斯蒂芬・霍耶尔(Stephen Hoyer)表示,NeuralGCM 模型是开源的,用户可以在笔记本电脑上相对快速地运行。

https://www.ithome.com/0/783/583.htm

英伟达离不开中国:或将推出全新“特供版”B20 芯片

今年 3 月 30 日,美国升级对华芯片出口禁令,表示将对中国出口的 AI 半导体产品采取“逐案审查”政策规则,全面限制英伟达、AMD 以及更多更先进 AI 芯片和半导体设备向中国销售。

黄仁勋称,由于技术限制,中国数据中心业务已经显著降低,将继续尽最大可能服务中国客户。“我们在中国的数据中心收入与 10 月份实施新的出口管制限制之前的水平相比大幅下降。”

尽管美国政府加大对华半导体管制力度,但美国 AI 芯片巨头“英伟达”却无法放弃中国市场。

钛媒体 App7 月 22 日消息,据报道,英伟达(NVIDIA)正在为中国市场联合开发一款基于 Blackwell 架构的新款旗舰 AI 芯片,该芯片将符合美国出口管制相关规定,该芯片被命名为“B20”。但报道未提及该 AI 芯片的性能表现或参数信息。

对此,7 月 22 日午间,英伟达方面向钛媒体 App 表示不予置评。

https://www.tmtpost.com/7176956.html

AI 炒菜机器人公司橡鹿科技再获京东近 2 亿元战略投资

据橡鹿科技官方披露,公司再获京东近 2 亿元战略投资并达成全面战略合作。基于双方的 AI 技术和产业优势,二者将共同促进“机器人+”产业的高质量发展。

橡鹿科技表示,公司将继续扩大建设行业最大的 AI 炒菜机器人工厂,全面提高工厂的产线自动化、检测自动化水平;同时积极寻求在长江以北建立第二生产基地,用以提高对北方和长三角客户的响应及发货速度,满足客户日益增长的出货需求。

公司将继续加大研发投入,重点布局视觉、传感器检测等技术在炒菜机器人上的应用。打造基于视觉的全球领先新一代 AI 炒菜机器人,将于 2025 年正式推出。

https://www.ithome.com/0/783/358.htm

苹果发布 DCLM-7B 开源模型,性能已经超越 Mistral-7B

DCLM-Baseline-7B 是一个基于 DCLM-Baseline 数据集训练的 70 亿参数语言模型。该数据集是作为 DataComp for Language Models (DCLM) 基准的一部分精心策划的,强调了数据质量对模型性能的重要性。

DCLM-7B 的主要特点:

  • 参数数量:70 亿个参数

  • 训练数据:2.5 万亿个 token

  • 初始上下文长度:2048 个标记

  • 扩展上下文长度:8K 个 token(更新版本中)

  • 许可证:Apple ASCL(类似于 MIT 许可证)

  • 可用性:可在 Hugging Face 上公开访问


DCLM-7B 以 Apple ASCL 许可证发布,表明 Apple 有意为开源 AI 社区做出贡献。

此举允许研究人员和开发人员自由使用、修改和分发该模型,从而有可能加速自然语言处理和理解的进步。

https://anakin.ai/blog/dclm-7b/

Mistral AI 联手英伟达发布 12B 参数小模型 Mistral Nemo,性能赶超 Gemma 2 9B 和 Llama 3 8B

近日,Mistral AI 联手英伟达共同发布 12B 参数小模型 Mistral Nemo,Mistral NeMo 提供高达 128k 个 token 的大型上下文窗口。其推理、世界知识和编码准确性在同类规模中处于领先地位。

由于它依赖于标准架构,Mistral NeMo 易于使用,并且可以在任何使用 Mistral 7B 的系统中直接替代。

下表比较了 Mistral NeMo 基础模型与两个最近开源的预训练模型 Gemma 2 9B 和 Llama 3 8B 的准确率,Mistral Nemo 均已超过。

Mistral Nemo 模型特点:

  • 该模型专为全球多语言应用而设计。它经过函数调用训练,具有较大的上下文窗口,尤其擅长英语、法语、德语、西班牙语、意大利语、葡萄牙语、中文、日语、韩语、阿拉伯语和印地语。


  • Mistral NeMo 使用基于 Tiktoken 的新标记器 Tekken,该标记器已针对 100 多种语言进行训练,并且比以前的 Mistral 模型中使用的 SentencePiece 标记器更有效地压缩自然语言文本和源代码。


  • Mistral NeMO 经历了高级微调和调整阶段。与 Mistral 7B 相比,它在遵循精确指令、推理、处理多轮对话和生成代码方面表现得更好。

https://mistral.ai/news/mistral-nemo/

OpenAI 正式上架新一代入门级别人工智能“小模型”GPT-4o mini,价格显著下降

近日,OpenAI 推出 GPT-4o mini,称其是最具成本效益的小型模型。

GPT-4o mini 在文本智能和多模态推理方面的学术基准测试中超越了 GPT-3.5 Turbo 和其他小型模型,并且支持的语言范围与 GPT-4o 相同。

它还在函数调用方面表现出色,这可以使开发人员构建获取数据或使用外部系统采取行动的应用程序,并且与 GPT-3.5 Turbo 相比,它的长上下文性能有所提高。

GPT-4o mini 现已作为文本和视觉模型在 Assistants API、Chat Completions API 和 Batch API 中提供。开发人员每 100 万个输入令牌支付 15 美分,每 100 万个输出令牌支付 60 美分(大约相当于标准书籍的 2500 页)。

在 ChatGPT 中,免费版、Plus 版和团队版用户将能够使用 GPT-4o mini,以替代 GPT-3.5。

https://openai.com/index/gpt-4o

用户头像

分享SPG,AGL,ACE和LLM在金融领域的进展。 2023-12-25 加入

还未添加个人简介

评论

发布
暂无评论
马斯克宣布“全球最大AI训练集群”投入使用!苹果、Mistral AI、英伟达、OpenAI加入小模型争霸赛!|AI日报_人工智能_可信AI进展_InfoQ写作社区