写点什么

“多云“和”私有化“,企业级刚需推动 DataBricks 和 MosaicML 的 13 亿美金 AI 交易

作者:B Impact
  • 2023-06-28
    上海
  • 本文字数:1982 字

    阅读完需:约 7 分钟

“多云“和”私有化“,企业级刚需推动 DataBricks 和 MosaicML的13亿美金 AI 交易

撰文|宇婷‍

Databricks 已同意以 13 亿美元收购生成式 AI 创企 MoaicML 。此前 MoaicML 融资 6400 万美元,拥有 62 名员工,在上一轮的融资中,公司估值为 2.2 亿美元,而本次收购中 MosaicML 的估值直接提高近 6 倍。

MosaicML 在生成 AI 软件基础架构、模型训练和模型部署方面拥有专业知识,加上 Databricks 的客户覆盖范围和工程能力,以及对于打破大模型垄断的价值观,和研究者出身的创业家团队,成为 13 亿 交易的基础。

生成 AI 正处于一个关键时期。未来主要依靠少数人拥有的大型通用模型,还是见证由世界各地的开发人员和公司构建自定义的模型?这是 DataBricks 对 MosaicML 收购之外的未解答案。

在安全环境中,在任何云上能够构建 AI 模型,这也是这笔交易成立的关键。MosaicML 平台的架构能够让企业级客户在任何云提供商上训练大规模的 AI 模型,同时数据仍然安全地存储在企业自己的私有网络中。

初创企业和大型企业都可以在训练模型和工作负载时保持最大的自主性。

对于担心数据隐私和安全的组织来说,将企业的数据发送到不一定可靠的第三方 API,尽管大型语言模型(LLMs)和其他先进的 AI 可以带来丰厚的商业机会,一些企业级客户仍然会有所踟蹰。

MosaicML 使企业及厂商能够使用自定义数据进行预训练、微调和部署模型,全部在企业的内部完成。

在完全拥有模型所有权和数据隐私的情况下,金融服务和医疗保健等受监管的行业可以利用自定义大型语言模型(LLMs)的全部能力来处理业务用例,而不会依赖不可靠的第三方 API。

MosaicML 平台是现代 ML 研究不可或缺的工具,它在规模基础设施的复杂性方面进行了抽象,这使得企业能够开发针对性属于自己的 AI 应用之路,在加速模型研发和节省成本的情况下大步开拓。 

1、和 Databricks 的共同审美:研究员转型为企业家,打破 AI 通用模型的垄断

美国时间 6 月 26 日,MosaicML 宣布加入 Databricks,以进一步实现让任何组织能够自定义 AI 模型开发的目标。

主创团队表达,创建 MosaicML 是为了普惠每一个工程师能够享受大规模神经网络训练和推断技术。随着生成 AI 浪潮,这一使命更加确定,而且绝不是把这种能力集中在少数通用模型厂商手中中。

Ali、Patrick 和其他 Databricks 联合创始人接触到 MosaicML 寻求合作时,MosaicML 立即认识到他们是志同道合的人:研究员转型为企业家,共享相似的使命。他们强大的公司文化和工程重点反映了我们认为成熟的 MosaicML 将是什么样子。

这笔交易将受到某些惯例的关闭条件和监管审批的限制,直到这些审查完成,公司将保持独立,MosaicML 主创团队表达对与 Databricks 一起所能做的事情感到兴奋。

MosaicML 旗舰产品将继续销售。对于当前的客户和那些在等待列表上的客户:这种合作会更快地为客户提供服务。MosaicML 的训练、推断和 MPT 家族基础模型,已经为全球企业和开发人员提供生成 AI 支持。

对于 Databricks 而言, MosaicML 在生成 AI 软件基础架构、模型训练和模型部署方面的专业知识,加上 Databricks 的客户覆盖范围和工程能力,将使双方平衡彼此的优势。

MosaicML 的董事会成员 Matt Ocko 在 DCVC,Shahin Farshchi 在 Lux Capital,Peter Barrett 在 Playground Global,等投资者支持了这笔交易。

2、MPT-30B:提高开源基础模型的标准

MPT-30B,这是 MosaicML 开源模型 Foundations Series 中更为强大的新成员,使用 H100s 上的 8k 上下文长度进行训练。

今年 5 月推出 MPT-7B 以来,ML 社区热切地拥抱了开源的 MosaicML Foundation Series 模型。MPT-7B 基础版,-Instruct,-Chat 和-StoryWriter 模型一共被下载了超过 300 万次。

以下是其中的几个:LLaVA-MPT 为 MPT 添加了视觉理解,GGML 在 Apple Silicon 和 CPU 上优化了 MPT,而 GPT4All 则使用 MPT 作为后端模型,在笔记本电脑上运行类似于 GPT4 的聊天机器人。

MosaicML Foundation Series 的 MPT-30B,这是一个新的、授权商用的开源模型,比 MPT-7B 更强大,并且胜过了原始的 GPT-3。

此外,MosaicML 还发布了两个经过微调的变体,MPT-30B-Instruct 和 MPT-30B-Chat,它们是基于 MPT-30B 构建的,分别擅长单轮指令跟随和多轮对话。

所有 MPT-30B 模型都具有特殊功能,使它们与其他 LLM 不同,包括训练时的 8k 令牌上下文窗口,通过 ALiBi 支持更长的上下文,以及通过 FlashAttention 实现高效的推理和训练性能。

MPT-30B 家族还具有强大的编码能力。该模型在 NVIDIA H100s 上扩展到了 8k 上下文窗口,这使它成为(据目前所知)第一个在 H100s 上训练的 LLM。

有几种方法可以使用 MosaicML 平台进行自定义和部署。

*MosaicML 训练通过微调、领域特定的预训练或从头开始训练,使用私有数据自定义 MPT-30B。企业始终拥有最终的模型权重,并且数据永远不会存储在 MosaicML 的平台上。按每 GPU 分钟计费。

*MosaicML 推理:入门版。使用 Python API,通过标准定价每 1K 个令牌,与托管的 MPT-30B-Instruct(和 MPT-7B-Instruct)端点交流。

*MosaicML 推理:企业版。使用优化推理堆栈,在 MosaicML 计算或您自己的私有 VPC 上部署自定义 MPT-30B 模型。按每 GPU 分钟计费,支付使用的计算费用即可。


用户头像

B Impact

关注

记录和推动中国To B产业上云。 2022-06-30 加入

还未添加个人简介

评论

发布
暂无评论
“多云“和”私有化“,企业级刚需推动 DataBricks 和 MosaicML的13亿美金 AI 交易_B Impact_InfoQ写作社区