写点什么

如何在 SAM 时代下打造高效的高性能计算大模型训练平台

作者:蓝海大脑GPU
  • 2023-08-21
    北京
  • 本文字数:16626 字

    阅读完需:约 55 分钟

如何在SAM时代下打造高效的高性能计算大模型训练平台

关键词:SAM;PCB;SA-1B;Prompt;CV;NLP;PLM;BERT;ZSL;task;zero-shot;data;H100、H800、A100、A800、LLaMA、Transformer、OpenAI、GQA、RMSNorm、SFT、RTX 4090、A6000、AIGC、CHATGLM、LLVM、LLMs、GLM、NLP、AGI、HPC、GPU、CPU、CPU+GPU、英伟达、Nvidia、英特尔、AMD、高性能计算、高性能服务器、蓝海大脑、多元异构算力、高性能计算、大模型训练、通用人工智能、GPU 服务器、GPU 集群、大模型训练 GPU 集群、大语言模型、深度学习、机器学习、计算机视觉、生成式 AI、ML、DLC、ChatGPT、图像分割、预训练语言模型、PLM、机器视觉、AI 服务器


摘要:Segment Anything Model (SAM)是 Meta 公司最近推出的一个创新 AI 模型,专门用于计算机视觉领域图像分割任务。借鉴 ChatGPT 的学习范式,将预训练和特定任务结合在一起,从而显著提升模型的泛化能力。SAM 的设计初衷是简化图像分割的过程,减少对专业建模知识的依赖,并降低大规模训练所需的计算资源。


在计算机视觉领域,SAM 模型是一种基于 CV 领域的 ChatGPT,提供强大的图像分割功能。然而,要使用 SAM 模型,我们需要进行 SAM 大模型环境的配置。虽然配置 SAM 环境可能会面临一些挑战,但一旦配置完成,我们将能够充分利用 SAM 模型的强大功能。


为配置 SAM 环境,我们需要确保服务器具备足够的计算资源和存储空间,以支持 SAM 模型的高效运行。SAM 模型通常需要大量的计算资源和存储能力来进行准确的图像分割。然而,也需要注意 SAM 本地部署对服务器的影响。SAM 模型的部署可能对服务器的性能和稳定性产生一定的影响。


蓝海大脑大模型训练平台提供强大计算集群、高速存储系统和高带宽网络连接,加速模型的训练过程;同时采用高效分布式计算框架和并行计算,使模型训练可以在多个计算节点上同时进行,大大缩短训练时间。兼备任务调度、资源管理和监控等功能,提升训练效率和可管理性。此外,丰富的工具和库,可用于模型开发、调试和优化。还为模型部署和推理提供支持。一旦模型训练完成,平台可将训练好的模型部署到生产环境中,以供实际应用使用。


SAM 模型:CV 领域的 ChatGPT


一、什么是 SAM 模型?


SAM 模型是 Meta 推出的人工智能模型,在官网上被描述为“仅需一次点击,即可在任何图像中分割出任何物体”。采用以前图像分割模型作为基础,并在庞大的数据集上进行训练,该模型旨在解决多个下游任务并成为一种通用模型。


该模型的核心要点有:


1、借鉴 ChatGPT 的启发思想,采用可提示学习范式,提高学习效率;


2、建立迄今为止最大的图像分割数据集 Segment Anything 1-Billion(SA-1B),包含 1100 万张图像和超过 10 亿个掩码;


3、构建通用且自动的分割模型,在零样本情况下灵活应用于新的任务和领域,其结果优于以往的监督学习结果。


IMG_257


SAM 模型官方文章


二、Prompt:将 ChatGPT 的学习思维应用在 CV 领域


SAM 利用先进技术路线实现计算机视觉底层技术突破,具备广泛的通用性和零样本迁移的能力。采用 prompt-based learning 方式进行学习训练,即利用提示语作为模型输入。与传统的监督学习方式不同,该方法在 GPT-3 团队的推动下得到广泛应用。


1、Prompt 之前的模型在做什么


预训练语言模型(PLM)是一种先进的自然语言处理(NLP)模型,在人和计算机交互方面起着重要的作用。NLP 旨在改善人与计算机之间的交流和理解,而 PLM 则是这一领域前沿模型之一。


自然语言处理(NLP)的常用算法和模型


预训练模型根据学习范式和发展阶段可以分为四代:


1)特征学习:通过设置规则来提取文本特征编码文本,例如 TF-IDF 模型。


2)结构学习:引入深度学习在 NLP 中应用,代表性模型是 Word2Vec。第一代、第二代预训练模型的共同点是输出被用作下游任务的输入,但本身并不直接执行下游任务。随后的模型将预训练结果和模型自身都应用于下游任务中。


IMG_259


预训练模型(PLM)的发展阶段和特征


3)下游微调:采用预训练加下游微调方式,代表性模型有 BERT 和 GPT。


4)提示学习:在 BERT 和 GPT 的基础上进一步改进,采用基于提示学习(Prompt-based Learning)方法。该方法将输入信息经过特定模板处理,将任务转化为更适合预训练语言模型处理形式。代表性模型有 ChapGPT、GPT3.5 和 SAM。


预训练模型就像是培养出的高中毕业生,而下游任务则相当于大学的专业课程。高中毕业生学习未来应用领域相关的课程,就能够成为具备专业技能和知识的大学生,以应对专业岗位的要求。


IMG_260


基于提示的学习(prompt-based learning)各分支


2、Prompt 的优势:实现预训练和下游任务的统一


如下图所示(左图),传统的 PLM+微调范式存在上下游之间差异较大、应用不匹配问题,在预训练阶段使用自回归或自编码方法,但对于下游的微调任务来说,需要大量新数据来适应不同的形式和要求。


IMG_261


传统的预训练+微调模型以及 prompt 范式


随着模型参数越来越庞大,企业部署模型成本非常高。同时为满足各种不同下游之间的任务,需要专门对每个任务进行微调,也是一种巨大的浪费。主要有以下两个缺点:


1)微调所需的样本数量非常大


2)模型的专用性高,部署成本高昂


针对以上缺点,PT-3 团队提出在大量无监督文本阅读后,语言模型可以通过"培养广泛技能和模式识别能力"有效地解决问题。实验表明在少样本场景下,模型不需要更新任何参数就能实现不错的效果。预训练加微调范式是通过大量训练使模型适应下游任务。而 Prompt 则是将下游任务以特定模板的形式统一成预训练任务,将下游任务的数据组织成自然语言形式,充分发挥预训练模型本身的能力。


IMG_262


Fine-tune 和 prompt 两种范式的区别


以情感分类任务为例,使用传统 Fine-tune 方法需要准备一个微调数据集,其中包含对电影/书籍的评价以及人工阅读后的感受。该微调数据集必须足够大,以满足复杂任务需求。但是微调数据集的大小可能超过预训练数据集的规模,导致预训练的目的失去意义。


相比之下,利用 Prompt 的方式可以更好地处理情感分类任务并且充分利用预训练模型能力,避免繁重微调数据集准备工作。Prompt 可以根据输入的句子来输出对 MASK 位置单词的预测,进而推测出用户对该作品作品的态度。


IMG_263


预训练+下游任务微调(PLM+Fine-tuning)处理情感分类任务(写影评)


Prompt 范式具有以下优点:


1)大大降低模型训练所需样本量,可以在少样本甚至零样本的情况下进行训练


2)提高模型的通用性,在实际应用中减少成本并提高效率


当下,大型模型如 GPT-4 已经不再完全开放全部的模型参数,用户只能通过 API 接口使用模型进行预测。由此可见,Prompt 工程在下游任务中的重要性已经不言而喻。


三、ZSL:零样本学习降本增效,提高模型泛化能力


1、什么是零样本学习能力?


零样本学习(Zero-shot Learning, ZSL)是机器学习中的一个难题,其目标是让模型能够对从未见过的"未知物体"进行分类和识别。下图中展示一个经典案例,即认识斑马。一个"儿童"在动物园里见过许多动物,如马、熊猫、狮子、老虎等,但从未见过斑马。通过老师的描述,该"儿童"了解到斑马有四条腿、黑白相间的条纹以及尾巴。最终这个"儿童"轻松地辨认出斑马。


类似,模型也可以通过零样本学习方式,从已见过的类别中提取特征(如外形类似马、具有条纹、黑白色),然后根据对未知类别特征的描述,识别那些从未见过的类别。换言之,模型通过之前学到的知识和特征,将其应用于未知物体的识别。


零样本学习(ZSL)示例


2、SAM 的零样本学习能力得到认可


SAM 正具备这样一种零样本分割能力,可以从各种 prompt 输入(包括点、方框和文本)中生成高质量的掩膜(Mask)。学术界有多篇论文探讨 SAM 的 ZSL 能力, 如《SAM.MD: Zero-shot medical image segmentation capabilities of the Segment Anything Model》测试 SAM 的 ZSL 效果,在图像分割任务中输入部分点和框作为 prompt 提示,结果显示:专家用户可以通过 SAM 实现大部分场景下的快速半自动分割。虽然在实验中 SAM 没有表现出领先的全自动分割性能,但可成为推动临床医生半自动分割工具发展的潜在催化剂。


IMG_265


SAM 的零样本学习能力在 CT 影像中的应用


四、SA-1B:迄今为止最大的分割数据集,助力模型增效


1、Data Engine:使用数据引擎生成掩码


SAM 使用数据集进行训练,并采用 SAM 交互式注释图像的方式对数据进行标注。另外,采用新颖的数据收集方法,结合模型和标注人员的力量,从而提高数据收集的效率和质量。整个过程可以分为三个阶段,让 SAM 的数据引擎更加完善和高效。


SAM 使用数据引擎(data engine)渐进式收集数据示意图


1)手工阶段:在模型辅助的手工注释阶段,标注人员利用 SAM 模型作为辅助工具,在图像上进行点击、框选或输入文本等操作来生成 MASK,并且模型会实时根据标注人员的输入更新 MASK,并提供一些可选的 MASK 供标注人员选择和修改。该方式使得标注人员能够快速而准确地分割图像中的对象,无需手动绘制。其目的是收集高质量的 MASK,用于训练和改进 SAM 模型。


2)半自动阶段:SAM 模型已经具备一定的分割能力,能够自动预测图像中的对象。但是由于模型不够完善,预测 MASK 可能存在错误或遗漏。标注人员的主要任务是检查和修正模型的预测结果,以确保 MASK 的准确性和完整性。该阶段的目标是收集更多的 MASK,以进一步提升 SAM 模型的性能和泛化能力。


3)全自动阶段:SAM 模型已经达到较高水平,能够准确地分割图像中的所有对象,无需任何人工干预。因此,标注人员工作转变为确认和验证模型输出,以确保没有任何错误。该阶段旨在利用 SAM 模型的自动标注能力,快速扩展数据集的规模和覆盖范围。


2、Data Set:使用数据引擎生成掩码


通过逐步进行“模型辅助的手工注释——半自动半注释——模型全自动分割掩码”方法,SAM 团队成功创建名为 SA-1B 图像分割数据集。该数据集具有规模空前、质量优良、多样化丰富和隐私保护的特点。


1)图像数量和质量:SA-1B 包含多样化、高清晰度、隐私保护的 1100 万张照片,这些照片是由一家大型图片公司提供并授权使用,符合相关的数据许可证要求,可供计算机视觉研究使用。


2)分割掩码数量和质量:SA-1B 包含 11 亿个精细的分割掩码,这些掩码是由 Meta 开发的数据引擎自动生成,展示该引擎强大的自动化标注能力。


3)图像分辨率和 Mask 数量:每张图像的平均分辨率为 1500x2250 像素,每张图像包含约 100 个掩码。


4)数据集规模对比:SA-1B 比现有的分割数据集增加 400 多倍;相较于完全手动基于多边形的掩码标注(如 COCO 数据集),使用 SAM 的方法快 6.5 倍;比过去最大的数据标注工作快两倍。


IMG_267


SA-1B 比现有分割数据集多 400 倍


SA-1B 数据集目标是训练一个通用模型,可以从开放世界图像中分割出任何物体。该数据集不仅为 SAM 模型提供强大的训练基础,同时也为图像分割领域提供一个全新的研究资源和基准。


此外,在 SA-1B 的论文中,作者进行 RAI(Responsible AI,责任智能)分析,并指出该数据集的图像在跨区域代表性方面具有更强的特点。


SA-1B 数据集的跨区域代表性较强


五、SAM 核心优势:减少训练需求,提升分割性能


SAM 的核心目标是在不需要专业建模知识、减少训练计算需求以及自行标注掩码的情况下,实现目标通用分割。为逐步实现该目标,SAM 采取以下三种方法构建图像领域的通用分割大模型:


1)数据规模和质量


SAM 通过具备零样本迁移能力,收集大量高质量的图像分割数据(1100 万张图像和 11 亿个掩码)构建 SA-1B 数据集,这是目前规模最大的图像分割数据集,远超过以往的数据集。


2)模型效率和灵活性


SAM 借鉴 Transformer 模型架构,并结合注意力机制和卷积神经网络,实现高效且可引导的图像分割模型。该模型能够处理任意大小和比例的图像,并且能够根据不同的输入提示生成不同的分割结果。


SAM 的可提示分割模型分为三部分


3)任务的泛化和迁移


SAM 实现图像分割任务的泛化和迁移能力。它通过采用可提示分割任务的方法,构建一个能够零样本迁移的图像分割模型。这意味着 SAM 可以适应新的图像分布和任务,而无需额外的训练数据或微调。这一特性使得 SAM 在多个图像分割任务上表现出色,甚至超过一些有监督的模型。


目前,SAM 已经具备以下功能:


学习物体概念能够理解图像中物体的概念和特征。


生成未见过物体的掩码为图像或视频中未见过的物体生成准确的掩码。


高通用性具有广泛的应用性,能够适应不同的场景和任务。


支持多种交互方式 SAM 支持用户使用多种交互方式进行图像和视频分割,例如全选分割自动识别图像中的所有物体,以及框选分割(只需框选用户选择的部分即可完成分割)。


框选分割(BOX)


在图像分割领域,SAM 是一个具有革命性意义的模型。它引入一种全新范式和思维方式,为计算机视觉领域的基础模型研究提供新的视角和方向。SAM 的出现改变了人们对图像分割的认知,并为该领域带来巨大的进步和突破。


2、基于 SAM 二次创作,衍生模型提升性能


自从引入 SAM 以来,该技术在人工智能领域引起极大的兴趣和讨论,并且衍生出一系列相关模型和应用,如 SEEM 和 MedSAM 等。这些模型在工程、医学影像、遥感图像、农业等不同领域都有广泛应用。借鉴 SAM 理念和方法,并通过进一步改进和优化,使得 SAM 的应用范围更广泛。


1)SEEM:交互、语义更泛化,分割质量提升


SEEM 在交互和语义空间上都比 SAM 更具泛化性


SEEM 是一种基于 SAM 的新型交互模型,利用 SAM 强大的零样本泛化能力,实现对任意图像中所有物体的分割任务。该模型结合 SAM 和一个检测器,通过使用检测器输出的边界框作为输入提示,生成相应物体掩码。SEEM 能够根据用户提供多种输入模态(如文本、图像、涂鸦等),一次性完成图像或视频中所有内容分割与物体识别任务。


这项研究已在多个公开数据集上进行实验,其分割质量和效率均优于 SAM。值得一提的是,SEEM 是第一个支持各种用户输入类型的通用接口,包括文本、点、涂鸦、框和图像,提供强大组合功能。


SEEM 根据用户输入的点和涂鸦进行图像识别


SEEM 具备分类识别特性,可以直接输入参考图像并指定参考区域,从而对其他图像进行分割,并找出与参考区域相一致的物体。同时该模型还拥有零样本分割功能,对于模糊或经历剧烈变形的视频,能够准确地分割出参考对象。通过第一帧和用户提供的涂鸦等输入,SEEM 能够在道路场景、运动场景等应用中表现出色。


SEEM 根据参考图像对其他图像进行分割


2)MedSAM:提升感知力,应用医学图像分割


为评估 SAM 在医学影像分割任务中的性能,深圳大学等多所高校合作创建 COSMOS 553K 数据集(迄今为止规模最大的医学影像分割数据集)研究人员利用该数据集对 SAM 进行全面、多角度、大规模的详细评估。该数据集考虑医学图像的多样成像模式、复杂边界以及广泛的物体尺度,提出更大的挑战。通过这次评估,可以更全面地了解 SAM 在医学影像分割任务中的性能表现。


SAM 分割医学影像测试的详细框架


根据评估结果显示,SAM 尽管具备成为通用医学影像分割模型的潜力,但在医学影像分割任务中的表现目前还不够稳定。特别是在全自动 Everything 的分割模式下,SAM 对大多数医学影像分割任务的适应能力较差,其感知医学分割目标的能力有待提高。因此,SAM 在医学影像分割领域的应用还需要进一步的研究和改进。


测试 SAM 对医学影像分割性能的数据集 COSMOS 553K 及分割效果


.


因此在医学影像分割领域,研究重点应该放在如何利用少量医学影像来有效地微调 SAM 模型以提高其可靠性,并构建一种适用于医学影像的 Segment Anything Model。针对这一目标,MedSAM 提出一种简单的微调方法,将 SAM 适应到通用的医学影像分割任务中。通过在 21 个三维分割任务和 9 个二维分割任务上进行全面的实验,MedSAM 证明其分割效果优于默认的 SAM 模型。这项研究为医学影像分割提供一种有效的方法,使 SAM 模型能够更好地适应医学影像的特点,并取得更好的分割结果。


MedSAM 示意图


3)SAM-Track:扩展 SAM 应用领域,增强视频分割性能


最新开源的 SAM-Track 项目由浙江大学 ReLER 实验室的科研人员开发,为 SAM 模型增强在视频分割领域的能力。SAM-Track 能够对任意物体进行分割和跟踪,并且支持各种时空场景,例如街景、AR、细胞、动画和航拍等。该项目在单卡上即可实现目标分割和跟踪,能够同时追踪超过 200 个物体,为用户提供强大的视频编辑能力。


相较于传统的视频分割技术,SAM-Track 具有更高的准确性和可靠性。它能够自适应地识别不同场景下的物体,并快速而精确地进行分割和跟踪,从而使用户能够轻松地进行视频编辑和后期制作,实现更出色的视觉效果。总的来说,SAM-Track 是在 SAM 基础上的有意义的研究成果,为视频分割和跟踪领域的研究和应用带来了新的可能性。它的出现为视频编辑、后期制作等领域带来更多机会和挑战。


3、SAM 及衍生模型赋能多场景应用


SAM 模型是一种高效且准确的图像分割模型,在计算机视觉领域的应用具有广泛的潜力,可以赋能工业机器视觉领域,实现降本增效、快速训练和减少对数据的依赖。在 AR/CR 行业、自动驾驶和安防监控领域等赛道,SAM 可以用于动态图像的捕捉和分割,尽管可能涉及到技术、算力和伦理隐私方面的挑战,但其发展潜力巨大。


此外,SAM 对于一些特定场景的分割任务可能具有困难性,但可以通过微调或适配器模块的使用进行改进。在医学影像和遥感图像处理领域,SAM 可以通过简单微调或少量标注数据的训练来适应分割任务。另外,SAM 还可以与其他模型或系统结合使用,例如与分类器结合实现物体检测和识别或与生成器结合实现图像编辑和转换。这种结合能够进一步提高图像分割的准确性和效率,为各行业带来更多应用场景。


1)基于 3D 重建,赋能 AR、游戏


在 AR/VR 领域,SAM 模型结合 3D 重建技术和图像处理算法,为用户提供更加逼真和沉浸的视觉体验。通过 SAM 模型,用户可以将 2D 图像转化为 3D 场景,并在 AR 或 VR 设备上进行观察和操控,实现对真实世界的模拟和还原。这样的技术结合为用户带来高度沉浸式的互动体验,能够在虚拟世界中与物体进行互动,享受更加逼真的视觉感受。


此外,SAM 模型还结合了深度学习算法,对用户视线和手势识别和跟踪,以实现更智能化互动方式。举例来说,当用户注视某个物体时,SAM 模型可以自动聚焦并提供更为详细的信息;当用户做出手势操作时,SAM 模型也能够快速响应并实现场景的调整和变化。


2)跟踪运动物体,赋能安防监控


在图像分割领域,SAM 是一种高效而准确的模型,能够进行视频和动态图像的分割,并产生 SEEM 和 SAM-Track 这两个衍生应用。这些衍生模型充分利用了 SAM 的零样本泛化能力,通过使用参考图像和用户输入的涂鸦、文字等信息,在模糊或剧烈变形的视频中实现对目标对象的准确分割。


例如,在跑酷、运动和游戏等视频中,传统的图像分割算法往往无法有效处理复杂的背景和快速移动的目标物体。然而,SEEM 模型不仅能够准确识别参考对象,还能够消除背景干扰,从而提高分割的精度。简而言之,SAM 模型及其相关应用在处理具有动态特征的图像分割问题上表现出出色的性能和准确度。


SEEM 在跑酷、运动、游戏视频中可以准确分割参考对象


除在运动场景中的应用之外,SEEM 和 SAM-Track 还可以赋能安防和视频监控等领域,准确地对视频中的物体进行分割,以便进行后续的识别和处理。SEEM 和 SAM-Track 通过输入的提示信息,能够准确地判断目标物体并进行精确的分割。


3)解决长尾难题,赋能自动驾驶


尽管目前自动驾驶技术已经在 90%以上的道路场景下成功实现,但仍然存在 10%的长尾场景难题,这主要是由于路况和车辆行驶情况的不可预测性所导致。这些长尾场景包括突发事件、复杂地形和恶劣气候等极端情况,如强降雨、暴风雪和雷电等,对自动驾驶系统的识别和决策能力构成巨大挑战。此外,在城市交通中,还需要考虑非机动车、行人和建筑物等因素对自动驾驶系统的影响。


为了解决长尾问题,自动驾驶技术需要整合更多的算法和传感器,并通过数据采集和深度学习等方法提升系统的智能水平。例如,通过整合雷达、摄像头、激光雷达等传感器的数据来提高对目标物体的识别和跟踪能力。同时,可以利用深度学习算法来模拟和预测复杂场景。此外,引入人工智能技术,让自动驾驶系统在长尾场景中不断学习和优化,以提高其适应性和泛化能力。


城市道路场景中长尾场景较多


在自动驾驶领域,图像分割在感知和理解道路环境中起着关键作用。SAM(Segment Anything Model)可以通过标记和分割图像中的不同物体和区域实现精确的场景感知。传统的手动标注方法耗时且容易出错,而 SAM 的自动化分割能够大幅降低成本并提高准确性。


SAM 在自动驾驶系统中能够实时感知道路标记、车道线、行人、交通信号灯等关键元素。通过与其他深度学习模型结合,如目标检测和路径规划模型,SAM 可以准确理解周围环境,帮助自动驾驶系统做出安全、高效的决策。


以行人识别和车道线跟踪为例,SAM 能够预测行人和车辆的运动轨迹,帮助减少潜在的交通事故风险。


4)提高分割性能,赋能遥感图像


遥感图像是通过卫星、飞机等遥测手段获取地球表面信息的重要工具,其具备多样性、全覆盖和高精度等特点,在现代科技发展中扮演着不可或缺的角色。遥感图像在环境监测、自然资源管理、城市规划和灾害预警等领域应用广泛。


遥感数据包括光学遥感数据、光谱数据、SAR 雷达数据、无人机数据等多种类型。处理遥感数据一般分为两个阶段:第一阶段通过遥感地面处理系统对接收到的卫星数据进行处理,包括大气校正、色彩均匀化和图像裁剪等,以得到可以进一步识别和处理的图像;第二阶段则是在此基础上,对遥感图像进行进一步处理和解译,主要是对图像中的物体进行识别。


由于遥感图像的多样性、复杂性和数据大量的特点,在处理过程中存在许多挑战和困难。


图像处理经历三个阶段:


人工解译阶段:完全依赖标注人员进行图像解释,但这种方法成本高且解译效率低下;


AI+遥感阶段:借助 AI 技术和算力的支持,有效缓解图像解译难点,并实现了人机协同。随着遥感和测绘等观测平台以及卫星数量的增长,AI 与遥感的结合为图像解译提供更多可能性;


遥感大模型时代:随着大型神经网络模型的发布,遥感图像的解译有望进入大模型阶段。


遥感图像处理发展阶段


大型遥感图像分割模型 SAM 是一项新兴的技术,为遥感图像处理提供全新的方法。基于深度学习算法,SAM 能够高效地对遥感图像进行分割、识别和生成,从而显著提升遥感图像解译的效率。利用 SAM 模型进行遥感图像分割,用户能够快速准确地生成高质量的地图和三维模型,从而提高环境监测和资源管理的效率及精度。此外,SAM 模型还支持多源数据的融合,将遥感图像与其他数据相结合,以产生更全面、更精准的分析结果。提高遥感数据处理效率不仅为遥感应用打下坚实基础,也为下游的遥感应用带来更广阔的发展空间。


大模型应用于遥感图像处理


尽管 SAM 大模型在处理一些困难的遥感图像分割任务时仍然面临挑战,例如在面对阴影、掩体分割和隐蔽动物定位等任务时的准确性较低。遥感图像分割任务需要模型具备更高的感知力和识别能力,SAM 模型目前无法完全做到"分割一切",特别是在处理细节方面还有进一步提升的空间。然而,通过不断改进和优化,SAM 模型的性能可以提升。


另外,RS-promter 是在 SAM 发布后由专家团队二次创作的一种基于 SAM 基础模型的遥感图像实例分割的 prompt learning 方法。这种方法被称为 RSPrompter,使 SAM 能够生成语义可辨别的遥感图像分割结果,而无需手动创建 prompt。RSPrompter 的目标是自动生成 prompt,以自动获取语义实例级别的掩码。这种方法不仅适用于 SAM,还可以扩展到其他基础模型。


SAM 模型在处理困难的遥感图像分割任务中仍然具有挑战,但通过改进和优化,包括引入更多数据集、采用更先进的神经网络架构以及基于 RS-promter 的改进方法,可以提高其性能。


基于锚点的 prompter


研究人员进行了一系列实验来验证 RSPrompter 的效果。这些实验不仅证明 RSPrompter 每个组件的有效性,还展示它在三个公共遥感数据集上相较于其他先进的实例分割技术和基于 SAM 的方法具有更好的性能。


大模型为空天信息产业带来了驱动和挑战


大模型的引入为遥感图像领域带来新的推动力和挑战。在多模态时空遥感数据的应用中,大模型在基于合成孔径雷达(SAR)、光学、多光谱卫星和无人机航拍等方面具有广泛的应用。借助开源大模型基础结构,为遥感数据开展定制化模型研发,实现一站式、全流程的遥感大模型构建能力。另外,大模型支持处理大规模模型参数和标注数据量,实现更高效、精准的遥感数据处理和分析,为影像智能检索与推送、地物智能提取采编、数字孪生产品线等领域提供技术支持。


未来,大模型训练与小模型部署将结合起来,以实现更好的应用效果。传统的图像处理方法难以满足遥感影像处理的要求,因此使用大模型处理遥感图像已成为当前研究的重要方向。SAM 模型的赋能进一步提升了遥感图像的意义和应用价值,为该领域的研究和应用带来新的机会和挑战,也为人们更好地认识和利用地球资源提供技术支持。


5)算力应用驱动,赋能机器视觉的功能主要归类为四种:识别、测量、定位、检测


识别


通过识别目标物的特征,如外形、颜色、字符、条码等,实现高速度和高准确度的甄别。


测量


将图像像素信息转化为常用的度量单位,精确计算目标物的几何尺寸。机器视觉在复杂形态测量和高精度方面具有优势。


定位


获取目标物体的二维或三维位置信息。


检测


主要针对外观检测,内容涵盖广泛。例如产品装配后的完整性检测,外观缺陷检测(如划痕、凹凸不平等)。


机器视觉四大功能及难度


机器视觉被称为"智能制造之眼",在工业自动化领域广泛应用。典型的机器视觉系统包括光源、镜头、相机和视觉控制系统(包括视觉处理分析软件和视觉控制器硬件)。根据技术的不同,机器视觉可分为基于硬件的成像技术和基于软件的视觉分析技术。机器视觉的发展受到四大核心驱动力的影响,包括成像、算法、算力和应用。每个方面都对机器视觉的发展起到重要的推动作用,不可或缺。


机器视觉发展历程


机器视觉技术的发展受到两大核心驱动力的影响。


应用驱动:随着传统制造业对机器视觉技术的逐步采纳和新兴行业的崛起,机器视觉需求不断增加。在智能制造领域,机器视觉技术可以帮助企业实现自动化生产,提高生产效率和产品质量。在智能医疗领域,机器视觉技术可以辅助医生进行诊断和治疗,提高医疗水平和治疗效果。


算力/算法驱动:随着 CPU 算力的增长和 AI 算法的快速进化,特别是深度学习等技术的应用,机器视觉技术在图像处理和分析方面变得更加高效和精确。高性能计算设备的推动和算法的不断进步,为机器视觉技术的发展提供强大支持。


引入 AI 大模型为机器视觉产业带来重大突破。当前,机器视觉领域采用先进技术,包括深度学习、3D 处理与分析、图像感知融合以及硬件加速图像处理等。这些技术和模型大幅提升了机器视觉的智能应用能力,改进图像识别的复杂性和准确性,同时降低成本,提高效率。


基于 AI 的轻量级人脸识别网络,可用于视频实时分析、安防监控等


AI 在机器视觉领域有广泛的应用。通过深度学习网络如 CNN 来实现物体的检测和识别,对图像进行分类理解场景,并提升图像的质量和恢复效果,实现实时分析和异常检测,进行 3D 重建和增强现实等技术。同时,AI 赋予机器视觉“理解”所看到图像的能力,为各种应用场景带来无限的创新和发展机会。


其中,SAM 作为一种重要的视觉领域 AI 大模型,可以在机器视觉领域推动创新和进步。例如,SAM 可以直接应用于智慧城市中,提高交通监测、人脸识别等任务的效率。在智能制造领域,SAM 可以增强视觉检测和质量控制的能力。此外,SAM 还可以与 OVD 技术结合,自动地生成所需信息,加强语义理解能力,从而增强用户的交互体验。综上所述,AI 在机器视觉领域的应用以及 SAM 模型的运用都为各个领域带来了巨大的潜力和机遇。


OVD 目标检测基本流程


SAM 大模型环境配置


要部署 "Segment Anything Model",需要按以下步骤进行操作:


收集和标记训练数据:收集模型进行分割的对象的图像数据,并进行标记。


进行数据预处理:在训练之前,对图像进行预处理(调整图像的大小、剪裁不相关的区域或应用增强技术)以提高模型的准确性和泛化能力。


构建和训练模型:选择适合的模型,并使用预处理后的数据进行训练(合适的网络架构、调整超参数和优化模型的损失函数)。


模型评估和调优:对训练完成的模型进行评估,确保其在分割任务上的性能。可以进行模型调优,如调整阈值、增加训练数据或使用迁移学习等技术。


部署和推理:将训练好的模型部署到目标环境中,并使用新的图像数据进行推理。


以下是具体操作流程:


请确保系统满足以下要求:Python 版本大于等于 3.8,PyTorch 版本大于等于 1.7,torchvision 版本大于等于 0.8。


可以参考官方教程来进行操作:https://github.com/facebookresearch/segment-anything


一、以下是安装主要库的几种方式:


1、使用 pip 安装(需要配置好 Git):


Pip install


git+https://github.com/facebookresearch/segment-anything.git


2、本地安装(需要配置好 Git):


git clone git@github.com:faceboo\kresearch/segment-anything.git


cd segment-anything


pip install -e .


3、手动下载+手动本地安装:


私信小助手获取 zip 文件,并解压后运行以下命令:


cd segment-anything-main


pip install -e .


二、安装依赖库:


为了安装依赖库,可以运行以下命令:


pip install opencv-python pycocotools matplotlib onnxruntime onnx


请注意,如果您在安装 matplotlib 时遇到错误,可以尝试安装特定版本的 matplotlib,如 3.6.2 版本。可以使用以下命令安装指定版本的 matplotlib:


pip install matplotlib==3.6.2


三、下载权重文件:


您可以从以下链接中下载三个权重文件中的一个:


1、default 或 vit_h:ViT-H SAM 模型。


2、vit_l:ViT-L SAM 模型。


3、vit_b:ViT-B SAM 模型。


如果您发现下载速度过慢,请私信小助手获取权重文件。


通过下载并使用其中一个权重文件,将能够在 "Segment Anything" 模型中使用相应的预训练模型。


如何配置训练 SAM 模型服务器


在计算机视觉领域,图像分割是一个关键的任务,涉及将图像中的不同对象或区域进行准确的分割。SAM 模型作为一种基于 CV 领域的 ChatGPT,为图像分割任务提供强大的能力。然而,要使用 SAM 模型,需要配置适合 SAM 环境的服务器,并满足 SAM 模型对计算资源和存储空间的需求。


配置适合 SAM 环境的服务器是充分利用 SAM 模型优势的关键。为满足 SAM 模型对计算资源和存储空间的需求,需要确保服务器具备足够的 CPU 和 GPU 资源、存储空间和高性能网络连接。


一、计算资源需求


由于 SAM 模型依赖于深度学习算法,需要进行大规模的矩阵运算和神经网络训练。因此通常需要大量的计算资源来进行高效的图像分割。所以配置 SAM 环境时,需要确保服务器具备足够的 CPU 和 GPU 资源来支持 SAM 模型的计算需求。特别是在处理大规模图像数据集时,服务器需要具备较高的并行计算能力,以确保模型的高效运行。


1、GPU


1)GPU 内存:SAM 模型需要大量的内存来存储模型参数和图像数据。因此,选择足够内存容量的 GPU 是至关重要的。


2)GPU 计算能力:SAM 模型依赖于深度学习算法,需要进行大规模的矩阵运算和神经网络训练。因此,选择具有较高计算能力的 GPU 可以提高 SAM 模型的运行效率。例如,选择具有较多 CUDA 核心和高时钟频率的 GPU。


2、CPU


虽然 GPU 在 SAM 模型中扮演着重要的角色,但 CPU 也是服务器配置中不可忽视的组件。在 SAM 模型中,CPU 主要负责数据的预处理、模型的加载和其他非计算密集型任务。因此,在选择 CPU 时,需要考虑以下几个因素:


1)CPU 核心数量:由于 CPU 可以并行处理多个任务,所以选择具有较多核心的 CPU 可以提高 SAM 模型的整体性能。


2)CPU 时钟频率:SAM 模型的预处理和其他非计算密集型任务通常需要较高的时钟频率。因此,选择具有较高时钟频率的 CPU 可以加快这些任务的执行速度。


3、常用 CPU+GPU 推荐


1)AMD EPYC 7763 + Nvidia A100 80GB


AMD 7763 是 64 核心的高端 EPYC 芯片,A100 80GB 单卡内存高达 80GB,可以支持大模型的训练。


2)双 AMD EPYC 7742 + 8 张 AMD Instinct MI50


7742 是 AMD 的前一代 32 核心服务器 CPU,双 CPU 可以提供 64 核心。MI50 是 AMD 较高端的 GPU,具有 16GB 内存,8 张可以提供充足的计算资源。


3)双 Intel Xeon Platinum 8280 + 8 张 Nvidia V100 32GB


8280 是 Intel Scalable 系列的 28 核心旗舰 CPU,双 CPU 提供 56 核心。V100 32GB 单卡 32GB 内存。


4)AMD EPYC 7713 + 8 张 Nvidia RTX A6000


RTX A6000 基于 Ampere 架构,具有 48GB 内存,相比 A100 更经济且内存也足够大。


5)双 Intel Xeon Gold 6300 + 8 张 AMD Instinct MI100


Intel Xeon Gold 6300 系列提供较低成本的多核心 Xeon CPU,MI100 配合使用可以达到比较好的性价比。


6)对于 CPU,AMD EPYC 7003 系列处理器是一个不错的选择。这是 AMD 的第三代 EPYC 服务器 CPU,使用 TSMC 5nm 制程,拥有高达 96 个 Zen 3 核心,提供强大的多线程处理性能。具体型号可以选择 72 核心的 EPYC 7773X 或 64 核心的 EPYC 7713。


对于 GPU,Nvidia 的 A100 Tensor Core GPU 是目前训练大型神经网络的首选。它基于 Ampere 架构,具有高达 6912 个 Tensor Core,可以提供高达 19.5 TFLOPS 的 Tensor 浮点性能。可以配置 4-8 块 A100 来满足训练需求。


另外,AMD 的 Instinct MI100 GPU 也是一个不错的选择。它使用 CDNA 架构,具有 120 个计算单元,可以提供高达 11.5 TFLOPS 的半精度浮点性能。相比 A100 更经济高效。


4、存储需求


SAM 模型在进行图像分割任务时,需要加载和存储大量的模型参数和图像数据。因此,服务器需要具备足够的存储空间来存储 SAM 模型和相关数据。此外,为了提高 SAM 模型的运行效率,我们还可以考虑使用高速存储设备,如 SSD(固态硬盘),以加快数据的读取和写入速度。


5、高性能网络需求


SAM 模型在进行图像分割任务时,需要通过网络接收和发送大量的数据。因此,服务器需要具备高速、稳定的网络连接,以确保数据的快速传输和模型的实时响应能力。特别是在处理实时图像分割任务时,服务器需要具备低延迟和高带宽的网络连接,以满足实时性的要求。


蓝海大脑大模型训练平台


蓝海大脑大模型训练平台提供强大的算力支持,包括基于开放加速模组高速互联的 AI 加速器。配置高速内存且支持全互联拓扑,满足大模型训练中张量并行的通信需求。支持高性能 I/O 扩展,同时可以扩展至万卡 AI 集群,满足大模型流水线和数据并行的通信需求。强大的液冷系统热插拔及智能电源管理技术,当 BMC 收到 PSU 故障或错误警告(如断电、电涌,过热),自动强制系统的 CPU 进入 ULFM(超低频模式,以实现最低功耗)。致力于通过“低碳节能”为客户提供环保绿色的高性能计算解决方案。主要应用于深度学习、学术教育、生物医药、地球勘探、气象海洋、超算中心、AI 及大数据等领域。


一、为什么需要大模型?


1、模型效果更优


大模型在各场景上的效果均优于普通模型


2、创造能力更强


大模型能够进行内容生成(AIGC),助力内容规模化生产


3、灵活定制场景


通过举例子的方式,定制大模型海量的应用场景


4、标注数据更少


通过学习少量行业数据,大模型就能够应对特定业务场景的需求


二、平台特点


1、异构计算资源调度


一种基于通用服务器和专用硬件的综合解决方案,用于调度和管理多种异构计算资源,包括 CPU、GPU 等。通过强大的虚拟化管理功能,能够轻松部署底层计算资源,并高效运行各种模型。同时充分发挥不同异构资源的硬件加速能力,以加快模型的运行速度和生成速度。


2、稳定可靠的数据存储


支持多存储类型协议,包括块、文件和对象存储服务。将存储资源池化实现模型和生成数据的自由流通,提高数据的利用率。同时采用多副本、多级故障域和故障自恢复等数据保护机制,确保模型和数据的安全稳定运行。


3、高性能分布式网络


提供算力资源的网络和存储,并通过分布式网络机制进行转发,透传物理网络性能,显著提高模型算力的效率和性能。


4、全方位安全保障


在模型托管方面,采用严格的权限管理机制,确保模型仓库的安全性。在数据存储方面,提供私有化部署和数据磁盘加密等措施,保证数据的安全可控性。同时,在模型分发和运行过程中,提供全面的账号认证和日志审计功能,全方位保障模型和数据的安全性。


三、常用配置


目前大模型训练多常用 H100、H800、A800、A100 等 GPU 显卡,以下是一些常用的配置。


1、H100 服务器常用配置


英伟达 H100 配备第四代 Tensor Core 和 Transformer 引擎(FP8 精度),与上一代产品相比,可为多专家 (MoE) 模型提供高 9 倍的训练速度。通过结合可提供 900 GB/s GPU 间互连的第四代 NVlink、可跨节点加速每个 GPU 通信的 NVLINK Switch 系统、PCIe 5.0 以及 NVIDIA Magnum IO™ 软件,为小型企业到大规模统一 GPU 集群提供高效的可扩展性。


搭载 H100 的加速服务器可以提供相应的计算能力,并利用 NVLink 和 NVSwitch 每个 GPU 3 TB/s 的显存带宽和可扩展性,凭借高性能应对数据分析以及通过扩展支持庞大的数据集。通过结合使用 NVIDIA Quantum-2 InfiniBand、Magnum IO 软件、GPU 加速的 Spark 3.0 和 NVIDIA RAPIDS™,NVIDIA 数据中心平台能够以出色的性能和效率加速这些大型工作负载。


CPU:英特尔至强 Platinum 8468 48C 96T 3.80GHz 105MB 350W *2


内存:动态随机存取存储器 64GB DDR5 4800 兆赫 *24


存储:固态硬盘 3.2TB U.2 PCIe 第 4 代 *4


GPU :Nvidia Vulcan PCIe H100 80GB *8


平台 :HD210 *1


散热 :CPU+GPU 液冷一体散热系统 *1


网络 :英伟达 IB 400Gb/s 单端口适配器 *8


电源:2000W(2+2)冗余高效电源 *1


2、A800 服务器常用配置


NVIDIA A800 的深度学习运算能力可达 312 teraFLOPS(TFLOPS)。其深度学习训练的 Tensor 每秒浮点运算次数(FLOPS)和推理的 Tensor 每秒万亿次运算次数(TOPS)皆为 NVIDIA Volta GPU 的 20 倍。采用的 NVIDIA NVLink 可提供两倍于上一代的吞吐量。与 NVIDIA NVSwitch 结合使用时,此技术可将多达 16 个 A800 GPU 互联,并将速度提升至 600GB/s,从而在单个服务器上实现出色的应用性能。NVLink 技术可应用在 A800 中:SXM GPU 通过 HGX A100 服务器主板连接,PCIe GPU 通过 NVLink 桥接器可桥接多达 2 个 GPU。


CPU:Intel 8358P 2.6G 11.2UFI 48M 32C 240W *2


内存:DDR4 3200 64G *32


数据盘:960G 2.5 SATA 6Gb R SSD *2


硬盘:3.84T 2.5-E4x4R SSD *2


网络:双口 10G 光纤网卡(含模块)*1


      双口25G SFP28无模块光纤网卡(MCX512A-ADAT )*1
复制代码


GPU:HV HGX A800 8-GPU 8OGB *1


电源:3500W 电源模块*4


其他:25G SFP28 多模光模块 *2


单端口 200G HDR HCA 卡(型号:MCX653105A-HDAT) *4


2GB SAS 12Gb 8 口 RAID 卡 *1


16A 电源线缆国标 1.8m *4


托轨 *1


主板预留 PCIE4.0x16 接口 *4


支持 2 个 M.2 *1


原厂质保 3 年 *1


3、A100 服务器常用配置


NVIDIA A100 Tensor Core GPU 可针对 AI、数据分析和 HPC 应用场景,在不同规模下实现出色的加速,有效助力更高性能的弹性数据中心。A100 采用 NVIDIA Ampere 架构,是 NVIDIA 数据中心平台的引擎。A100 的性能比上一代产品提升高达 20 倍,并可划分为七个 GPU 实例,以根据变化的需求进行动态调整。A100 提供 40GB 和 80GB 显存两种版本,A100 80GB 将 GPU 显存增加了一倍,并提供超快速的显存带宽(每秒超过 2 万亿字节 [TB/s]),可处理超大型模型和数据集。


CPU:Intel Xeon Platinum 8358P_2.60 GHz_32C 64T_230W *2


RAM:64GB DDR4 RDIMM 服务器内存 *16


SSD1:480GB 2.5 英寸 SATA 固态硬盘 *1


SSD2:3.84TB 2.5 英寸 NVMe 固态硬盘 *2


GPU:NVIDIA TESLA A100 80G SXM *8


网卡 1:100G 双口网卡 IB 迈络思 *2


网卡 2:25G CX5 双口网卡 *1


4、H800 服务器常用配置


H800 是英伟达新代次处理器,基于 Hopper 架构,对跑深度推荐系统、大型 AI 语言模型、基因组学、复杂数字孪生等任务的效率提升非常明显。与 A800 相比,H800 的性能提升了 3 倍,在显存带宽上也有明显的提高,达到 3 TB/s。


虽然论性能,H800 并不是最强的,但由于美国的限制,性能更强的 H100 无法供应给中国市场。有业内人士表示,H800 相较 H100,主要是在传输速率上有所差异,与上一代的 A100 相比,H800 在传输速率上仍略低一些,但是在算力方面,H800 是 A100 的三倍。


CPU:Intel Xeon Platinum 8468 Processor,48C64T,105M Cache 2.1GHz,350W *2


内存 :64GB 3200MHz RECC DDR4 DIMM *32


系统硬盘: intel D7-P5620 3.2T NVMe PCle4.0x4 3DTLCU.2 15mm 3DWPD *4


GPU: NVIDIA Tesla H800 -80GB HBM2 *8


GPU 网络: NVIDIA 900-9x766-003-SQO PCle 1-Port IB 400 OSFP Gen5 *8


存储网络 :双端口 200GbE IB *1


网卡 :25G 网络接口卡 双端口 *1


5、A6000 服务器常用配置


CPU:AMD EPYC 7763 64C 2.45GHz 256MB 280W*2


内存:64GB DDR4-3200 ECC REG RDIMM*8


固态盘:2.5" 960GB SATA 读取密集 SSD*1


数据盘:3.5" 10TB 7200RPM SATA HDD*1


GPU:NVIDIA RTX A6000 48GB*8


平台:


机架式 4U GPU 服务器,支持两颗 AMD EPYC 7002/7003 系列处理器,最高支持 280W TDP,最大支持 32 根内存插槽支持 8 个 3.5/2.5 寸热插拔 SAS/SATA/SSD 硬盘位(含 2 个 NVMe 混合插槽),可选外插 SAS 或 RAID 卡,支持多种 RAID 模式,独立 IPMI 管理接口,11xPCIe 4.0 插槽。


2200W(2+2)冗余钛金电源(96%转换效率),无光驱,含导轨


6、AMD MI210 服务器常用配置


CPU:AMD EPYC 7742 64C 2.25GHz 256MB 225W *2


内存:64GB DDR4-3200 ECC REG RDIMM*8


固态盘:2.5" 960GB SATA 读取密集 SSD*1


数据盘:3.5" 10TB 7200RPM SATA HDD*1


GPU:AMD MI210 64GB 300W *8


平台:


机架式 4U GPU 服务器,支持两颗 AMD EPYC 7002/7003 系列处理器,最高支持 280W TDP,最大支持 32 根内存插槽支持 8 个 3.5/2.5 寸热插拔 SAS/SATA/SSD 硬盘位(含 2 个 NVMe 混合插槽),可选外插 SAS 或 RAID 卡,支持多种 RAID 模式,独立 IPMI 管理接口,11xPCIe 4.0 插槽。


2200W(2+2)冗余钛金电源(96%转换效率),无光驱,含导轨


7、AMD MI250 服务器常用配置


CPU: AMD EPYC™ 7773X 64C 2.2GHz 768MB 280W *2


内存:64GB DDR4-3200 ECC REG RDIMM*8


固态盘:2.5" 960GB SATA 读取密集 SSD*1


数据盘:3.5" 10TB 7200RPM SATA HDD*1


GPU:AMD MI250 128GB 560W *6


平台:


机架式 4U GPU 服务器,支持两颗 AMD EPYC 7002/7003 系列处理器,最高支持 280W TDP,最大支持 32 根内存插槽支持 8 个 3.5/2.5 寸热插拔 SAS/SATA/SSD 硬盘位(含 2 个 NVMe 混合插槽),可选外插 SAS 或 RAID 卡,支持多种 RAID 模式,独立 IPMI 管理接口,11xPCIe 4.0 插槽。


2200W(2+2)冗余钛金电源(96%转换效率),无光驱,含导轨

用户头像

还未添加个人签名 2021-11-25 加入

深度学习GPU液冷服务器,大数据一体机,图数据库一体机

评论

发布
暂无评论
如何在SAM时代下打造高效的高性能计算大模型训练平台_蓝海大脑GPU_InfoQ写作社区