关于 AIOps、AI 人像写真、云上 AI 应用训练与推理的感想
一、前言
前几天受阿里云邀请,去深圳湾一号参加了关于 AI + 数据相关的技术分享。该分享分了三大主题:可观测场景下 AIOps、基于 FaceChain 的 AI 人像生成实践、云上 AI 应用训练与推理的存储最佳实践。
二、感想
2.1 可观测场景下 AIOps
可观测场景下 AIOps 还是有很多东西要做的,组件有模块水平集成、模块上下集成、外部系统引入:可观测性数据融合。可观测多模态数据由统一的协议:OpenTelemetry,使用它来检测、生成、收集和导出遥测数据(Metrics、Logs 和 Traces),以帮助运维开发人员分析软件的性能和行为。为众多开发人员带来 Metrics、Traces、Logs 的统一标准,三者都有相同的元数据结构,可以轻松实现互相关联。
OpenTelemetry 架构组件:
由于 OpenTelemetry 旨在成为一个为厂商和可观察性后端提供的跨语言框架,因此它非常灵活且可扩展,但同时也很复杂。OpenTelemetry 的默认实现中,其架构可以分为如下三部分:
OpenTelemetry API
OpenTelemetry SDK,包括
Tracer pipeline
Meter pipeline
hared Context layer
Collector
多模态数据统一——存储+分析:Knowledge Graph、有哪些基础数据、业务对象、对象关联。
最后讲了 Copilot for X-Ops、领域知识沉淀+检索、人工打标与 SFT、AI Agents、意图识别+拆解、获得结果、自主行动、向量数据库等。这里不展开了,给大家起一个抛砖引玉的作用。
2.2 基于 FaceChain 的 AI 人像写真生成实践
FaceChain 是一个可以用来打造个人数字形象的深度学习模型工具。用户仅需要提供最低一张照片即可获得独属于自己的个人形象数字替身。FaceChain 支持在 gradio 的界面中使用模型训练和推理能力、支持资深开发者使用 python 脚本进行训练推理,也支持在 sd webui 中安装插件使用。
基本原理:
个人写真模型的能力来源于 Stable Diffusion 模型的文生图功能,输入一段文本或一系列提示词,输出对应的图像。我们考虑影响个人写真生成效果的主要因素:写真风格信息,以及用户人物信息。为此,我们分别使用线下训练的风格 LoRA 模型和线上训练的人脸 LoRA 模型以学习上述信息。LoRA 是一种具有较少可训练参数的微调模型,在 Stable Diffusion 中,可以通过对少量输入图像进行文生图训练的方式将输入图像的信息注入到 LoRA 模型中。因此,个人写真模型的能力分为训练与推断两个阶段,训练阶段生成用于微调 Stable Diffusion 模型的图像与文本标签数据,得到人脸 LoRA 模型;推断阶段基于人脸 LoRA 模型和风格 LoRA 模型生成个人写真图像。
训练阶段:
输入:用户上传的包含清晰人脸区域的图像
输出:人脸 LoRA 模型
描述:首先,我们分别使用基于朝向判断的图像旋转模型,以及基于人脸检测和关键点模型的人脸精细化旋转方法处理用户上传图像,得到包含正向人脸的图像;接下来,我们使用人体解析模型和人像美肤模型,以获得高质量的人脸训练图像;随后,我们使用人脸属性模型和文本标注模型,结合标签后处理方法,产生训练图像的精细化标签;最后,我们使用上述图像和标签数据微调 Stable Diffusion 模型得到人脸 LoRA 模型。
推断阶段:
输入:训练阶段用户上传图像,预设的用于生成个人写真的输入提示词
输出:个人写真图像
描述:首先,我们将人脸 LoRA 模型和风格 LoRA 模型的权重融合到 Stable Diffusion 模型中;接下来,我们使用 Stable Diffusion 模型的文生图功能,基于预设的输入提示词初步生成个人写真图像;随后,我们使用人脸融合模型进一步改善上述写真图像的人脸细节,其中用于融合的模板人脸通过人脸质量评估模型在训练图像中挑选;最后,我们使用人脸识别模型计算生成的写真图像与模板人脸的相似度,以此对写真图像进行排序,并输出排名靠前的个人写真图像作为最终输出结果。
这个项目很有意思,很多老年人年轻的时候条件没那么好,婚纱照都没有留下点什么,用 AI 人像写真帮爷爷奶奶们去实现年轻的时候的梦想,那也是一件很有意义的事情。
初步需要打磨的模块如下:
更多写真风格 lora 模型训练
自适应基模+多 lora 融合模块探索
专业的 face prompt 模型训练
专业的 SD 人物写真基模训练
人物属性的更多 prompt 探索
swap face 模块的打磨优化
女性专业美颜后处理模块探索
高阶应用探索:(例如:表情包、人物动态视频、游戏角色设计、影视动画角色设计等)
2.3 云上 AI 应用训练与推理的存储最佳实践
AI 应用训练是真的费钱,不是一般的企业还真搞不起,最基础的硬件跑一个钟都要几万块。这个看看就是,玩不起。
三、小结
2023 年可谓是 AI 元年,万物皆可 AIGC,大模型层出不穷,各大厂大模型军备竞赛如火如荼,各种 AI 的应用如雨后春笋般涌现。
我第一个比较担心的就是 AI 安全的问题,谁来对第三方模型的合法性、安全性、准确性进行保证?由此引发的任何损害他人的责任问题谁来承担? 这块还是一个巨大的黑盒,需要行业与政府制定相应的政策来规范与约束。
第二点我想提的点是,各大厂商各造各的大模型,耗费极大的算力,能不能大家把资源整合起来、参数规模共享出来?
据不完全统计,中国目前已经有超过 120 家机构或企业发布了自己的 AI 大模型,其中 10 亿参数规模以上的大模型就已经有 79 个,有 20 个是通用领域的大模型,基本来自互联网大厂和科研院所,其余均为垂直领域的产业应用大模型。毫无疑问,中国的 AI 产业正在进入一场名副其实的“百模大战”,而且已经有了逐渐开始向垂直领域深入分化的趋势。
AI 浪潮滚滚而来,你我皆是这股浪潮里的浪花,起起伏伏,被裹挟着往前走。
版权声明: 本文为 InfoQ 作者【老周聊架构】的原创文章。
原文链接:【http://xie.infoq.cn/article/a027bbb44cfb72b14566f2005】。文章转载请联系作者。
评论