AI“爷青回”:一键找回童年记忆
六一儿童节来了!
本来就恨岁月是把杀猪刀,怎么才转眼就又要被提醒“老阿姨扮可爱要注意分寸感”?
其实六一的“残忍”远不止于此。最近看美剧《咆哮》,妮可基德曼疯狂地吃着老照片,每一张被吞咽下去的照片只能投影出几秒钟真实而温馨的童年回忆。
尽管在现实生活中我们没有“吃掉照片”的这种谜之福利,但当我们在艰难的现实中不知不觉成长为“卑微的大人”时,用 AI 给童年影像上个色,或者让小时候那个不开心的自己笑一个,还是很有乐趣的一件事。
特别是最近看了 36 氪发布的“重温父辈的爱情,揭秘 AI 还原老照片背后的技术”节目,里面提及了 AI 着色和一键微笑技术,更让我有了评测下市面上提供了此类服务的工具的想法。
至于选哪张照片评测,肯定要选经典的——
我钱包里一直夹着两张照片,一张是我六七岁时的“车模照”;
另一张是我孩子六七岁时和我的合影。记得当天也是六一,我连哄带骗,让儿子答应了出街照相。但千算万算,没想相馆旁边竟然是家肯德基!直接导致老母亲前脚还没迈进照相馆,小朋友已经急不可耐地吵着要去吃全家桶了。于是,他有了右图这张茫然中带着渴望,虚无中夹着枉然,无奈中略显着急,想哭但是哭不出来的复杂表情:
一、AI 媒体处理能力评测
1. AI 着色能力比对
为客观评估不同平台的 AI 着色能力,我分别调用了 HMS Core 的视频编辑服务(Video Editor Kit)和另外三款不同平台的 AI 产品功能。
以下是华为及其它三个不同产品品牌的 AI 着色效果对比,我将从图像的明度、饱和度、温度、纹理、形状和互补色等维度,比较四个不同产品平台的 AI 着色效果:
AI 着色效果对比
从上面两组图片的对比中,可以很直观地看到:
品牌 1 的图像整体颜色偏红,明度高,尤其是人脸颜色饱和度过高,纯度也较高,导致人像呈现出锐利感。
品牌 2 的图像整体颜色饱和度偏低,色彩不纯净,发青,明度略高。人物氛围呈清冷感。
品牌 3 的图像,对小车颜色的还原度还不错(接近真实感的淡黄色),但远山的蓝色及合影的背景颜色,饱和度均偏高。尤其是合影照的背景,已经呈现出明显的色彩失真。
综合来看,HMS Core 的着色效果最为自然,色彩渲染柔和中性,更符合原片的事实逻辑,整体看还有一种朴素的复古照相馆的“大片”感,我个人比较满意这张的着色效果。
对于 AI 着色来说,着色的自然程度是用户最大的痛点。究其原因,是因为 AI 着色任务对于数据集、模型结构和训练方式几个因素都非常敏感,哪怕是微小的差异都会导致着色结果大相径庭。
受到数据集采集成本、模型结构和大小以及实际场景多样性的影响,AI 着色还处在初级阶段,出现各式各样的问题很正常,相反做到毫无违和感反而很难。以实际场景的多样性为例,虽然“着色”这一生成类任务的数据集的规模已经很大了,但是仍然难以覆盖所有的实际场景,包括输入图片的光线、角度、人像的肤色、五官外貌、成像设备的不同和差异,都会影响模型的精度和准确性。甚至还有部分困难场景,比如人的四肢和躯干被其他物体分隔开来,即使数据集做到了完全覆盖,也会影响任务效果。
整体来看,HMS Core AI 着色在解决上述问题方面表现得相当不错。之所以能够保证着色结果的准确性,是因为它在百万级大规模数据集的基础上,使用了多种损失函数(Loss Function)监督模型进行训练。所谓损失函数,相当于给模型设置一个目标,为了达成目标,模型在训练过程中会不断修改自身权重。而多种损失函数,则意味着设定多个目标,比如着色要均匀和不能出现人脸偏红等等,模型在训练时会不断调试自身权重,直至同时达成这几个目标为止。最终,使着色效果更为自然。
2. “一键微笑”能力
要说每一位老母亲的刚需,可能还得是华为 HMS Core 视频编辑服务(Video Editor Kit)即将上线的 AI“一键微笑”能力。众所周知,一般老照片的宝宝画风不是“不开心”就是呵呵哒尬笑。
又或者类似下图这张“勉为其难”的亲子照——无论旁边的老母亲怎么温柔顾盼,宝宝本人一定是要保持高贵冷艳的:
所以要想得到一张温馨的亲子照,大多数家长有两种方法,一是“逗”,二“P”。要么在照相馆使出浑身解数逗孩子笑,要么回去拿出美图 APP 一点点修图,但是结果大都不尽人意,让人心态崩坏。
所以对于老母亲来说,“一键微笑”就显得特别的贴心和友好。
简单地说,“一键微笑”就是媒体图像编辑,但是相对于其他任务来说,“一键微笑”要难度更大一些。
话不多说,先看一下四款不同产品的效果对比:
四款不同产品的“一键微笑”功能对比
在上文 AI 着色能力对比时,我其实内心只有少许波动,但是看到微笑编辑的对比后——
从上图可以看到,四款产品的任务完成度确实有些参差不齐:
品牌 1 在双人照片中只选中一人做了微笑处理,笑的幅度过大,且假笑感较强;
品牌 2 的微笑有明显的编辑瑕疵,直观上给人一种“笑得勉强”感,和品牌 1 一样在自然度上得分略低;
品牌 3 不会基于原表情调整微笑的程度,只支持同一幅度的露上牙开口笑,对笑不出八颗牙的用户显然不是很友好。
但看到 HMS Core 的效果后,我心念一动,流下了满足和喜悦的泪水。HMS Core 的一键微笑让我们俩无论是露齿笑还是抿嘴笑,都笑出了自然的弧度。
可以说,“微笑”是检验图像编辑能力的一道测试题,“微笑”搞不好就很容易四不像,把效果变成“笑”果。
无论是图像风格转换还是图像编辑,都要依靠大量的数据来驱动。在某种程度上,输出结果的自然度受到人脸数据集的丰富程度影响。但是,由于用户隐私问题,整个行业在人脸数据采集上的步子迈得并不大。如何在有限的真实人脸数据的基础上丰富人脸数据集成为行业所共同面对的问题。
在由少变多的路程上,华为选择了“曲线救国”,既然找不到那就去创造嘛。利用部分具有肖像权且可用的真实人脸图片,华为在 AI 训练数据集中生成了大量的虚拟人脸图片。比如,通过对不同身份特征、面部特征以及场景特征的排列组合,利用千余张真实人脸照片“繁殖”出数百万的虚拟人像数据集,解决了数据集不足的问题。
另外,由于“微笑”本身并没有一个标准化的定义,没有人可以说出到底怎样的微笑是好的,嘴角要呈现怎样的弧度才算标准,因此建模学习也更加困难。同时微笑编辑的程度往往跟原图人脸的状态相关,如何做到自适应地实现露齿笑和抿嘴笑,以确保笑容的自然程度,一直是个算法难题。HMS Core 研发团队通过自研算法模型对人脸数据集中的照片生成“开心数据对”,使微笑编辑的程度更接近原图人脸状态,并最终挑选出最自然的笑容。
华为 HMS Core 现已将人工智能、媒体等 7 大领域技术以 SDK 开放出来,降低开发门槛,帮助应用创新。现在,开发者只需几行代码快速集成 HMS Core 的视频编辑服务(Video Editor Kit),就可以使用到 AI 着色、一键微笑等 AI 图像能力,让你的老照片焕然一新。
Video Editor Kit 的“一键微笑”功能近期会在华为开发者联盟官网上线,有兴趣的知友可以尝试下。
AI 媒体处理让我看到了在“人工智能”这种冰冷的词其实也可能有着温暖的“人情味儿”。而这其实只需要两步。第一步,重视人的精神需求;第二步,站在审美视角评估任务的完成度。
很显然,当我们开始尝试用 AI 去解锁一场童年回忆时,它已经迈出了第一步。
(文章来源知乎,作者溪亭日暮,文中图片未经作者允许不得转载)
评论