写点什么

刷屏洗脑的“吗咿呀嘿”,到底是个啥?

发布于: 2021 年 03 月 01 日


“蚂蚁呀嘿,蚂蚁牙呼,蚂蚁牙呼呼呼~”


相信不少朋友跟「架构精进之路」作者一样,这个元宵节周末就被这首“蚂蚁呀嘿”刷屏、洗脑了。

这个 BGM 原本出自新加坡歌手郭美美的《不怕不怕》(由 Dragostea Din Tei 演唱的 O-Zone 改编而来),被网友们戏称为“蚂蚁呀嘿”。


其中,德云天团也齐刷刷,以搞怪亮相出场。


而以“蚂蚁呀嘿”为 BGM 的特效,仅仅在抖音平台上的超话,截止发稿前,已经达到了近 20 亿。


其实,这个“蚂蚁呀嘿”并不是抖音特效,而是出自国外的一款 AI 换脸软件—Avatarify。


关于 Avatarify

大家初次看到“Avatarify”可能会有种莫名的熟悉感。

这款软件最早出现在 2020 年初,当时因一则“马斯克换脸”视频在国内外一度刷屏。

年初,新冠疫情在全球迅速蔓延,很多人被迫宅在办公,一位来自俄罗斯的程序员 Ali Aliev 觉得整天在家里开视频会议太无趣,他决定用 AI 换脸恶搞一下同事,于是就有了 Avatarify。

在视频通话过程中,Ali Aliev 用 Avatarify 软件把自己的头像换成了世界首富马斯克,同事们看到大佬出现在了会议中,一时也是惊呆了。



可以看出,视频中的 AI 换脸从五官、发型的效果非常好看不出一点破绽,而且如果讲话面部表情也随之微动,不过不能讲话,一讲话可能就露馅了。

这则恶搞视频发布到 YouTube 网站后,受到网友们热捧,该项目在 GitHub 平台也迅速登上了热榜。


因为当时还是一个代码库,用户需要有一定的机器学习基础,才能在电脑上设置,其火爆程度远不如今日。

正是考虑到这一点,最近作者 Ali Aliev 将 Avatarify 做成了一个 APP 的形式,大大降低了用户的使用门槛。



关于如何制作作品,在此就不做过多介绍了,主要介绍下实现原理。


实现原理

其实有趣的点在于:如何通过 AI,来搞定各图片人物实现一致动作的呢?(让一张照片动起来,人脸跟着音乐一起挤眉弄眼)

这需要一个叫做:一阶运动模型 (First Order Motion Model)来搞定。

一阶运动模型:该技术原理借鉴了去年意大利特伦托大学的一项研究,入选了 NeurIPS 2019 论文「First Order Motion Model for Image Animation」。



一阶运动模型的思想是用一组自学习的关键点和局部仿射变换来建立复杂运动模型。



模型框架主要由 2 部分构成,运动估计模块和图像生成模块

而这两种变换,通过使用以自监督方式学习的关键点来获得。利用局部仿射变换对每个关键点附近的运动进行建模。


(1)首先进行关键点检测,然后根据关键点,进行运动估计,最后使用图像生成模块,生成最终效果。

(2)在运动估计模块中,该模型通过自监督学习将目标物体的外观和运动信息进行分离,并进行特征表示。

(3)而在图像生成模块中,模型会对目标运动期间出现的遮挡进行建模,然后从给定的图片中提取外观信息,结合先前获得的特征表示,生成图片。

作者使用该算法在四个数据集上进行了训练和测试。

数据集包括:VoxCeleb 数据集、UvA-Nemo 数据集、The BAIR robot pushing dataset、作者自己收集的数据集。

其中,VoxCeleb 是一个大型人声识别数据集。

它包含来自 YouTube 视频的 1251 位名人的约 10 万段语音,同时数据基本上是性别平衡的(男性占 55%),这些名人有不同的口音、职业和年龄。



除了需要用到这个一阶运动模型,还需要使用 OpenCV 和 ffmpeg 做视频、音频和图像的处理。

后续

作为技术同学,是不是仅仅使用 AI 特效还不过瘾呢?是不是想自己亲手搭建环境来实现一番呢?

更多资料信息,欢迎关注「架构精进之路」本公众号,在底部菜单栏回复关键字「MYYH」,即可免费获取关于算法原理、环境搭建及实现等资料信息。


技术参考资料:

  • 「First Order Motion Model for Image Animation」@NeurIPS 论文 2019

  • https://github.com/AliaksandrSiarohin/first-order-model



🎉 关注公众号 | 架构精进之路,即时获取更新

  • 本人十年后端研发经验,任职架构师,曾“混迹”多个互联网大厂,专注软件架构技术研究学习,希望能够不断沉淀、学习以及分享,将自己工作中的问题和技术总结输出,分享影响到更多的人;

  • 公众号专注:软件架构研究,技术学习与职业成长。内容涵盖:系统架构应用汇总、消息中间件、MySQL 实用探秘、职业认知升级 四大模块,大家可以在公众号底部菜单“精选专题”里随时查阅;

  • 大家看我的公众号头像图片像是一个陀螺,其实是寓意螺旋式上升,让技术和自我能够不断精进。



文章首发于个人同名公众号《架构精进之路》,原文链接:刷屏洗脑的“吗咿呀嘿”,到底是个啥?



Thanks for reading!

发布于: 2021 年 03 月 01 日阅读数: 25
用户头像

坚持分享接地气儿的架构技术文章! 2018.02.26 加入

同名微信公众号「架构精进之路」,专注软件架构研究,技术学习与职业成长!坚持原创总结、沉淀和分享,希望能带给大家一些引导和启发,感谢各位的支持(关注、点赞、分享)!

评论

发布
暂无评论
刷屏洗脑的“吗咿呀嘿”,到底是个啥?