AI 收藏夹 Vol.003:AI 能听懂阴阳怪气吗?
人工智能是一门融合了计算机科学、图形学、生物学、语言学等学科的前沿科学。随着产学研深度融合创新,人工智能从理论研究逐渐落地,各种应用与设想层出不穷。「AI 收藏夹」将会与大家分享一些 AI 领域实用有趣的文章和工具,与大家一起见证技术的创新与变革。
文章
0 1
AI 能听懂阴阳怪气吗?
阴阳怪气的本质是什么?在上图的案例中,文字和图片有些矛盾。「我们竟然幸运地得到了一个座位」,然而照片上的观众席却有很多空位;「看上去真好吃」,然而图像上的披萨看起来……🤔
在社交媒体上,用户创建了大量多模式的信息,文字、图片、视频分别代表了三种模式。北京信息工程研究所和中科院合作研发了多模式检测(MultiModal Detection)模型[1],该模型可以检测文字模式内部和多个模式之间的不协调性,从而理解「讽刺」语义。经过 Twitter 数据集检测,准确率可达到 86%。
0 2
AI 预测森林大火
许多森林大火都是因为电网产生火花引起的。Xcel Energy 等多家电力公司正在进行研究,使用无人机检测森林中的电线设施,并使用 AI 算法帮助预测火情高风险地区[2]。无人机上添加了热传感器和激光雷达,激光雷达可以检测出被植被覆盖的电线,扫描线路周围的区域并收集数据,而基于人工智能的算法可以识别涉及绝缘体、连接器、阻尼器、电杆等不同结构的故障,并突出显示需要人工维护的区域。
如上图,该算法可在不同照明条件下,从各个角度检测出损坏的组件,并标记设备的问题。
0 3
深度学习自动增强狗狗的动画效果
动物的运动方式很复杂,有独特的步态、特定的脚步模式。近期,都柏林三一学院和巴斯大学开发了一款基于深度神经网络的模型,自动增强四足动物(比如狗)的动画质量,提高制作动画视频和电子游戏的效率[3]。上图蓝色部分是初始动画的帧,包含一些小错误,不足以反映真实情况下狗狗运动的微妙之处;绿色部分是真实捕捉的数据;红色部分是在蓝绿模型的基础上,进行动画增强后的输出。
0 4
为细胞生物学家提供的图像分类器
植物的染色体大小和数量有很大差异,染色体的图像分类门槛较高,一般由专家人工完成。日本学者 Kiyotaka Nagaki 创建了一个 AI 图像分类器[4],使用染色体图像来训练模型,能正确区分图像中的有丝分裂细胞,对组织切片中的细胞和不同的细胞分裂过程也能有效判断。用人工智能实现图像分类的自动化,不仅可以消除个体差异造成的波动,还可以节省许多宝贵的研究时间。
0 5
呃……我的 AI 怎么有点傻?
AI 在某些方面比人类更快、更准、更可信,不过,AI 也有很多局限性。比如,深度神经网络可以识别图像,但也可能非常「不健壮」,把一张校车照片翻转后,深度神经网络就会自信地说这是一辆扫雪车😓;又比如,2019 年,美国的一个医保算法被指带有种族偏见[5.1],人工智能的嵌入本是为了更公正地判断受保群体,结果它将很多更健康的白人患者纳入医保,而不是将病情更严重的黑人患者。
这篇文章[5.2]总结了 AI 可能的七大弱点,包括:不够健壮、嵌入偏差、遗忘过去的训练知识、可解释性太弱、不确定性量化困难、缺乏常识、数学不好等等,值得一读。
工具
0 1
Neural Dubber 神经网络配音器
🌟 功能:
让 AI 根据配音脚本,自动生成与画面节奏同步的高质量配音
👀 亮点:
根据视频中的嘴唇运动来控制生成语音的语调
可以分辨多个说话人,根据说话人的面部识别产生不同音色的语音。在上方的自动视频配音(AVD)任务示意图中,输入的视频内容是两个人互相交谈,灰色的面部图片表示这个人当时没有说话。
👉 地址:
论文地址:https://arxiv.org/abs/2110.08243
项目主页:https://tsinghua-mars-lab.github.io/NeuralDubber/
0 2
画图工具 NN-SVG
🌟 功能:
绘制神经网络架构图往往非常耗时,这个在线工具可以帮你节约大量时间。该工具可以绘制三种类型的图:经典的全连接神经网络图形(FCNN style)、以平铺网络结构展示的 LeNet style、以三维块形式展现的 AlexNet style。
👀 亮点:
提供多种尺寸、颜色和布局参数,可按照用户的喜好来设计图形
可导出 SVG 格式的图像,可直接用于学术论文或网页
👉 地址:
GitHub 地址:https://github.com/alexlenail/NN-SVG
项目主页:http://alexlenail.me/NN-SVG/index.html
0 3
科研辅助工具 ExplainaBoard
🌟 功能:
该怎么想出一个好点子?如何设计更好的模型?这个平台将模型分析和模型评价排行榜结合起来,能够完成单系统诊断、系统对分析、数据集分析、细粒度错误分析、共有错误分析、可靠性分析、系统组合等任务,有效提升科研人员的学术体验。
👀 亮点:
该平台可以帮助新手快速理解某个数据集的特性,定位模型的优缺点
平台发布了 API,用户可以提交自己的模型,并将它们部署到在线的 ExplainaBoard 中进行分析
👉 地址:
GitHub 地址:https://github.com/neulab/ExplainaBoard
项目主页:http://explainaboard.nlpedia.ai/
参考资料:
[1] AI 识别讽刺: https://aclanthology.org/2020.findings-emnlp.124.pdf
[2] AI 预测森林大火: https://spectrum.ieee.org/smokey-the-ai
[3] 自动增强狗狗动画效果 : https://techxplore.com/news/2021-11-deep-method-automatically-dog-animations.html
[4] 细胞生物学的图像分类器: https://phys.org/news/2021-11-hat-ai-powered-image-cell-biologists.html
[5.1] 美国某医保算法被指带有种族偏见: https://spectrum.ieee.org/racial-bias-found-in-algorithms-that-determine-health-care-for-millions-of-patients
[5.2] AI 可能的七大弱点: https://spectrum.ieee.org/ai-failures
Zilliz 以重新定义数据科学为愿景,致力于打造一家全球领先的开源技术创新公司,并通过开源和云原生解决方案为企业解锁非结构化数据的隐藏价值。
Zilliz 构建了 Milvus 向量数据库,以加快下一代数据平台的发展。Milvus 数据库是 LF AI & Data 基金会的毕业项目,能够管理大量非结构化数据集,在新药发现、推荐系统、聊天机器人等方面具有广泛的应用。
评论