吴恩达谈数据为中心的 AI 革命
吴恩达:精简 AI 规模
人工智能先驱表示,现在是采用智能规模、"以数据为中心"的方案解决重大问题的时机。
吴恩达曾参与推动基于海量数据的深度学习模型发展,如今他正倡导小数据解决方案。作为人工智能领域的权威专家,吴恩达在斯坦福大学期间率先使用 GPU 训练深度学习模型,共同创建了某机构的 AI 研究部门,并曾担任某中心首席科学家。他目前专注于其公司 Landing AI 开发的 LandingLens 平台,帮助制造商通过计算机视觉改进视觉检测。
基础模型的潜力与局限
关于持续扩大模型规模的争议,吴恩达表示:"NLP 领域的基础模型令我振奋,计算机视觉领域也有望建立类似模型。视频数据中仍有许多信号待挖掘,但由于计算带宽和处理成本限制,我们尚未能构建视频基础模型。"
但他同时指出:"这种范式仅适用于特定问题,其他问题需要小数据解决方案。在许多缺乏庞大数据集的行业,焦点必须从大数据转向优质数据。50 个精心设计的样本就足以向神经网络解释学习目标。"
数据为中心 AI 的核心概念
吴恩达将数据为中心 AI 定义为:"系统化设计构建 AI 系统所需数据的学科。过去十年主导范式是下载数据集同时改进代码,如今对于许多应用,神经网络架构已基本成熟,改进数据成为更有效的途径。"
他特别强调数据一致性的重要性:"我们开发工具帮助用户快速识别数据不一致部分,实现针对性改进。这种方法比简单增加数据量更能提高系统性能。"
制造业 AI 应用实践
在制造业视觉检测领域,Landing AI 采用预训练模型结合数据工程的方法:"关键不在于模型架构,而在于提供工具帮助制造商选择正确的图像集并以一致方式标注。"吴恩达举例说明:"当发现某类别 30 张图像标注不一致时,我们的工具能快速定位这些问题数据,通过重新标注显著提升性能。"
应对数据偏差与合成数据
关于数据偏差问题,吴恩达认为:"数据为中心 AI 使我们能够针对性处理数据子集。当发现模型对特定子集表现不佳时,直接改进整个神经网络架构非常困难,而工程化处理相关子集数据则更为有效。"
对于合成数据,他指出:"这是数据为中心 AI 工具箱中的重要工具,但非唯一解决方案。更简单的工具如数据增强、提高标注一致性或针对性收集更多数据往往应优先尝试。"
行业定制化挑战
吴恩达对比不同领域的 AI 应用差异:"在消费软件领域,几个机器学习模型可服务十亿用户。而在制造业,可能需要为 1 万家制造商构建 1 万个定制 AI 模型。"他认为解决方案在于:"开发工具赋能客户自行构建模型,让他们能够工程化处理数据并表达领域知识。"
AI 发展新方向
吴恩达预测:"过去十年 AI 的最大转变是转向深度学习,而这十年可能是转向数据为中心 AI。随着神经网络架构的成熟,许多实际应用的瓶颈将在于能否高效获取所需数据。整个社区正为此投入巨大能量,希望更多研究开发者加入这一领域。"更多精彩内容 请关注我的个人公众号 公众号(办公 AI 智能小助手)公众号二维码

评论