写点什么

吴恩达谈数据为中心的 AI 革命

作者:qife
  • 2025-08-09
    福建
  • 本文字数:1139 字

    阅读完需:约 4 分钟

吴恩达:精简 AI 规模

人工智能先驱表示,现在是采用智能规模、"以数据为中心"的方案解决重大问题的时机。


吴恩达曾参与推动基于海量数据的深度学习模型发展,如今他正倡导小数据解决方案。作为人工智能领域的权威专家,吴恩达在斯坦福大学期间率先使用 GPU 训练深度学习模型,共同创建了某机构的 AI 研究部门,并曾担任某中心首席科学家。他目前专注于其公司 Landing AI 开发的 LandingLens 平台,帮助制造商通过计算机视觉改进视觉检测。

基础模型的潜力与局限

关于持续扩大模型规模的争议,吴恩达表示:"NLP 领域的基础模型令我振奋,计算机视觉领域也有望建立类似模型。视频数据中仍有许多信号待挖掘,但由于计算带宽和处理成本限制,我们尚未能构建视频基础模型。"


但他同时指出:"这种范式仅适用于特定问题,其他问题需要小数据解决方案。在许多缺乏庞大数据集的行业,焦点必须从大数据转向优质数据。50 个精心设计的样本就足以向神经网络解释学习目标。"

数据为中心 AI 的核心概念

吴恩达将数据为中心 AI 定义为:"系统化设计构建 AI 系统所需数据的学科。过去十年主导范式是下载数据集同时改进代码,如今对于许多应用,神经网络架构已基本成熟,改进数据成为更有效的途径。"


他特别强调数据一致性的重要性:"我们开发工具帮助用户快速识别数据不一致部分,实现针对性改进。这种方法比简单增加数据量更能提高系统性能。"

制造业 AI 应用实践

在制造业视觉检测领域,Landing AI 采用预训练模型结合数据工程的方法:"关键不在于模型架构,而在于提供工具帮助制造商选择正确的图像集并以一致方式标注。"吴恩达举例说明:"当发现某类别 30 张图像标注不一致时,我们的工具能快速定位这些问题数据,通过重新标注显著提升性能。"

应对数据偏差与合成数据

关于数据偏差问题,吴恩达认为:"数据为中心 AI 使我们能够针对性处理数据子集。当发现模型对特定子集表现不佳时,直接改进整个神经网络架构非常困难,而工程化处理相关子集数据则更为有效。"


对于合成数据,他指出:"这是数据为中心 AI 工具箱中的重要工具,但非唯一解决方案。更简单的工具如数据增强、提高标注一致性或针对性收集更多数据往往应优先尝试。"

行业定制化挑战

吴恩达对比不同领域的 AI 应用差异:"在消费软件领域,几个机器学习模型可服务十亿用户。而在制造业,可能需要为 1 万家制造商构建 1 万个定制 AI 模型。"他认为解决方案在于:"开发工具赋能客户自行构建模型,让他们能够工程化处理数据并表达领域知识。"

AI 发展新方向

吴恩达预测:"过去十年 AI 的最大转变是转向深度学习,而这十年可能是转向数据为中心 AI。随着神经网络架构的成熟,许多实际应用的瓶颈将在于能否高效获取所需数据。整个社区正为此投入巨大能量,希望更多研究开发者加入这一领域。"更多精彩内容 请关注我的个人公众号 公众号(办公 AI 智能小助手)公众号二维码


办公AI智能小助手


用户头像

qife

关注

还未添加个人签名 2021-05-19 加入

还未添加个人简介

评论

发布
暂无评论
吴恩达谈数据为中心的AI革命_人工智能_qife_InfoQ写作社区