写点什么

面向数据科学的 AI 助手:SageMaker Canvas 中的 Amazon Q 开发者工具

作者:qife
  • 2025-07-27
    福建
  • 本文字数:985 字

    阅读完需:约 3 分钟

开发基于 AI 的预测模型通常需要数据科学专业知识、机器学习算法经验以及对业务场景的理解。完整的数据科学应用开发周期(从数据获取到模型训练评估)往往耗时数日甚至数周。


2024 年 re:Invent 大会首次以测试版亮相,并于 2025 年 2 月 28 日正式发布的 Amazon Q Developer in SageMaker Canvas,是一款基于生成式 AI 的助手,允许客户仅用自然语言在几分钟内构建和部署 ML 模型,无需 ML 专业知识。该工具采用聊天机器人交互形式,用户只需描述业务问题并附加数据集。例如,客户可以输入:"我是银行信贷风险分析师,希望根据财务特征和经济指标对贷款申请人进行分类(违约/非违约)"。


用户可通过多轮对话执行机器学习训练任务。提交业务问题后,可选择现有数据集、从 S3/Redshift/SQL/Snowflake 创建新数据集,或直接上传本地 CSV 文件。数据集需为表格格式,包含目标预测列和特征列,时间序列预测还需时间戳列。


Q Developer 是具备代理能力的自主系统,LLM 作为用户与代理之间的主要接口。对话过程中,代理将中间结果存储在非易失性内存块中,包括数据集位置、业务背景、问题类型、特征列/目标列名称及 ML 损失函数等信息。该内存块采用依赖图结构实现,每个节点代表问题变量(如 problem_type、evaluation_metric 等),这种结构帮助代理推断构建 ML 模型所需的缺失变量。


系统能自动识别 ML 任务类型(二元/多元分类、回归或时间序列预测),并推荐合适的损失函数。通过"最可能下一步操作"按钮引导用户完成数据准备、模型构建和 ML 训练全流程。收集完所有输入后,Q Developer 会在后端构建数据预处理管道并准备集成模型训练,自动处理数据清洗(填充缺失值、分类特征编码、异常值处理、去重等)。


用户可随时查询数据集详情(如缺失值比例、异常值数量),或通过 DataWrangler 进行高级分析和可视化。为最大化预测质量,Q Developer 采用 AutoML 方法训练集成模型(包含 XGBoost、CatBoost、LightGBM、线性模型、神经网络等),自动完成特征工程和超参数优化。


模型训练完成后,用户可对测试数据集运行推理,或一键部署为 SageMaker 推理终端节点。系统自动生成可解释性报告,展示数据集属性、特征重要性、训练过程和性能指标。该工具现已开放使用,让非专业用户也能通过自然语言命令构建强大的 ML 模型。


(致谢:Vidyashankar Sivakumar, Saket Sathe, Debanjan Datta 和 Derrick Zhang)更多精彩内容 请关注我的个人公众号 公众号(办公 AI 智能小助手)公众号二维码


办公AI智能小助手


用户头像

qife

关注

还未添加个人签名 2021-05-19 加入

还未添加个人简介

评论

发布
暂无评论
面向数据科学的AI助手:SageMaker Canvas中的Amazon Q开发者工具_机器学习_qife_InfoQ写作社区