让浏览器自己工作:AI 自动化技术落地全攻略【AI 助力全员提效方向】
自动化技术的演进与现状
在数字化转型的浪潮中,自动化技术已经从简单的脚本执行发展为具备智能决策能力的复杂系统。根据 Gartner 最新报告,到 2025 年,超过 70%的企业将在其业务流程中采用某种形式的 AI 驱动自动化。这种转变不仅提高了效率,更重要的是赋予了自动化系统前所未有的适应性和创造力。
传统自动化工具虽然能够完成重复性任务,但面对动态变化的网页元素、复杂的用户交互场景时往往力不从心。这正是 AI 技术可以大显身手的地方——通过机器学习算法理解上下文,做出智能决策,并实时调整执行策略。
传统自动化 VS 智能自动化
流程图
传统自动化

智能自动化

各自特点
代码对比
传统自动化
痛点:元素 ID 变更即导致脚本失败
智能自动化
优势:自动适应登录表单结构调整
使用技术
Playwright 是什么?
Playwright 是由 Microsoft 开发的一款 跨浏览器、跨平台 的 Web 自动化与测试工具,支持 Chromium(Chrome/Edge)、Firefox 和 WebKit(Safari)。它提供了一套统一的 API,用于自动化浏览器操作,适用于:
端到端(E2E)测试
UI 自动化
网页截图 & PDF 生成
爬取动态渲染的网页
性能监控
详细介绍可参考此篇文章:点我跳转
MidScene.js 是什么?
MidScene.js 是一款面向智能自动化的 AI 场景化编程框架,通过自然语言交互和机器学习能力,赋予传统自动化工具(如 Playwright)认知决策能力。它的核心定位是:
AI 增强型自动化:将大语言模型(LLM)与自动化脚本结合
低代码/无代码友好:支持自然语言描述任务场景
多模态交互:处理文本、图像、结构化数据等多种输入
企业级扩展:支持私有化部署和垂直领域微调
技术架构

网页或移动应用
网页自动化
与 Puppeteer 集成
Puppeteer 是一个 Node.js 库,它通过 DevTools 协议或 WebDriver BiDi 提供控制 Chrome 或 Firefox 的高级 API。Puppeteer 默认在无界面模式(headless)下运行,但可以配置为在可见的浏览器模式(headed)中运行。
安装依赖
demo 脚本
与 Playwright 集成
安装依赖
demo 代码
Chrome 桥接模式(Bridge Mode)
使用 Midscene 的 Chrome 插件桥接模式(Bridge Mode),你可以用本地脚本控制桌面版本的 Chrome。你的脚本可以连接到新标签页或当前已激活的标签页。
使用桌面版本的 Chrome 可以让你复用已有的 cookie、插件、页面状态等。你可以使用自动化脚本与操作者互动,来完成你的任务。

安装依赖
demo 脚本
启动 Chrome 插件

运行脚本
Android 自动化
可以通过安装 MCP 工具,操作安卓端
关键工具
更快,通过设置缓存,可以大幅减少 AI 服务相关步骤的执行时间
MIDSCENE_CACHE=1
这是一个环境变量,设置为 1 表示启用 Midscene.js 的缓存功能。在测试运行时,Midscene.js 会尝试复用之前缓存的资源(如渲染结果、静态文件等),从而加速测试执行。
playwright test
运行 Playwright 的测试脚本。
--config=playwright.config.ts
指定 Playwright 的配置文件路径(这里是 TypeScript 格式的配置文件)。
更标准,支持 MCP
API
案例实操
已当前测试登录页面为例,进行了实操

共建
欢迎有想法的伙伴们,咱们一起共建,让 AI 自动化助力你我
版权声明: 本文为 InfoQ 作者【京东科技开发者】的原创文章。
原文链接:【http://xie.infoq.cn/article/9d736205ac477b3303e20d09b】。文章转载请联系作者。
评论