写点什么

AI Browser:从想法到产品,我们走了多远?

作者:风子
  • 2025-12-07
    浙江
  • 本文字数:2664 字

    阅读完需:约 9 分钟

AI Browser:从想法到产品,我们走了多远?

大家好,项目已经发布一段时间了。由于得到了 Claude Code 辅助工具的加成,在完成本职工作之余,最近也一直在持续迭代这个开源项目。今天想和大家聊聊这段时间我们做了什么,以及接下来要做什么


在开始之前,先说个小请求:如果你是个开发且觉得这个项目有价值,请去 GitHub 帮我们点个 Star ⭐️


AIBrowser 仓库(需手动复制到浏览器打开):https://github.com/DeepFundAI/ai-browser


Star 不仅是对我们的鼓励,更能让更多人发现这个工具。目前我们已经获得了一些关注,但还需要更多人的支持才能走得更远。



📊 先说说现状

从项目发布到现在,有一些数据让我挺欣慰的:


  • ✅ 收到了很多有价值的反馈和建议

  • ✅ 有开发者开始关注和研究这个项目

  • ✅ 跨平台支持(Mac、Windows)运行稳定【也可能使用者有问题也没反馈哈哈】


但坦白说,作为一个刚起步的开源项目,我们还需要更多的关注和支持。这也是为什么我恳请大家去 GitHub 点个 Star —— 这真的很重要。



🎉 这段时间我们做了什么

1. 历史任务回放 + 继续会话

以前的痛点:历史记录只能看,不能继续


现在


  • ✅ 点击历史任务可以完整回放执行过程(带打字机效果)

  • ✅ 支持播放/暂停/速度调节

  • ✅ 可以继续对话,接着上次的任务继续执行

  • ✅ 附件文件可以直接预览


技术实现:我们开发了一个 PlaybackEngine 回放引擎,将消息流拆解为原子片段(AtomicFragment),每个片段都是最小的可回放单元。这样可以精确控制回放进度和速度。任务数据通过 IndexedDB 持久化存储,支持离线查看。会话恢复时,我们会还原完整的执行上下文(包括 workflow、steps、附件等),确保可以无缝续传。


这个功能让任务的延续性大大增强。比如你昨天让 AI 帮你采集了一些数据,今天可以直接在历史记录里继续分析,不用重新开始。

2. 人机交互能力

场景:AI 执行任务时遇到需要人工决策的情况


解决方案


  • ✅ AI 可以在执行过程中主动向你提问

  • ✅ 你回答后,AI 继续执行

  • ✅ 适用于登录确认、选项选择等场景


举个例子:


任务:帮我采集某个需要登录的网站数据
AI:检测到需要登录,是否已经登录?你:是的,已登录AI:好的,继续采集数据...
复制代码


技术实现:基于 eko 框架的 HumanInteraction 消息类型,AI 执行过程中可以发起交互请求。我们在主进程和渲染进程之间通过 Electron IPC 建立双向通信通道,当 AI 需要询问时,工作流会暂停并等待用户响应。用户回答后,通过 IPC 将答案传回 Agent,工作流继续执行。整个过程都有完整的状态管理和错误处理。


这让 AI Browser 真正具备了处理复杂任务的能力。

3. 语音输入支持

功能


  • ✅ 支持语音输入任务(不用打字了!)

  • ✅ 支持 vosk 离线语音识别

  • ✅ 根据语言自动切换识别模型


技术实现:默认使用 Vosk 本地离线语音识别引擎,无需联网即可使用,保护用户隐私。Vosk 会根据用户选择的语言(中文/英文)自动加载对应的识别模型。后续会支持 Microsoft Azure 和讯飞云服务作为可选方案。


这个功能特别适合:


  • 懒得打字的时候

  • 需要快速输入复杂任务的场景

  • 无障碍使用需求


注意:由于我们使用的是离线语音识别,目前只嵌入了比较简单的中英文识别模型,中文识别效果不是很理想。

4. 多语言国际化

支持


  • ✅ 中文/英文界面切换

  • ✅ 完整的翻译覆盖

  • ✅ 日期时间本地化


技术实现:基于 i18next + react-i18next 构建完整的国际化方案。翻译资源文件按模块组织(main.jsonhistory.jsonagent-config.json 等),支持命名空间隔离。语言切换通过 Zustand 全局状态管理,切换时无需刷新页面。日期时间使用 date-fns 的 locale 功能实现本地化格式化。未来可以快速扩展更多语言,只需添加对应的 JSON 翻译文件。


我们希望这个工具能被更多人使用,不局限于中文用户。

5. Agent 配置系统

功能


  • ✅ 自定义 Agent 的 Prompt(让 AI 更符合你的需求)

  • ✅ 管理 MCP 工具(增删改查)

  • ✅ 配置不同的 Agent 能力


这让 AI Browser 变得更加灵活和可定制。


6. 工具箱页面

改进


  • ✅ 集中访问所有系统功能

  • ✅ 更清晰的导航

  • ✅ 一键跳转到配置、定时任务、历史等模块



🗺️ 接下来要做什么

基于用户反馈和我们自己的规划,接下来会重点做这几件事:

第 1 阶段(近期,1-2 周)

小优化快速迭代


  1. 任务工作目录隔离

  2. 每次任务使用独立的工作目录

  3. 避免生成文件相互干扰

  4. 更清晰的文件管理

  5. Windows 后台运行优化

  6. 改善 Windows 系统下的后台运行特性

  7. 减少资源占用

  8. 提升稳定性

  9. 生成文件支持下载

  10. AI 生成的文件可直接下载

  11. 支持批量下载

  12. 更方便的文件管理

  13. 播放速率调节

  14. 历史回放支持速度调节

  15. 可快进/慢放

  16. 更灵活的回放体验

第 2 阶段(中期,2-4 周)

用户体验提升


  1. 性能优化

  2. 长对话的虚拟滚动(100+ 消息不卡顿)

  3. 内存优化

  4. 更快的启动速度

  5. 多语言完善

  6. 自动检测系统语言

  7. 动态下载对应语音的离线包

  8. 支持动态配置在线语音识别(Microsoft、xunfei)

  9. 主题定制

  10. 深色模式

  11. 多种配色方案

  12. 用户自定义颜色

第 3 阶段(长期,1-2 个月)

核心能力扩展


  1. 工作流可视化编辑器

  2. 支持 workflow 步骤的调整

  3. 支持对某个 workflow 的保存

  4. 创建定时任务时可以导入之前存储的 workflow

  5. 插件市场

  6. 官方 MCP 工具库,支持 MCP 协议的工具(http、stdio、sse)

  7. 社区插件分享

  8. 一键安装/更新

  9. 更多 Agent 支持

  10. ShellAgent(执行命令行)

  11. EmailAgent(邮件收发)

  12. NotionAgent(Notion 操作)



🤔 我们需要什么

作为一个开源项目,我们需要三种支持:

1. ⭐️ Star(最简单但很重要)

为什么重要?


  • 让更多人发现这个项目

  • 吸引潜在的贡献者

  • 给我们持续开发的动力


只需 5 秒https://github.com/DeepFundAI/ai-browser

2. 💬 反馈和建议

你的使用场景是什么?


  • 遇到了什么问题?

  • 希望增加什么功能?

  • 有什么改进建议?


在 GitHub Issues 或评论区告诉我们!

3. 🤝 代码贡献

如果你是开发者


  • 欢迎提 PR 修复 Bug

  • 欢迎贡献新功能

  • 欢迎完善文档


我们会认真对待每一个贡献。



📌 快速链接



最后

从最初的想法,到现在一个能真正解决问题的工具,这个过程充满挑战也充满乐趣。


每一个 Star、每一条反馈、每一个使用者,都是我们继续前进的动力。


如果你还没试过 AI Browser,不妨下载体验一下。如果你已经在用,欢迎分享你的使用心得。


最重要的是,如果你觉得这个项目有价值,请去 GitHub 点个 Star ⭐️


👉 https://github.com/DeepFundAI/ai-browser


让我们一起把 AI Browser 做得更好!




#人工智能 #浏览器自动化 #开源项目 #效率工具 #AI 应用


关注我,持续分享 AI 工具开发的经验和心得。


有任何问题,欢迎在评论区交流!

发布于: 刚刚阅读数: 2
用户头像

风子

关注

还未添加个人签名 2020-05-31 加入

还未添加个人简介

评论

发布
暂无评论
AI Browser:从想法到产品,我们走了多远?_人工智能_风子_InfoQ写作社区