AI Browser:从想法到产品,我们走了多远?

大家好,项目已经发布一段时间了。由于得到了 Claude Code 辅助工具的加成,在完成本职工作之余,最近也一直在持续迭代这个开源项目。今天想和大家聊聊这段时间我们做了什么,以及接下来要做什么。
在开始之前,先说个小请求:如果你是个开发且觉得这个项目有价值,请去 GitHub 帮我们点个 Star ⭐️
AIBrowser 仓库(需手动复制到浏览器打开):https://github.com/DeepFundAI/ai-browser
Star 不仅是对我们的鼓励,更能让更多人发现这个工具。目前我们已经获得了一些关注,但还需要更多人的支持才能走得更远。
📊 先说说现状
从项目发布到现在,有一些数据让我挺欣慰的:
✅ 收到了很多有价值的反馈和建议
✅ 有开发者开始关注和研究这个项目
✅ 跨平台支持(Mac、Windows)运行稳定【也可能使用者有问题也没反馈哈哈】
但坦白说,作为一个刚起步的开源项目,我们还需要更多的关注和支持。这也是为什么我恳请大家去 GitHub 点个 Star —— 这真的很重要。
🎉 这段时间我们做了什么
1. 历史任务回放 + 继续会话
以前的痛点:历史记录只能看,不能继续
现在:
✅ 点击历史任务可以完整回放执行过程(带打字机效果)
✅ 支持播放/暂停/速度调节
✅ 可以继续对话,接着上次的任务继续执行
✅ 附件文件可以直接预览
技术实现:我们开发了一个 PlaybackEngine 回放引擎,将消息流拆解为原子片段(AtomicFragment),每个片段都是最小的可回放单元。这样可以精确控制回放进度和速度。任务数据通过 IndexedDB 持久化存储,支持离线查看。会话恢复时,我们会还原完整的执行上下文(包括 workflow、steps、附件等),确保可以无缝续传。
这个功能让任务的延续性大大增强。比如你昨天让 AI 帮你采集了一些数据,今天可以直接在历史记录里继续分析,不用重新开始。
2. 人机交互能力
场景:AI 执行任务时遇到需要人工决策的情况
解决方案:
✅ AI 可以在执行过程中主动向你提问
✅ 你回答后,AI 继续执行
✅ 适用于登录确认、选项选择等场景
举个例子:
技术实现:基于 eko 框架的 HumanInteraction 消息类型,AI 执行过程中可以发起交互请求。我们在主进程和渲染进程之间通过 Electron IPC 建立双向通信通道,当 AI 需要询问时,工作流会暂停并等待用户响应。用户回答后,通过 IPC 将答案传回 Agent,工作流继续执行。整个过程都有完整的状态管理和错误处理。
这让 AI Browser 真正具备了处理复杂任务的能力。
3. 语音输入支持
功能:
✅ 支持语音输入任务(不用打字了!)
✅ 支持 vosk 离线语音识别
✅ 根据语言自动切换识别模型
技术实现:默认使用 Vosk 本地离线语音识别引擎,无需联网即可使用,保护用户隐私。Vosk 会根据用户选择的语言(中文/英文)自动加载对应的识别模型。后续会支持 Microsoft Azure 和讯飞云服务作为可选方案。
这个功能特别适合:
懒得打字的时候
需要快速输入复杂任务的场景
无障碍使用需求
注意:由于我们使用的是离线语音识别,目前只嵌入了比较简单的中英文识别模型,中文识别效果不是很理想。
4. 多语言国际化
支持:
✅ 中文/英文界面切换
✅ 完整的翻译覆盖
✅ 日期时间本地化
技术实现:基于 i18next + react-i18next 构建完整的国际化方案。翻译资源文件按模块组织(main.json、history.json、agent-config.json 等),支持命名空间隔离。语言切换通过 Zustand 全局状态管理,切换时无需刷新页面。日期时间使用 date-fns 的 locale 功能实现本地化格式化。未来可以快速扩展更多语言,只需添加对应的 JSON 翻译文件。
我们希望这个工具能被更多人使用,不局限于中文用户。
5. Agent 配置系统
功能:
✅ 自定义 Agent 的 Prompt(让 AI 更符合你的需求)
✅ 管理 MCP 工具(增删改查)
✅ 配置不同的 Agent 能力
这让 AI Browser 变得更加灵活和可定制。
6. 工具箱页面
改进:
✅ 集中访问所有系统功能
✅ 更清晰的导航
✅ 一键跳转到配置、定时任务、历史等模块
🗺️ 接下来要做什么
基于用户反馈和我们自己的规划,接下来会重点做这几件事:
第 1 阶段(近期,1-2 周)
小优化快速迭代:
任务工作目录隔离
每次任务使用独立的工作目录
避免生成文件相互干扰
更清晰的文件管理
Windows 后台运行优化
改善 Windows 系统下的后台运行特性
减少资源占用
提升稳定性
生成文件支持下载
AI 生成的文件可直接下载
支持批量下载
更方便的文件管理
播放速率调节
历史回放支持速度调节
可快进/慢放
更灵活的回放体验
第 2 阶段(中期,2-4 周)
用户体验提升:
性能优化
长对话的虚拟滚动(100+ 消息不卡顿)
内存优化
更快的启动速度
多语言完善
自动检测系统语言
动态下载对应语音的离线包
支持动态配置在线语音识别(Microsoft、xunfei)
主题定制
深色模式
多种配色方案
用户自定义颜色
第 3 阶段(长期,1-2 个月)
核心能力扩展:
工作流可视化编辑器
支持 workflow 步骤的调整
支持对某个 workflow 的保存
创建定时任务时可以导入之前存储的 workflow
插件市场
官方 MCP 工具库,支持 MCP 协议的工具(http、stdio、sse)
社区插件分享
一键安装/更新
更多 Agent 支持
ShellAgent(执行命令行)
EmailAgent(邮件收发)
NotionAgent(Notion 操作)
🤔 我们需要什么
作为一个开源项目,我们需要三种支持:
1. ⭐️ Star(最简单但很重要)
为什么重要?
让更多人发现这个项目
吸引潜在的贡献者
给我们持续开发的动力
只需 5 秒:https://github.com/DeepFundAI/ai-browser
2. 💬 反馈和建议
你的使用场景是什么?
遇到了什么问题?
希望增加什么功能?
有什么改进建议?
在 GitHub Issues 或评论区告诉我们!
3. 🤝 代码贡献
如果你是开发者:
欢迎提 PR 修复 Bug
欢迎贡献新功能
欢迎完善文档
我们会认真对待每一个贡献。
📌 快速链接
最后
从最初的想法,到现在一个能真正解决问题的工具,这个过程充满挑战也充满乐趣。
每一个 Star、每一条反馈、每一个使用者,都是我们继续前进的动力。
如果你还没试过 AI Browser,不妨下载体验一下。如果你已经在用,欢迎分享你的使用心得。
最重要的是,如果你觉得这个项目有价值,请去 GitHub 点个 Star ⭐️
👉 https://github.com/DeepFundAI/ai-browser
让我们一起把 AI Browser 做得更好!
#人工智能 #浏览器自动化 #开源项目 #效率工具 #AI 应用
关注我,持续分享 AI 工具开发的经验和心得。
有任何问题,欢迎在评论区交流!
版权声明: 本文为 InfoQ 作者【风子】的原创文章。
原文链接:【http://xie.infoq.cn/article/c5c5c263e34379e4c137a5f73】。
本文遵守【CC-BY 4.0】协议,转载请保留原文出处及本版权声明。







评论