比 Playwright 更给力,推荐一个AI Agent的浏览器自动化开源项目! 事情是这样的。最近这一两年我日常的活基本都交给Claude Code了。让它帮我整理文件、写代码、查资料、做总结凡是能交给它的我绝不动手。我自己一个很深的感受是Agent 这种东西你用得越深越离不开它。但是用得越深你也越能踩到它的坑。前两天我就踩了一个特别离谱的坑。我想让 Agent 帮我去某个网站抓一点数据回来。听着不复杂就是打开网页、等加载完、把内容拽下来。我自己脑子里想这玩意不就是个 Playwright 的活吗几行代码的事。结果一跑起来我整个人都不好了。第一关登录态没。Agent 打开的浏览器是个什么都没有的全新小白板它连账号都没登录直接被拦在门口。第二关验证码。好不容易绕过登录这关网站弹出来一个滑块。Agent 直接卡死task 中断啥都干不了。第三关反爬。某些网站我都不点名了Agent 的请求一发出去直接被 Cloudflare 拦在 403 那一页连页面长啥样都没看到。我折腾了两个小时。期间我还自己上手写 Playwright写一段、跑一次、报错一次、再改一次。捣鼓下来我觉得我头发都少了几根。 我当时就想AI Agent 操纵浏览器这个事听着是真性感跑起来是真操蛋。后来我冷静下来想了一下这其实不是 Agent 不聪明是它缺一个稳定的浏览器执行层。Agent 自己是个脑子。它需要一双手一双能真正伸到浏览器里的手。然后有个朋友给我推荐了一个 GitHub 开源项目叫BrowserAct。我本来是抱着试试看的心态。浏览器自动化这块我已经被各种工具伤过太多次了那种一看就牛逼轰轰的项目我见过太多真上手全是坑。但这次我是真的被爽到了。先简单说一下这玩意是啥。BrowserAct是一个面向 AI Agent 的浏览器自动化 CLI。注意这个定语面向 AI Agent。这就跟传统的 Playwright、Selenium 完全不是一个物种。Playwright是给程序员写脚本用的你写一行代码它执行一个动作。它是个确定性的执行工具你让它点哪里它就点哪里。但 BrowserAct 不一样它是给 Agent 用的「真实浏览器执行层」。你不用告诉它先点哪个按钮、再点哪个按钮你只要告诉它「我要干嘛」剩下的它自己想办法。而且它解决了我那天晚上踩的所有坑。我一个个说。回到抓数据这块。我最先试的是抓一个动态加载的网站。具体哪个网站我就不说了就是那种页面源码里啥都没有所有数据都是 JavaScript 异步加载的网页。搞爬虫的朋友应该都知道这种页面有多恶心。我让Claude Code分别用三种方式去抓curl、WebFetch、还有 BrowserAct。curl 是最原始的纯命令行请求。它连 JavaScript 都不执行碰到动态页面直接拿回来一堆空壳。WebFetch 稍微高级一点但说到底还是个静态请求工具。结果也确实是这样。curl 拿回来的就是一堆 HTML 框架数据是一个没有。WebFetch 也差不多。但 BrowserAct 这边它启动了一个 Stealth 浏览器实例真实地把页面加载完了把 JavaScript 跑完了然后再把数据拽出来。跑完一看电影名称、评分整整齐齐躺在表格里。我当时就觉得有点意思。但是这个还不够刺激。真正让我「卧槽」的是第二个场景反爬。玩过爬虫的朋友应该都懂IP 被限这个事是个绕不开的痛。你高频访问一个网站IP 迟早要被风控盯上。我让 BrowserAct 用 Stealth 浏览器 动态代理去抓 Product Hunt 今日热门产品。为啥选这个站因为这玩意上面套了一层 Cloudflare。一般工具进去就是 403。我让 Agent 分别用直连和动态代理两种方式去抓。直连那次请求一发出去直接被 Cloudflare 拦死。返回的就是那个经典的「Just a moment…」等待页面Agent 在那转圈啥也进不去。动态代理那次成功进去了。不仅进去了还把今日热门产品列表完整地抓了回来。我看了一下它的工作原理。动态代理让请求的 IP 跟直连不一样再加上 Stealth 浏览器的指纹伪装两层叠加之后网站看到的是「不同地方的不同用户在正常浏览」。被拦的概率大幅下降。到这里我已经觉得这玩意很能打了。但更骚的还在后面。第三个场景是这个项目真正戳到我的点。账号长期登录。很多朋友可能没意识到这个事有多重要。我解释一下。你想想看假设你有一个 X 账号你今天用 IP-A 登录明天用 IP-B 登录后天又换一个 IP-C。每次的浏览器指纹还都不一样。平台会怎么判断它会认为你的账号在被一群不同的人使用或者在被批量操作。然后你的号就没了。所以对于多账号运营、多店铺管理、长期数据采集这种场景你需要的是固定 IP 固定指纹。这就是 BrowserAct 的静态代理功能。我用静态代理绑定了一个 Stealth 浏览器去访问 X。第一次访问拿到了主页前 10 个帖子的标题、点赞数、评论数还有浏览器的出口 IP、Cookie 摘要、指纹摘要。到这里都很正常。真正炸的是接下来的操作。我关掉了这个会话。过了一段时间我重新启动 Agent再让它做同样的操作。新开一个会话重启浏览器再访问一次 X。两次结果放在一起对比我是真的被惊到了。IP 完全一致。两次独立会话、两次浏览器重启IP 始终锁定在28.56.87.14。Cookie 关键信息一致。10 个 Cookie 里 8 个完全一致。最关键的 loid就是 X 的匿名用户 ID跨会话不变。这意味着 X 把这两次访问识别为同一个用户不会触发「新设备登录」检测。浏览器指纹一致。两次会话生成的指纹完全相同。也就是说IP、Cookie、指纹三项全部一致唯一变化的是内容本身。这正是「一个正常用户多次打开 X」该有的样子。同一台设备同一个网络环境每次看到的是最新内容。我测完之后愣了一下。因为这一刻我突然意识到Agent 终于能像人一样操纵浏览器了。聊到这儿我想说点更深的。行业这一两年一直在喊 AI Agent 会颠覆这个、会颠覆那个。但你真正下场用就会发现Agent 能做的事情其实是非常有限的。它很聪明能理解你的意图能写代码能写文章。但它同时也很无力。它没有手没有眼睛没有登录态没有指纹没有 Cookie。它需要别人帮它把那些「真实世界」的事情先处理好。BrowserAct干的就是这个事。它不是让 Agent 更聪明而是让 Agent 终于能「进得去」。我有时候会觉得AI 这波浪潮里最值得做的不是模型本身而是模型跟真实世界之间的那层「基础设施」。模型是大脑基础设施是手脚。光有大脑没有手脚它就只能活在对话框里。BrowserAct就是给 Agent 长了一双能真正伸到浏览器里的手。这双手能不能敲代码、能不能写文章不重要。重要的是它能登录、能通过验证码、能不被反爬识别。它能进去。能进去是一切的前提。我前段时间一直有个感觉AI 这块最稀缺的不是花活是基建。能把基建做扎实的人比会做花活的人值钱多了。BrowserAct算是其中一个。最后说一下安装。很简单你只要在Claude Code或者Cursor里把这个项目的 GitHub 链接发给 Agent让它自己装就行。不用你动手。安装 browser-act skilL:https://github.com/browser-act/skills/tree/main/browser-actAgent 会自己跑完整个安装流程还会顺手验证一下能不能用。地址我也贴一下GitHub 搜 browser-act 就能找到官网是browseract.ai。Github地址: https://github.com/browser-act/skills 官网地址https://www.browseract.ai说真的这个项目我是打算长期用下去的。它解决的不是「让 Agent 跑得更快」的问题而是「让 Agent 跑得进去」的问题。这两个问题听起来差不多实际上差了十万八千里。我那天晚上踩完坑之后最大的感受就是AI 这玩意未来一定不是模型在单打独斗而是模型 一堆基础设施在打配合。谁能把基础设施这一层做扎实谁就能在 AI 这一波里站得更稳。好了今天就聊到这。以上既然看到这里了如果觉得不错随手点个赞、在看、转发三连吧如果想第一时间收到推送也可以给我个星标⭐谢谢你看我的文章我们下次再见。