如果你最近关注过 AI 浏览器智能体(Browser Agent),一定见过那种在网页上画满编号小方框的演示视频——AI 根据框的序号点击、输入、滚动,看起来挺酷,但一遇到复杂的现代网站就频繁翻车。DOM 结构一变,编号全乱,智能体瞬间”失明”。
今天介绍的这个项目 Magnitude,选择了一条完全不同的路:它像人类一样用眼睛看屏幕,直接定位像素坐标,而不是依赖脆弱的 DOM 编号。而且在 WebVoyager 基准测试上拿到了 94% 的准确率。

Magnitude 网站截图
为什么”画框派”注定走不远?
目前市面上大多数浏览器智能体(包括某些明星产品)的核心交互逻辑是:把页面元素提取出来,打上 1、2、3 的编号,然后让 LLM 选择”点击第 5 号元素”。
这套方案在简单表单页上能跑,但现代网页越来越复杂:Shadow DOM、Canvas 渲染、动态加载、响应式布局……编号系统要么覆盖不全,要么坐标漂移。本质上,这些智能体不是在”看”网页,而是在”读”网页的骨架。
Magnitude 的解法很直接:让视觉能力最强的 LLM(Claude)直接看屏幕截图,输出像素级别的点击、拖拽、输入坐标。它不 care 你的 DOM 结构长什么样,只 care 按钮在视觉上的位置。这种”视觉优先”的架构,让它面对任何前端框架、任何视觉风格都能稳定工作,甚至为未来扩展到桌面应用、虚拟机操作埋下了伏笔。
不只是准,还专为”生产环境”设计
很多浏览器智能体的演示视频看起来很丝滑,但真放到生产环境跑自动化任务,不是超时就是陷入死循环。问题出在它们的抽象层级太粗:你给一句”帮我订一张去上海的机票”,它就开始黑盒式地一路执行到底,中间出错你完全无法干预。
Magnitude 在这方面做了三个关键设计:
1. 灵活的抽象层级
你可以让它执行细粒度的单步动作(点击、输入、滚动),也可以编排成高层次的业务流。开发者和 AI 之间有了真正的”协作界面”。
你可以让它执行细粒度的单步动作(点击、输入、滚动),也可以编排成高层次的业务流。开发者和 AI 之间有了真正的”协作界面”。
2. 全层级可定制
从单个动作到整个 Agent 的 Prompt,都可以注入自定义逻辑。这意味着你能把公司的内部操作规范、特定的错误处理策略直接写进智能体行为里。
从单个动作到整个 Agent 的 Prompt,都可以注入自定义逻辑。这意味着你能把公司的内部操作规范、特定的错误处理策略直接写进智能体行为里。
3. 原生缓存机制(开发中)
对于重复性任务,Magnitude 正在实现确定性运行缓存,避免每次都要重新调用昂贵的多模态模型,这对企业级自动化至关重要。
对于重复性任务,Magnitude 正在实现确定性运行缓存,避免每次都要重新调用昂贵的多模态模型,这对企业级自动化至关重要。

上手比想象中简单
Magnitude 完全开源,安装只需一行命令:
bash
# 通用自动化场景
npx create-magnitude-app
# 或接入现有项目做测试自动化
npm i magnitude-test && npx magnitude init
它默认接入 Anthropic Claude,只需要一个 API Key,无需自托管模型,也不需要 GPU。Claude 的视觉理解能力目前确实是第一梯队,Magnitude 把这个优势用到了极致。
官方给出的示例代码也很直观——用 Zod 做类型约束,让 Agent 去网页上提取结构化数据、跨站导航、自动创建任务,全程用自然语言描述意图:
JavaScript
const issuesURLs = await agent.extract(
"Extract the URL for the 3 most recent issues",
z.array(z.string())
);
写在最后
浏览器智能体赛道正在从”Demo 玩具”转向”生产工具”。Magnitude 的聪明之处在于,它没有去卷更多的工具函数,而是回归了一个更本质的问题:让 AI 像人一样看屏幕、点像素。
Magnitude官网入口及最新网址获取办法
1. 官网入口:https://magnitude.run/
2.秘塔AI搜索:打开访问秘塔官网,输入框内输入“Magnitude官网地址”,点击搜索
Magnitude官网打不开?
1.使用手机浏览器访问:建议您使用手机浏览器打开Magnitude网站。微信或QQ可能会屏蔽部分未备案或敏感的网站,因此请确保通过浏览器或手机浏览器直接访问,避免因平台限制而导致无法打开。
2.选择合适的浏览器:如果浏览器提示Magnitude网站违规,这可能是浏览器厂商对该网址进行了屏蔽,并非网站本身存在问题。建议您使用不会屏蔽网站的浏览器,例如苹果手机用户可以使用自带的Safari或Chrome浏览器,以确保正常访问。
3.检查网络连接:部分小网站可能未针对三大运营商(电信、联通、移动)进行优化,从而导致网络连接问题。您可以尝试切换到更稳定的网络,例如使用加速器将网络切换至电信等优质运营商。如果仍无法访问,可以来李同学导航网寻找Magnitude的最新网址。部分网站可能需要科学上网(但不推荐此方法)。
以上方法可解决大部分无法打开Magnitude网站的问题。如果问题依旧,请及时举报与反馈。如有其他疑问,欢迎在线留言,我们将竭诚为您服务。
特别声明
本站李同学导航提供的Magnitude都来源于网络,不保证外部链接的准确性和完整性,同时,对于该外部链接的指向,不由李同学导航实际控制,在2026年5月20日 上午11:45收录时,该网页上的内容,都属于合规合法,后期网页的内容如出现违规,可以直接联系网站管理员进行删除,李同学导航不承担任何责任。
相关导航
Looka AI是一款基于人工智能的在线品牌设计工具,专为创业者、小微企业以及缺乏设计经验的个人打造。
Pixlr
Pixlr是一款多平台图像编辑与设计工具,已发展为涵盖网页端、桌面端和移动端的完整创意套件。其核心目标是降低专业图像处理的难度,通过一键式功能和类似Photoshop的高级工具。

SuperClaude 框架
SuperClaude 是一个元编程配置框架,通过行为指令注入和组件编排,把通用AI助手改造成结构化的专业软件开发平台。
稿定设计
稿定设计是一款在线设计平台,依托自主研发的AI图像算法和多媒体处理技术,提供从海报、LOGO到电商素材的全场景设计能力。

Free Font
Free Font是一个收集了商用免费字体,包括汉字和英语,为用户提供了低成本 、高灵活性的解决方案。

Marketing Skills for Claude Code
Marketing Skills for Claude Code一款专为Claude Code、Codex、Cursor等AI工具打造的营销技能包,GitHub星标高达11840,一键安装就能让AI拥有30+专业营销技能,堪称技术人的营销外挂。

VEER
VEER图库,收集了超过1.8亿优质正版图片和视频资源,可提供用户下载且商用。

PixVerse CLI
学习如何安装 PixVerse CLI、生成首个AI图像和视频,并在 Claude Code、Cursor 及AI智能体中实现创意工作流自动化。