浏览器批注 & 截图标注 → AI 工具全景调研
2026-06-29 3 子 Agent 并行交叉验证 · GitHub · Reddit · MCP 生态 · Chrome Store
本报告调研了 2026 年 6 月所有可用于「浏览器批注网页 / 屏幕截图标注 → 发送给 AI Agent 分析」的工具。采用 3 个子 Agent 并行交叉验证,覆盖 GitHub、Reddit (r/ClaudeAI, r/AI_Agents, r/SideProject, r/webdev)、Chrome Web Store、Glama MCP 目录、Smithery、YouTube、ProductHunt 等渠道。
项目概述
用户需求:在浏览器中浏览网页时批注(高亮/笔记/箭头/框选),然后将批注连同上下文发送给 AI 进行分析。这是一个三环节工作流:
flowchart LR
A[浏览网页] --> B{批注类型}
B -->|网页元素| C[onUI / Draw2Agent / Hypothesis]
B -->|截图标注| D[AgileShot / Snapmark / ShareX]
C --> E[结构化导出]
D --> E
E --> F{对接方式}
F -->|MCP 协议| G[Hermes / Claude Code]
F -->|剪贴板| H[粘贴到 AI 聊天]
F -->|REST API| I[脚本管道发送]
核心发现:onUI + Draw2Agent 是仅有的两个从浏览器内直接 MCP 桥接 AI Agent 的方案。Vibe Annotations (6K+ 用户) 是用户量最大的同类型工具。赛道仍处于早期,但 MCP 标准化正在加速。
一、浏览器批注类工具 (14个)
在浏览器内直接标注网页元素/文字,然后导出给 AI Agent。
onUI — MCP 桥接标杆
轻量级浏览器扩展 + 本地 MCP 桥接。专为 AI Agent 设计,是唯一真正打通「浏览器标注→MCP→AI 自动读取」全链路的工具。[2]
- Annotate 模式 — 点击元素,附加意图描述,Shift 多选,页面冻结保持稳定
- Draw 模式 — 拖拽画矩形/椭圆,标注布局和间距问题
- MCP 桥接 —
onui-local本地 server,6 个工具 - 4 种导出格式 — compact / standard / detailed / forensic
- 一键安装 — Chrome Web Store 或 curl 脚本
Draw2Agent — 手绘标注最直观
MCP server 代理 localhost 页面,注入 Excalidraw 绘图层。用户可像在白板上一样画圈/箭头/文字标注页面。提交后自动将截图 + DOM 数据 + 标注打包发给 AI Agent。[3]支持 iPad 扫码画图、Scratch 白板模式。安装:npx -y draw2agent@latest。
Hypothesis — 文本批注标杆
网页批注领域最成熟的开源项目。W3C Web Annotation 标准,完整 REST API,hypothesisapi Python 库可直接调用。[5]通过 API 拉取批注 JSON → 格式化为 Markdown → 发送给 Hermes/Claude。
AgentEcho — 极简 DOM 标注
Chrome 扩展:悬停高亮 DOM 元素→点击放置编号标记→填写反馈→一键复制为 AI-optimized Markdown。[6]只做「标注→Markdown→粘贴给 AI」一件事。
Glasp — AI 克隆 + 社交高亮
网页/PDF/YouTube 高亮批注 + 个人 AI 克隆(基于你的批注学习)。Obsidian 官方插件、GitHub Actions 自动导出、公开 highlights API。唯一提供「AI 用你批注的方式思考」的工具。[7]
浏览器批注工具汇总
| 工具 | ⭐ | 类型 | 标注方式 | AI 对接 | 许可证 |
|---|---|---|---|---|---|
| onUI | 约 80 | 扩展+MCP | 元素标注+画框 | ✅ MCP 原生 | GPL-3.0 |
| Draw2Agent | 新 | MCP Server | Excalidraw 手绘 | ✅ MCP 原生 | MIT |
| Vibe Annotations | 6K+用户 | 扩展+MCP | 元素标注+截图 | ✅ MCP (SSE) | PolyForm |
| Hypothesis | 约 3,155 | 扩展+后端 | 高亮+笔记 | ⚠️ REST API | BSD-2 |
| AgentEcho | 新 | Chrome 扩展 | DOM 编号标注 | ⚠️ Markdown | PolyForm |
| Glasp | 商业 | 扩展+云 | 高亮+AI摘要 | ✅ API+克隆 | 专有 |
| WorldBrain Memex | 约 4,700 | 扩展 | 高亮+笔记+搜索 | ⚠️ 导出后使用 | MIT |
| Readwise | 商业 | 聚合平台 | 多源高亮聚合 | ✅ API+MCP | 专有 |
| Corpus Scribe | 新 | MCP+桌面 | 捕获+LLM笔记 | ✅ MCP (13工具) | 开源 |
| LLMFeeder | 新 | 扩展 | 网页→Markdown | ✅ 剪贴板 | MIT |
二、截图标注类工具 (13个)
先截图,再标注(箭头/框/文字/打码),最后发送给 AI。
AgileShot — AI 原生 + MCP
内置 AI 对话+OCR,MCP Server 提供 25 个工具让 AI 直接控制截图和桌面操作。[8]AI 可主动截图→标注→分析,无需人工介入。基础免费,闭源。
Snapmark — VS Code 内最实用
VS Code 扩展,截图→标注(笔/箭头/矩形/椭圆/文字/高亮/打码/编号)→一键复制→粘贴到任意 AI 聊天。[9]通用性最强,不挑 AI 工具。
ShareX / Flameshot — 开源经典
| 工具 | ⭐ | 平台 | AI 对接方式 |
|---|---|---|---|
| ShareX | 约 30,000 | Windows | 自定义上传器→任何 API;80+ 上传目标 |
| Flameshot | 约 25,000 | Win/Mac/Linux | Ctrl+C 剪贴板→粘贴给 AI;CLI 管道 |
| macshot | 约 3,000 | macOS (Swift) | 剪贴板;19+ 标注工具;OCR+翻译 |
| eSearch | 约 6,400 | 全平台 | 内置 OCR (PaddleOCR);以图搜图;API 翻译 |
| Ksnip | 约 2,500 | 全平台 | 剪贴板;OCR 插件;自定义脚本→API |
AI 原生分析类
| 工具 | ⭐ | 特色 | AI 对接 |
|---|---|---|---|
| Snippai | 约 500 | 截图自动识别公式→LaTeX、表格→CSV、代码解释 | 内置 AI |
| Clearshot | 约 500 | Claude Code Skill:截图→CSS/颜色分析→结构化 Prompt | Skill 调用 |
| MCP Screenshot Server | 约 100 | Python MCP:截图+标注(框/箭头/圆/文字/打码) | ✅ MCP |
| Instruckt | 约 60 | 框架集成:Vue/React/Laravel 内标注→MCP→AI | ✅ MCP |
三、MCP 生态 (8+ Server)
MCP 生态中与「截图/批注→AI」直接相关的 Server 正在快速增长。
Vibe Annotations (6K+ 用户)
Chrome 扩展标注 localhost 页面元素→MCP server (vibe-annotations-server, SSE port 3846)→AI agent 自动实现修复。支持 Claude Code / Cursor / Windsurf / Codex / OpenClaw。[10]
MarkUp — 纯 Chrome 扩展方案
7 种标注工具(编号/铅笔/箭头/矩形/圆形/文字/高亮)→导出 PNG + Markdown changelog(含 CSS selector)→粘贴给 AI。无后端、无账户、无遥测。[11]
MCP Server 完整汇总
| Server | 方式 | 核心能力 | 兼容 Agent |
|---|---|---|---|
| onui-local | 扩展+本地 bridge | 元素标注+画框→6 MCP 工具 | Claude Code / Codex / Cursor / Hermes |
| draw2agent | Excalidraw 覆盖层 | 手绘标注→截图+DOM+MCP | Claude Code / Cursor |
| vibe-annotations-server | SSE (port 3846) | 元素标注+截图→AI 修复 | Claude Code / Cursor / Windsurf / Codex |
| mcp-screenshot-server | Python MCP | 截图+标注(箭/框/圆/文字/打码) | Claude Desktop / Cursor |
| ui-annotator | 反向代理 | Hover 标注(零扩展),MCP 查询 | Claude / Cursor |
| AgileShot MCP | 桌面+MCP | 25 工具:截图+AI对话+OCR+桌面操控 | 任意 MCP 客户端 |
| Playwright MCP | Playwright | 浏览器自动化+截图+JS执行 | Claude / Cursor / VS Code |
| Chrome DevTools MCP | 31k⭐ | DOM snapshot+截图+性能,无视觉标注 | Claude / Cursor |
四、横向对比
| 工具 | 浏览器批注 | 截图标注 | AI 对接 | Hermes | 开箱用 | ⭐ |
|---|---|---|---|---|---|---|
| onUI | ✅ 元素+画框 | ❌ | MCP 原生 | ✅ | ✅ | 约 80 |
| Draw2Agent | ✅ Excalidraw | ✅ 截图内含 | MCP 原生 | ✅ | ✅ | 新 |
| Vibe Annotations | ✅ 元素标注 | ✅ 自动截图 | MCP (SSE) | ✅ | ✅ | 6K+ |
| MarkUp | ✅ 7种工具 | ✅ 截图+MD | 剪贴板 | ⚠️ | ✅ | 686 |
| Hypothesis | ✅ 高亮+笔记 | ❌ | REST API | ⚠️ | ✅ | 约 3k |
| AgentEcho | ✅ DOM编号 | ❌ | Markdown | ⚠️ | ✅ | 新 |
| Snapmark | ❌ | ✅ 8+工具 | 剪贴板 | ⚠️ | ✅ | - |
| ShareX | ❌ | ✅ 全功能 | 自定义API | ⚠️ | ✅ | 30k |
| MCP Screenshot | ❌ | ✅ 标注+截图 | MCP 原生 | ✅ | ✅ | 约 100 |
| Instruckt | ⚠️ 需集成 | ✅ 元素+截图 | MCP+MD | ✅ | ⚠️ | 60 |
五、Hermes 集成路径
Hermes Agent 有 3 条可行路径:
路径 1:onUI MCP(推荐)
- Chrome Web Store 安装 onUI 扩展
- 安装时启用 MCP bridge(
onui-local) - Hermes 配置:
hermes mcp add onui-local - 浏览网页→标注→Hermes 通过 MCP 自动读取批注
路径 2:Draw2Agent MCP
npx -y draw2agent@latest启动- 在 Excalidraw 层上手绘标注
- MCP 自动打包截图+DOM+标注发给 Hermes
路径 3:Hypothesis + 自定义 Skill
- 安装 Hypothesis 扩展
- Python 脚本通过
hypothesisapi拉取批注 - 封装为 Hermes skill,定期拉取→分析
六、推荐方案
首选:onUI + Hermes MCP
- 唯一浏览器批注+MCP直连方案
- 双模式(元素+区域)标注
- 全本地零隐私风险
- Chrome Web Store 一键装
- 4 种导出格式适配不同场景
备选:Draw2Agent + Hermes MCP
- Excalidraw 手绘最直观
- 自动打包截图+DOM+标注
- MIT 许可证
- iPad 扫码画图支持
- 一键
npx启动
| 场景 | 推荐 | 理由 |
|---|---|---|
| 浏览器批注→AI 自动分析 | onUI / Draw2Agent | MCP 直连,零手动 |
| 文本高亮+学术研究 | Hypothesis | 最成熟文本批注,W3C 标准 |
| 截图精细标注→粘贴AI | Snapmark / ShareX | 标注工具丰富,通用粘贴 |
| 开发中App视觉反馈 | Instruckt / Vibe | 框架集成,MCP 支持 |
| AI主动截图分析 | AgileShot / MCP Screenshot | AI 可主动调用截图 |
| 简单网页→AI 上下文 | LLMFeeder / MarkDownload | 一键 Markdown,粘贴即用 |
| 全平台高亮聚合→AI | Readwise / Glasp | 聚合+API,生态丰富 |
「浏览器批注→AI」赛道处于早期但增长迅速。MCP 标准化之后,2026 下半年预计会有更多工具涌现。onUI 和 Draw2Agent 是当前最精准匹配你需求的两个选择。
参考资料
- GitHub — onllm-dev/onUI — https://github.com/onllm-dev/onUI (获取于 2026-06-29)
- onUI 官方 — https://onui.onllm.dev
- GitHub — zero-abd/draw2agent — https://github.com/zero-abd/draw2agent
- GitHub — hypothesis/h — https://github.com/hypothesis/h
- Hypothesis Export — https://web.hypothes.is/help/...
- GitHub — areshkew/agentecho — https://github.com/areshkew/agentecho
- GitHub — glasp-co — https://github.com/glasp-co
- AgileShot — https://agileshot.com
- Snapmark VS Code — VS Code Marketplace
- GitHub — RaphaelRegnier/vibe-annotations — https://github.com/RaphaelRegnier/vibe-annotations
- MarkUp — Chrome Web Store
- GitHub — WorldBrain/Memex — https://github.com/WorldBrain/Memex
- GitHub — gradusnikov/corpus-scribe — https://github.com/gradusnikov/corpus-scribe
- GitHub — alienzhou/web-highlighter — https://github.com/alienzhou/web-highlighter
- GitHub — aamar-shahzad/mcp-screenshot-server — https://github.com/aamar-shahzad/mcp-screenshot-server
- GitHub — mcpware/ui-annotator-mcp — https://github.com/mcpware/ui-annotator-mcp
- GitHub — ShareX/ShareX — https://github.com/ShareX/ShareX
- GitHub — flameshot-org/flameshot — https://github.com/flameshot-org/flameshot
- GitHub — wiebekaai/browser-annotations — https://github.com/wiebekaai/browser-annotations
- Glama MCP Directory — https://glama.ai/mcp/servers
- Hermes MCP Integration — Hermes Agent Docs
- Reddit r/AI_Agents — onUI discussion
- Reddit r/webdev — annotate any UI