Disco:Google 把“浏览网页”变成“搭应用”的那一步
Disco 是 Google 的一次试探:它想改变我们“用互联网做事”的方式——不再只是打开网页、读完、关掉,而是把网页里的信息直接拼成一个能用的工具。
当你研究一个主题、计划一次旅行,或给孩子备一堂科学课时,浏览器里很快就会堆满标签页:攻略、地图、餐厅、价目表、研究文章……信息越多,越难整合。过去两年,生成式 AI 多数时候做的是“把问题变成更好的文本”。但 Google 在 11 月把方向往前推了一步:不只生成内容,还要生成界面——让模型根据你的任务,现场做出一个可交互的小工具,把理解、操作、决策放到同一个 UI 里完成。
这条路线在产品侧刚落地不久:
- Gemini App 里出现了 Dynamic view 与 Visual layout 两个“生成式界面(generative interfaces)”实验;
- Google Search 的 AI Mode 也开始为查询即时生成带交互工具和模拟器的动态布局。而 12 月 Google Labs 推出的 Disco,则把这套思路带回浏览器:把“看很多网页”直接变成“生成可用的工具界面”。推动这一点的核心功能,就是 GenTabs。
Generative UI:从“生成文本”到“生成界面”
Google Research 把这类能力叫做 Generative UI(生成式 UI):模型生成的不只是“答案内容”,还会连同呈现方式一起生成——它可以按你的指令即时设计、编码并渲染一个交互界面(网页、工具、模拟器、游戏、小应用等),而不只是给你一段 Markdown 长文。
这件事的价值并不玄学:很多复杂任务就是需要“可操作的结构”——表格要筛选、地图要缩放、参数要拖动、对比要切换。文字当然能解释,但很难把“下一步怎么做”写成顺手的交互。Generative UI 要做的,是把“回答”往前推成“工具”。
从工程实现上,Google 给了一个很清晰的“三件套”:
- 工具访问(tool access):让模型能调用图像生成、网页搜索等工具,生成的结果也能直接送到浏览器里展示。
- 系统指令(system instructions):用目标、规划、示例、技术规范与工具手册,把“怎样生成一个靠谱的界面”写清楚。
- 后处理(post-processing):用一组后处理器修常见问题,提升可运行性与一致性。
在 Google Research 的论文里(并配套发布了用于评测的 PAGEN 数据集)还给了一个直观结论:如果暂时不把生成速度算进去,用户更喜欢 Generative UI 的输出,而不是常见的纯文本/Markdown。它整体上仍不如人类专家设计的网站,但差距已经没那么夸张——摘要里提到,有 44% 的案例里,两者达到了“相近水平”。
在产品层面,Gemini 3 把 Generative UI 先做成了两个“生成式界面”实验:
- Visual layout:做成杂志风格的图文布局(照片 + 模块),你可以继续点、继续改,把结果往自己的偏好里收敛。
- Dynamic view:利用 Gemini 3 的 agentic coding 能力,按你的指令现场设计并编码一个定制 UI,让你通过点按、滚动、参数交互来推进任务。
在 Search 的 AI Mode 里,Gemini 3 会为查询动态生成“更合适的布局”。当它判断“做个工具更有用”时,甚至会现场写一个模拟器/计算器(比如物理模拟、贷款计算),直接嵌进结果里,同时把高质量网页链接摆在显眼位置,方便你核验来源。
A2UI:把“生成界面”变成可跨应用/跨信任边界的协议
如果说 Generative UI 更像“模型直接生成一个可运行的网页体验”,那 Google 新公开的 A2UI(Agent-to-User Interface) 更像是在补一块底座:让智能体把 UI 当作结构化消息发给宿主应用,由宿主用自己可信的组件体系来渲染。
它要解决的其实很现实:在多智能体协作里,干活的子智能体往往是远程的,甚至来自不同组织,它当然不该直接“动你的前端”。如果让它回传 HTML/JS 再塞进 iframe,会变笨重、风格割裂,安全边界也麻烦。A2UI 的做法是“像数据一样安全,像代码一样能表达”:智能体只能从客户端维护的“可信组件目录”(比如 Card、Button、TextField)里拼装界面;渲染和样式由客户端掌控,从而降低 UI 注入风险,也更容易和宿主应用保持一致。
在形态上,A2UI 用声明式 JSON(支持增量更新/流式渲染)来描述组件与数据模型,同一份 payload 可以在不同端(Web Components、Angular、Flutter 等)渲染出来。换句话说,“生成界面”不必只靠某个产品单点实现,它也可以变成一种可互操作的 UI 语言:让智能体跨应用、跨平台、跨信任边界时也能稳定地“说 UI”。
把这些连起来看,Disco 就没那么“凭空出现”了:它更像 Generative UI 在真实网页上下文里的一个试验场。浏览器天然握着“你正在看的网页与来源”,所以 Disco 才能把生成出来的界面绑回原网页,形成“浏览—拼装—操作—迭代”的循环。
什么是 Disco 与 GenTabs
- Disco 是一个实验性的浏览器体验,目标不是更快地给你“答案”,而是更快地把散落信息“组装成可操作的界面”。
- GenTabs 是由 Gemini 3 模型依据你的目标与已打开的网页标签即时生成的“小型交互式网页应用”。它不是一段文本总结,而是一个能操作的 UI:地图、行程表、价格对比、抽认卡、简易可视化等。
简单说:传统搜索更像“你去找零件”,GenTabs 更像“它帮你把零件先拼成工具”,你再边用边改。
它具体怎么用
- 你在 Disco 里创建一个“项目”,里面既有聊天(描述你的需求),也有你主动打开的普通网页标签。
- 模型读取你的目标与这些标签页,生成一个 GenTab 界面。你继续打开新网页,GenTab 会“吸收”新信息并更新界面。
- 你可以用自然语言修改界面:增加维度、调整表格、添加筛选、替换数据源……像和一个前端同事配合迭代,但无需写代码。
典型场景:
- 旅行:聚合地图、景点、餐厅与攻略,生成可交互行程规划器;你加新的店铺链接,它自动纳入。
- 学习:从多篇科普与百科页生成抽认卡或交互可视化,帮助理解人体踝关节、行星运动等。
- 生活组织:从食谱页生成周菜单;从搬家报价与清单页生成重量估算器与价格对比表。
与“AI 浏览器/助手”的不同
- 不隐藏网页:很多“AI 浏览器”把网页折叠成总结,鼓励你只在聊天框里待着;Disco 反而鼓励你打开更多网页,用真实来源做“地线”,让生成更可靠、更贴近你的真实意图。
- 结果是“界面”,不是“段落”:它交付的是能操作的 UI,而不仅是文字答案。你会更像在用一个小工具,而不是在读一段总结。
为什么这件事有意义
- 信息组织的门槛被拉低:以前要把多源信息变成可用表格或小工具,得找人做个页面或用复杂的 Notion/Sheet 工程。现在,你用自然语言即可“拼装”并迭代。
- 从“搜索到答案”走向“任务完成”:浏览器不再只是信息入口,而开始像一个任务工作台。对学习、研究、消费决策、轻量项目管理都会更顺手。
- 人机协作的循环更顺畅:人负责探索与选择来源,AI 负责界面与结构化;然后人再补充、更换来源,AI 随即更新界面(天然的双向迭代闭环)。
限制与开放问题
- 持久化与分享:GenTabs 更像“即时拼装的工具”。它是否有独立 URL、如何分享或导出到 Docs/Sheets,是官方仍在探索的方向。
- 早期粗糙性:作为实验产品,界面与功能可能不够稳定或精细。但生成内容都链接回原网页,便于核验与修正。
- 平台与可用性:当前通过等候名单开放,首发 macOS;更多平台与功能路线尚未公布。
面向产品与技术的启示
- 语义到界面:从“生成文本”到“生成可操作 UI”,意味着模型要理解任务目标、数据结构与交互意图——这会推动“生成式前端”的实践。
- 上下文图谱更真实:把“打开的标签页 + 聊天内容”作为任务上下文,比仅靠对话更贴近真实需求;也提示未来助手应主动“引导用户去浏览”,而不是替代浏览。
- 工具的颗粒度:GenTabs 的“即时、一次性、小而全”特性,适合临时任务与快速决策;当任务变复杂,如何从 GenTab 升级为可长期维护的应用,是值得探索的产品分层。
我们该如何看待它
- Disco 不一定是“下一个 Chrome”,但它把一个重要问题抛了出来:当网页内容越来越多、任务越来越复杂时,人与信息之间应不只是“问—答”,而应该是“拼装—操作—迭代”。如果说过去十年我们在信息获取上不断加速,那么接下来十年,也许是把信息“变成工具”的时代。Disco 并未给出所有答案,但朝这个方向迈了一步。
- 这和 OpenAI 的 Atlas 形成鲜明对比:Atlas 喊着要终结 Chrome 垄断,本质还是把 AI 当插件嵌进传统浏览器,难逃 “旧瓶装新酒” 的局限。最关键的是,Atlas 是在谷歌的 Chromium 开源框架上做的,所以它的创新只能停留在叠加一些表层功能;而谷歌作为架构主导者,天然手握底层主动权。尽管 Disco 目前还是实验性产品,未来落地存在不确定性,但一场围绕 AI 浏览器的全新大战,已然正式拉开序幕。
Sources: