I. 谷歌 I/O 2025:开启 AI 驱动创新的新浪潮
谷歌 I/O 2025 大会明确地将人工智能(AI)定位为其整体产品战略和未来愿景的根本支柱,而不仅仅是一系列功能。此次大会展示了谷歌将 AI,特别是其 Gemini 模型,融入到每一个可以想象到的用户接触点和开发者工具中的不懈努力。这不仅仅是一次更新迭代,更标志着一次全面的平台转型。谷歌的目标是重新定义用户与信息、服务乃至整个数字世界的互动方式 1。正如大会主题所揭示的,这代表着谷歌正从“研究走向现实”,将数十年的 AI 研究成果转化为全球用户、企业和社区的实际应用 3。
谷歌 AI 运营和参与规模的指数级增长令人瞩目。首席执行官桑达尔·皮查伊强调,谷歌目前每月在其产品和 API 中处理超过 480 万亿个 token,与去年同期的 9.7 万亿个 token 相比,增长了惊人的 50 倍。此外,超过 700 万开发者正在使用 Gemini 进行构建,数量增长了五倍,而 Gemini 在 Vertex AI 上的使用量则激增了 40 倍。Gemini 应用本身也拥有超过 4 亿的月活跃用户,其中 2.5 Pro 模型在该应用中的使用量增长了 45% 3。
这种全面的平台转型体现在大会发布的几乎所有内容中,从搜索引擎的革新到 Android XR 的进展,再到为开发者提供的各种新工具,无一不以 Gemini 为核心。这并非浅尝辄止的改变,而是谷歌深思熟虑后的战略核心转移。如此大规模的 token 处理量增长,不仅仅是为了应对更多的查询请求,更是为了向 AI 模型提供海量数据进行学习和改进,从而巩固 AI 的基础性地位。
面对来自 OpenAI 和微软等参与者的激烈竞争,谷歌这种以 AI 为中心的积极战略,无疑是一次直接而有力的回应。I/O 大会与微软 Build 大会的召开时间相近 4,以及谷歌强调其 Gemini 2.5 Pro 模型在各项排行榜上超越竞争对手的表现 6,都凸显了其强烈的竞争意识。谷歌并非在真空中创新,而是在积极地展示其技术优越性,并试图引领 AI 领域的发展方向。对“智能体 AI”的重点关注 7,也直接回应了竞争对手正在探索的类似概念。
开发者参与度和用户与 Gemini 驱动产品的互动大幅增加,形成了一个强大的“AI 飞轮效应”。更多的使用会产生更多的数据,这反过来又有助于谷歌优化其模型,使其功能更强大、更具吸引力,从而推动进一步的普及。Token 处理量增长 50 倍和开发者数量增长 5 倍 3 并非孤立的统计数据。更多的开发者基于 Gemini 进行构建,意味着会涌现更多融入 AI 的应用,从而吸引更多用户。用户的互动(无论是明确的反馈还是隐含的信号)为模型改进提供了宝贵的数据,进而催生出更优质的 AI,这又会吸引更多的开发者和用户。这种自我强化的循环对于保持竞争优势至关重要。
II. Gemini 生态系统:驱动谷歌的 AI 未来A. Gemini 2.5 Pro 与 Flash:谷歌 AI 的双引擎
谷歌发布了其旗舰 Gemini 2.5 模型系列的重大更新,主要区分为用于复杂任务的 Gemini 2.5 Pro 和追求速度与效率的 Gemini 2.5 Flash。
Gemini 2.5 Pro 被定位为谷歌能力最强的模型,目前在 WebDev Arena 和 LMArena 等排行榜上处于领先地位 6。其关键增强包括:
Deep Think:一种实验性的增强推理模式,专为高度复杂的数学和编码任务设计,采用的技术允许模型在生成响应前考虑多种假设。该模式在具有挑战性的基准测试中表现出色 1。此功能将通过 Gemini API 和 Vertex AI 提供给受信任的测试人员。长文本与视频理解:保持 100 万 token 的上下文窗口,在这些领域提供最先进的性能 6。原生音频输出与实时 API 改进:实时 API(预览版)提供视听输入和原生音频输出对话功能,可实现更自然的对话体验。开发者可以引导语气、口音和说话风格。2.5 Pro 中新的文本转语音功能支持多个说话者和超过 24 种语言 9。增强安全性:显著提升了对间接提示注入等威胁的防护能力,使 Gemini 2.5 成为“迄今为止最安全的模型系列” 9。开发者体验:引入“思考摘要”以提高透明度,并将“思考预算”扩展到 2.5 Pro,以控制成本和延迟 6。
Gemini 2.5 Flash 则针对速度、低成本和效率进行了优化:
在推理、多模态、代码和长文本方面均有性能提升,同时 token 使用量减少了 20-30% 6。预计将于 6 月初在 Vertex AI 上正式发布 11。
谷歌对 Gemini 2.5 Pro 和 Flash 的明确区分和持续改进,表明其正在采取一种成熟的策略,以满足从高风险、复杂推理(Pro 与 Deep Think)到高通量、低延迟任务(Flash)的广泛 AI 应用需求。这使得谷歌能够在其庞大的产品系列中同时优化性能和成本。“思考预算” 6 功能进一步强化了这种成本与性能的优化。这种策略使得谷歌能够更广泛地部署 AI,而不会在简单任务上产生过高的成本,同时继续在复杂任务上挑战极限。
B. Gemini Live 与 Project Astra:迈向通用、情境感知 AI 助手
谷歌正积极推动构建一个能够理解用户真实世界情境的“通用 AI 助手”。
Gemini Live:现已向所有 Android 和 iOS 用户免费开放,该功能允许 Gemini 应用利用设备的摄像头和屏幕共享来理解用户所见,并提供情境辅助。据报道,其对话时长平均是基于文本交互的五倍 3。Project Astra:作为谷歌对未来 AI 助手愿景的展示,Astra 旨在成为一个“世界模型”,能够实时理解、推理并记住其所见所闻,从而实现真正对话式和有益的互动。Project Astra 的部分技术正在为 Gemini Live 提供支持 3。
Project Astra 和 Gemini Live 不仅仅是带有视觉输入的问答系统,它们代表了谷歌创造“环境 AI”(ambient AI)的雄心——一种能够(在用户许可下)持续感知并主动提供帮助的助手。这是朝着 AI 成为人类认知无缝延伸迈出的一步。免费提供 Gemini Live 10 是一项战略举措,旨在让用户习惯这种新范式。
C. 智能体 AI:Project Mariner 与 Agent Mode 主动出击
谷歌正在从信息检索转向能够代表用户执行任务的 AI。
Project Mariner:一个基于浏览器的智能体 AI 研究原型,目前能够同时处理多达 10 项任务(例如预订航班、研究、购物)。它采用“示教重复”方法来学习任务。最新版本将首先提供给美国的 Google AI Ultra 订阅用户 3。Gemini 应用中的 Agent Mode:这种即将向订阅用户推出的新模式,将允许 Gemini 执行多步骤任务,例如根据标准查找公寓列表并通过与网站互动来安排参观 3。
Project Mariner 和 Agent Mode 标志着一种转变,即 AI 智能体可能成为许多在线任务的主要交互界面,从而可能将与单个网站和应用的直接互动抽象化。这对现有的网络生态系统具有深远的影响。例如,Project Mariner 能够“与网络互动并为你完成任务” 3,而 Agent Mode 能够处理预订航班等任务 3,这意味着 AI 正在代替用户直接进行浏览和表单填写。这可能会重塑企业接触客户的方式以及用户在线完成任务的方式。
此外,Project Astra 中开发的实时视觉和听觉理解能力,与 Android XR 眼镜的目标完美协同。一个能够“看见”和“理解”世界的 AI,正是使智能眼镜变得真正智能和具有情境实用性的关键。在 XR 眼镜上进行的实时翻译演示 10 就是一个很好的例子,说明了类似 Astra 的功能如何增强 XR 体验。一项技术直接赋能并增强另一项技术。
表1:Gemini 2.5 Pro 与 Gemini 2.5 Flash:主要区别与应用场景
特性Gemini 2.5 ProGemini 2.5 Flash主要设计目标最大化能力/复杂性处理速度/效率优先关键创新Deep Think 模式,100 万 token 上下文窗口增强的效率,减少 token 使用量性能基准LMArena 排行榜领先,WebDev Arena 表现优异速度/token 使用量改进原生音频/实时 API先进的对话控制,多说话者 TTS高效的音频处理思考预算可用,侧重复杂任务可用,侧重成本与延迟平衡安全性增强迄今最安全的模型系列,针对间接提示注入等威胁进行防护共享 Gemini 2.5 系列的安全特性理想应用场景复杂研究,高级编码,创意内容生成,长文本视频理解设备端摘要,快速响应,高通量任务可用性Vertex AI, Gemini API, Gemini 应用 (具体功能逐步上线)Vertex AI (6月初GA), Gemini API, Gemini 应用 (具体功能逐步上线)
数据来源:1
III. 谷歌搜索的变革:AI Mode 及未来展望A. AI Mode 走向主流:全新的搜索范式
谷歌宣布在美国向所有用户广泛推广搜索中的“AI Mode”,使其超越了实验性的 Labs 阶段。这标志着搜索体验的根本性转变。AI Mode 利用 Gemini 2.5 和一种“查询扇出”(query fan-out)技术来分解复杂问题,同时进行多次搜索,并将信息合成为全面的对话式答案,通常以“AI Overviews”的形式呈现 1。用户可以提出更长、更复杂、多部分的问题,进行后续对话,并接收包含表格、视觉效果和引用报告的回复 1。
Deep Search:AI Mode 内的一项功能,可将查询扩展到扫描数百个网页,结合信息,在几分钟内提供专家级、完整引用的报告 3。Search Live:结合 Project Astra 的能力,允许用户将手机摄像头对准物体或场景,并实时提问,有效地与搜索进行视觉对话 8。
AI Mode 的广泛推广以及 Deep Search 等功能的出现,表明谷歌正在为一个未来做准备,在这个未来中,传统的蓝色链接搜索结果将退居次要地位,取而代之的是 AI 合成的答案。这是谷歌在 AI 颠覆浪潮中重新定义其核心产品的最激进举措。有观点认为搜索将被“重塑为一个集成的智能 AI 聊天机器人” 2,而 AI Overviews 正在“取代其传统的网页链接排名” 20。“查询扇出” 17 和 Deep Search 3 等功能旨在直接提供全面的答案,减少用户点击多个链接的需求。这是对 AI 原生搜索替代方案的主动防御和进攻。
B. AI 驱动的购物:从浏览到购买
AI Mode 引入了复杂的购物功能,利用谷歌包含超过 500 亿件产品的购物图谱。用户可以描述所需的商品,AI 将呈现匹配的选项 17。
虚拟试穿:用户可以上传个人照片,查看服装在自己身上的虚拟效果。此功能使用能够理解人体以及材料如何悬垂和拉伸的模型 8。智能体结账:AI 购物智能体可以跟踪商品可用性和价格。用户可以设定目标价格,当价格降至目标时,AI 可以在用户许可的情况下使用 Google Pay 自动下单 2。
复杂的 AI 购物功能,特别是智能体结账,表明谷歌打算更深入地参与电子商务交易环节,从而可能在广告之外获得更多收入。虚拟试穿 15 增强了购物体验,而智能体结账 2 则直接促进了购买。通过将这些功能集成到搜索中,谷歌可以在其生态系统内引导用户从发现到购买,从而可能获得佣金或加强其 Google Pay 平台。这是与搜索意图相关的收入来源多样化的一项战略举措。
C. 超个性化与情境理解
AI Mode 即将整合“个人情境”(Personal Context),利用来自用户 Gmail、过往搜索、旅行预订和其他谷歌应用数据(需用户许可)的信息,提供高度定制化的推荐和搜索结果 1。例如,它可以根据用户已知的兴趣和旅行计划,推荐用户正在访问的城市的活动。AI Mode 还将能够为数据比较查询生成定制的图表和图形 15。
尽管谷歌高管表示 AI Overviews 可能会带来更多搜索量 3,但独立研究(如 20 中引用的 BrightEdge 研究)表明点击率可能下降。AI Mode 增强的功能,特别是 Deep Search 提供“完整引用的专家报告”,可能会进一步加剧这种情况,对依赖搜索流量的内容发布商的商业模式构成重大挑战。如果 AI Mode 提供一份全面的、引证充分的报告 8,用户的信息需求可能在谷歌界面内就得到完全满足。AI Mode 本身也警告称“网络发布商应该担心 AI Mode 会减少他们从搜索结果中获得的流量” 20。这不仅仅是一个微小的调整,而是网络信息消费方式的潜在范式转变。
“个人情境”功能 1 提供了巨大的实用性,但其成功取决于用户的信任以及他们是否愿意授权访问其在谷歌服务中的大量个人数据。这将是对谷歌在解决隐私问题的同时传达价值能力的一次严峻考验。个性化推荐的强大功能(例如,基于 Gmail 预订的旅行建议 18)是不可否认的。然而,这需要 Gemini 访问和处理敏感数据。谷歌强调用户许可 3,但该功能的成功将取决于谷歌如何能够让用户确信他们的数据得到负责任和透明的处理,尤其是在隐私意识日益增强的时代。
IV. 开发者天地:赋能 AI 构建的新工具与平台A. Google AI Studio 与 Gemini API:简化 AI 开发流程
Google AI Studio 现已将 Gemini 2.5 Pro 直接集成到其原生代码编辑器中,从而实现更快的原型设计。它与 GenAI SDK 紧密优化,允许通过文本、图像或视频提示即时生成 Web 应用 12。Gemini API 通过 Gemini 2.5 的高级推理能力和 URL Context(通过链接从网页提取上下文)等新工具得到增强。Gemini SDK 将支持模型上下文协议(MCP)定义,以便更轻松地与开源工具集成 12。Gemini 2.5 Flash 在实时 API 中的原生音频功能允许构建能够“听和说”的智能体应用,并能在 24 种语言中精确控制语音、语调、语速和风格 12。
B. Firebase:AI 优先的开发平台Firebase Studio:现由 Gemini 2.5 驱动,这个基于云的 AI 工作区支持快速的全栈应用开发。新功能包括通过 Builder.io 插件直接导入 Figma 设计,并由 Gemini 通过聊天辅助添加特性/功能;支持 Unsplash 集成的图像占位符;以及自动化的后端设置(推荐并配置 Firebase Auth/Firestore)12。
Firebase AI Logic(Vertex AI in Firebase 的演进):支持通过客户端应用或 Genkit(用于服务器端实现)直接集成谷歌的生成式 AI 模型(Gemini, Imagen)。新功能包括直接访问 Gemini Developer API、混合推理(设备端 Gemini Nano,云端备用)、实验性的 Firebase AI Logic SDK for Unity & Android XR、使用 Gemini 进行图像生成/编辑,以及扩展的 AI 监控仪表盘 12。Firebase MCP Server(早期预览):允许 AI 辅助工具直接与 Firebase 资源交互(创建项目、下载 SDK 配置、回答后端问题等)23。Data Connect:Firebase 中的 Gemini 简化了模式创建和查询/变更的构建过程 23。
C. 开放模型:Gemma 3n 及专用变体Gemma 3n(早期预览):一款移动优先的开放模型,由于采用了逐层嵌入(PLE)、KVC 共享和高级激活量化等创新技术,可在低至 2GB RAM 的设备上运行。它基于与移动硬件领导者共同设计的新架构(也为下一代 Gemini Nano 提供支持)构建。具有“混合搭配”(mix'n'match)功能,可动态创建子模型。提供多模态理解(音频、文本、图像、增强视频)和改进的多语言性能 12。MedGemma:Gemma 3 的一个变体,针对多模态医学文本和图像理解进行了优化,可通过 Health AI Developer Foundations 获取 12。
SignGemma(今年晚些时候推出):专为手语理解而设计(最初支持美国手语到英语的翻译)12。DolphinGemma:一个经过微调以理解海豚交流的研究模型 12。D. Android 开发:注入 Gemini 的 AI 能力Gemini in Android Studio:AI 驱动的编码伴侣,旨在提高生产力。预览功能包括“Journeys”(通过自然语言描述用户旅程来编写/执行端到端测试的智能体体验)和“Version Upgrade Agent”(用于更新依赖项)。崩溃洞察现在提供 AI 分析的解释和潜在的源修复。实验性 AI 功能可通过 Studio Labs 菜单访问 12。新的 ML Kit GenAI API:利用 Gemini Nano 执行常见的设备端任务,如摘要、校对、重写和图像描述,提供增强的隐私性、更低的延迟和更低的成本 12。
Androidify:一个展示生成式 AI 的示例应用,可以通过自拍照创建一个 Android 机器人 12。E. Chrome:为用户和开发者打造更智能的浏览器Gemini in Chrome 桌面版:向美国的 AI Pro/Ultra 订阅用户推出,允许用户请求 Gemini 澄清/总结网页内容,未来计划支持多标签页导航和任务执行 10。AI in Chrome DevTools:集成 Gemini 以支持调试工作流,可直接应用建议的更改,并在性能面板中提供“Ask AI”功能以获取上下文洞察 12。
新的内置 AI API (Gemini Nano):从 Chrome 138 开始,Summarizer, Language Detector, Translator, 和 Prompt API for Chrome Extensions 已稳定。Writer, Rewriter, Proofreader, 和多模态 Prompt API 处于 origin trials/Canary 阶段 12。自动密码更改:Chrome 的密码管理器将能够在用户同意的情况下自动更改在数据泄露中受损的密码(适用于兼容网站)10。F. Jules:异步 AI 编码智能体
现已进入公开测试阶段,Jules 是一个并行的异步编码智能体,直接与 GitHub 代码库集成。它可以通过启动云虚拟机并进行协调的代码库编辑来处理版本升级、编写测试、更新功能和修复错误等任务 12。
G. Stitch 与 Colab AI 增强功能Stitch:一种新的 AI 驱动工具,可通过对话式迭代为 Web 应用生成 UI 设计和相应的前端代码(CSS/HTML 或 Figma 导出)12。Colab 的智能体优先体验:由 Gemini 2.5 Flash 驱动的新版 AI 优先 Colab 可帮助用户处理微调模型和构建 UI 等复杂任务 12。H. 扩展的谷歌开发者计划权益
包括 Gemini Code Assist Standard、新的生成式 AI 开发者年度积分,以及三个月的 Google One AI Premium。此外还宣布了一个新的 Google Cloud 与 NVIDIA 社区 12。
谷歌正在通过一系列工具显著降低构建 AI 驱动应用的门槛,例如 Google AI Studio 及其 GenAI SDK 12、Firebase Studio 的 Figma 导入和无代码 AI 添加功能 23,以及用于 UI 生成的 Stitch 12。这使得更广泛的开发者群体(而不仅仅是 AI 专家)能够参与其中,从而加速整个生态系统中 AI 应用的创建。
对 Gemini Nano 在设备端任务(ML Kit API 12;Chrome 内置 API 12)和 Gemma 3n 的移动优先架构 26 的强调,突显了谷歌对隐私保护、低延迟和离线功能的 AI 的推动。这在日益关注隐私的时代以及对于需要实时响应的应用而言,是一个关键的差异化因素。Gemini Nano 带来的“增强隐私、降低延迟和更低成本” 12 以及 Gemma 3n 的“移动、边缘设备峰值效率……隐私优先和离线就绪” 26 设计,并非次要特性,而是解决关键用户痛点并赋能新型应用的战略方向。
从 AI 辅助编码(Android Studio 中的 Gemini 12、Jules 12)到 UI 生成(Stitch 12)、自动化测试(Gemini Journeys 12)乃至后端配置(Firebase Studio 23),谷歌正将 AI 定位为整个软件开发生命周期的有机组成部分。这种全面的 AI 集成旨在增强开发者在每个阶段的能力,而不仅仅是孤立的任务,从而提高效率并可能催生更复杂的应用。
谷歌持续投入于尖端的专有 Gemini 系列和日益强大的开放 Gemma 系列 12,这表明了一种细致入微的战略。Gemini 驱动谷歌自身的产品和高端企业解决方案,而 Gemma 则促进更广泛的社区创新、设备端应用,并允许开发者进行更多控制和定制。Gemini 2.5 Pro 与 Deep Think 9 代表了 AI 研究的前沿。与此同时,Gemma 3n 26 则以可访问性为设计目标(“可在低至 2GB RAM 上运行”)。这并非矛盾,而是互补。谷歌从使用 Gemma 的活跃开源社区中受益,同时也通过 Gemini 为其战略产品和云服务推动技术边界。像 MedGemma 12 这样的专用模型进一步表明了通过开放模型赋能细分领域创新的承诺。
V. 扩展现实:Android XR、可穿戴设备与车载体验A. Android XR:重燃对增强与混合现实的关注
谷歌大力推广其用于 AR/VR/MR 体验的平台 Android XR。重点主要集中在作为日常可穿戴设备的智能眼镜上,利用摄像头、麦克风、扬声器和透镜内显示屏与 Gemini 互动并提供情境辅助。现场演示展示了实时语言翻译功能 1。
关键的硬件合作伙伴关系包括与眼镜品牌 Gentle Monster 和 Warby Parker 合作打造时尚的 Android XR 眼镜。三星是“Project Moohan” XR 头显的核心合作伙伴,预计将于今年晚些时候推出。XREAL 也在基于 Android XR 开发名为“Project Aura”的系留式智能眼镜 1。开发者将于今年晚些时候开始为眼镜进行开发,预示着即将到来的生态系统建设 17。Android XR SDK 开发者预览版也已提及 12。
B. Wear OS 6 与 Android Auto:移动中的 GeminiWear OS 6:将于今年晚些时候推出,将采用全新的 Material 3 Expressive UI 设计,提供个性化的视觉效果和动效。开发者可以使用新的 Jetpack 库(Wear Compose Material 3, Wear ProtoLayout Material 3)25。Gemini AI 应用也将登陆 Wear OS 16。Android Auto:将迎来新的 Gemini 集成,支持更多应用类别如游戏和视频,并增强媒体/通信应用的能 16。
谷歌对 XR,特别是眼镜形态的再次发力,不仅仅关乎新硬件,更是为其 AI(尤其是 Gemini 和类 Astra 功能)创建一个全新的、高度情境化的平台。眼镜为 AI 提供了“眼睛和耳朵”,使其能够无缝理解并与用户的世界互动。Android XR 眼镜上的实时翻译演示 10 就是一个绝佳的例子,这需要实时的音频处理、语言理解、翻译和视觉显示——所有这些都是 AI 的核心优势。相关资料明确地将 Android XR 与 Gemini 的能力联系起来 8。眼镜的形态非常适合一个永远在线、情境感知的 AI 助手。
与 Gentle Monster 和 Warby Parker 等时尚品牌的合作 10 表明,谷歌正试图从一开始就关注时尚和更广泛的消费者吸引力,以避免 Google Glass 曾面临的“科技感过强”的形象问题。Google Glass 当时面临社会接受度问题,部分原因在于其过于显眼的设计。与成熟眼镜品牌的合作 15 预示着一项战略,即让 XR 眼镜更加低调和时尚,通过使其看起来像普通眼镜来提高采用率。
通过为各种硬件合作伙伴(三星、XREAL、眼镜品牌)提供 Android XR 作为操作系统,谷歌旨在构建一个广泛的生态系统,类似于其在智能手机领域的 Android 战略,而不是仅仅依赖自己的第一方硬件 10。这种方法允许多样化的硬件产品满足不同细分市场的需求,从而加速 Android XR 平台本身的普及,而谷歌的 AI 服务则是该平台的核心。
将 Gemini 集成到 Wear OS 16 和 Android Auto 16 中,扩展了谷歌个性化 AI 的覆盖范围,使其能够在更多的日常接触点上使用,并强化了“环境 AI”的愿景。这不仅仅是关于语音命令,更是关于与用户当前活动(例如驾驶、锻炼)相关的积极协助和情境信息。这使得这些平台更有价值,并进一步将用户融入谷歌的 AI 生态系统。
VI. 媒体、通信与基础设施的创新A. 生成式媒体:Veo 3、Imagen 4 与 Flow 套件
谷歌展示了其在生成式媒体模型方面的显著进展。
Veo 3:一款 AI 视频生成器,现已支持音频提示生成,包括背景噪音、音效甚至角色间的对话,这标志着其超越了无声 AI 视频的重大一步 1。它在物理和光照理解方面也有所提升。Imagen 4:一款 AI 图像生成器,在准确性、清晰度和细节方面得到增强,尤其是在纹理(织物、水、毛皮)和排版方面。它支持多种宽高比和高达 2K 的分辨率 1。Flow:一套全新的 AI 电影制作套件,结合了 Imagen、Veo 和 Gemini。它允许用户使用自然语言命令构建故事板、扩展场景、调整节奏、控制摄像机角度/运动,并叠加音乐(来自 Google Lyria),同时强调角色和场景的一致性。该套件向 Google AI Pro/Ultra 订阅用户开放 1。谷歌还宣布与达伦·阿罗诺夫斯基的 Primordial Soup 和 Google DeepMind 合作,探索 AI 在讲故事中的作用,并展示了使用 Veo 和 Flow 生成的短片《Ancestra》1。B. Google Beam:下一代 3D 视频通信
Project Starline 已正式演进为 Google Beam,一个 AI 优先的 3D 视频通信平台。它使用六个摄像头阵列和 AI 技术,将 2D 视频流转换为逼真、沉浸式的 3D 体验,并在光场显示器上呈现,具有近乎完美的头部跟踪能力,实时帧率高达 60fps 1。谷歌正与惠普合作,于今年晚些时候向早期企业客户推出首批 Google Beam 设备 3。
C. SynthID Detector:应对 AI 内容真实性问题
谷歌推出了 SynthID Detector,这是一个新的门户和工具,旨在通过扫描图像、音频、视频或文本中的 SynthID 水印来帮助识别 AI 生成的内容 10。研究人员和媒体专业人士可以通过等候名单获得早期访问权限 10。据报道,已有超过 100 亿份内容带有 SynthID 水印 16。
D. Ironwood TPU:驱动谷歌的 AI 雄心
谷歌发布了其第七代张量处理单元(TPU)Ironwood,专为推理工作负载而设计。与上一代 Trillium 相比,其峰值计算能力提升了 5 倍,高带宽内存(HBM)容量提升了 6 倍(每芯片高达 192GB,带宽 7.2-7.4 TB/s)。一个包含 9216 个芯片的大型计算集群可提供高达 42.5 exaFLOPS 的计算能力 3。每个芯片可提供 4.6 PFLOPS 的 FP8 密集计算性能 40。Ironwood 的能效比 Trillium 高出 2 倍。增强的网络连接包括新的 400G Cloud Interconnect 3。
凭借 Veo 3 的音频生成能力和 Flow 全面的电影制作工具,谷歌正在迅速缩小与 OpenAI Sora 等竞争对手的差距,并致力于提供更端到端的创意解决方案 8。Flow 对一致性和可控性的关注解决了当前生成式媒体的关键痛点。与电影制作人的合作 1 表明谷歌有强烈的意愿使这些工具在专业领域切实可行。
Starline 演进为 Beam 并与惠普建立合作关系 3,标志着这项高端 3D 通信技术明确的企业优先战略。它旨在解决远程协作和临场感方面的实际业务问题。强调“自然且深度沉浸的对话体验” 3 弥补了标准视频通话在商业应用中的不足。
SynthID Detector 的推出 10 是谷歌为解决 AI 生成内容来源问题而采取的一项积极措施。然而,其有效性将取决于 SynthID 水印的广泛采用以及检测器对抗规避手段的稳健性。AI 生成内容的兴起带来了对深度伪造和错误信息的担忧。SynthID 是谷歌的技术回应。尽管已有 100 亿份内容添加了水印,但“有多少未标记内容仍是未知数” 16 的说法突显了挑战所在:对于许多第三方工具而言,添加水印是自愿行为,且检测器也可能被欺骗。这是必要的一步,但并非完整的解决方案。
像 Ironwood 这样的定制 TPU 的持续进步 3 是谷歌 AI 战略中一个关键且常被低估的组成部分。这种定制硬件为其大规模 AI 模型的训练和部署(无论是内部使用还是面向 Google Cloud 客户)提供了显著的成本、性能和效率优势。相关资料明确指出,“模型进展得益于我们世界领先的基础设施”以及“我们从 TPU 开始的基础设施实力,帮助我们以显著降低模型价格的同时,提供速度快得多的模型” 3。其规格(42.5 exaFLOPS,能效提升 2 倍 3)不仅仅是数字,它们转化为构建更强大 AI(如 Gemini 2.5)并以具有竞争力的方式提供服务的能力。这种垂直整合是一项关键的战略资产。
VII. 全新 AI 订阅服务:Google AI Pro 与 UltraA. 高级 AI 功能的商业化探索
谷歌推出了两个主要的付费订阅等级,以提供其最先进的 AI 功能:
Google AI Pro:这是之前 AI Premium 计划(前身为每月 20 美元的 Gemini Advanced)的演进版本。该计划包含全套 AI 产品,并提供比免费版本更高的使用限制和特殊功能。这包括 Gemini 应用(含 Advanced/2.5 Pro)、Flow、NotebookLM 等 8。Google AI Ultra:这是一个全新的超高端等级,定价为每月 250 美元(新订阅用户前三个月可享受五折优惠)。该计划面向电影制作人、开发者和创意专业人士,他们需要最高的使用限制和最早体验实验性 AI 产品的权限 8。B. Google AI Ultra 的主要特性Gemini 模型的最高访问权限:包括 Deep Research、使用 Veo 2 进行视频生成的最高使用限制、Veo 3 的早期访问权限,以及即将推出的 Gemini 2.5 Pro (含 Deep Think 模式) 的访问权限 8。高级创意工具:Flow (1080p 视频、高级相机控制、Veo 3) 和 Whisk Animate 的最高使用限制 38。
实验性 AI 访问权限:早期访问即将推出的产品,如 Project Mariner (基于浏览器的智能体 AI) 和 Gemini 中的 Agent Mode 8。生产力及其他福利:在 Gmail、Docs、Vids 中使用 Gemini;早期访问 Chrome 中的 Gemini;YouTube Premium;以及跨 Drive、Photos 和 Gmail 的高达 30TB 的海量存储空间 38。
谷歌正在建立一个清晰的、基于价值的分层方法来实现其 AI 功能的商业化,根据用户的需求以及他们为高级功能、更高限制和早期访问付费的意愿来细分用户。每月 20 美元的 Pro 计划 8 满足了高级个人用户的需求。而每月 250 美元的 Ultra 计划 8 则提供了 Veo 3 的最高使用限制、Deep Think 模式以及 Project Mariner 的访问权限等功能,显然不是针对休闲用户。这种分层结构使谷歌能够从市场的不同细分领域获取价值,从爱好者到高端创意和技术专业人士。
早期访问实验性和研究级 AI(如 Project Mariner 和 Deep Think)是 Ultra 订阅的一个重要激励因素。这使得 Ultra 不仅仅是一个更高限制的计划,更是一个通往谷歌 AI 前沿的门户。相关资料均将“早期访问即将推出的实验性 AI 产品”列为 Ultra 的一项关键优势 8。对于开发者和研究人员而言,率先使用像 Project Mariner 8 或 Deep Think 9 这样的工具,可以提供竞争优势并有机会塑造未来的产品。这超出了仅仅提供更多 token 或存储空间的价值主张。
在 AI Ultra 计划中包含 30TB 存储空间和 YouTube Premium 38 是一项战略性的捆绑举措,旨在提高高价订阅的感知价值,并进一步将用户整合到谷歌生态系统中。虽然 AI Ultra 的核心价值在于先进的 AI 工具,但增加大量存储空间(30TB 是一个相当大的容量)和像 YouTube Premium 这样的热门服务,使得 250 美元的价格标签更易于接受。它利用现有的谷歌服务来增加吸引力,并可能转化那些仅凭 AI 功能可能犹豫不决的用户。
表2:Google AI Pro 与 Google AI Ultra:订阅等级比较
特性/权益Google AI Pro (前身为 AI Premium)Google AI Ultra价格 (月度)20 美元 (基于前身 Gemini Advanced 定价)250 美元 (新用户前三个月五折)目标受众高级个人用户,AI 爱好者电影制作人,开发者,创意专业人士Gemini 模型访问Gemini 2.5 Pro (Advanced)Gemini 2.5 Pro (含 Deep Think 模式),Deep Research 最高权限创意工具访问Flow, Veo 2, Imagen 4 (标准限制)Flow (1080p 视频, 高级相机控制, Veo 3), Veo 2/3 最高权限, Imagen 4 最高权限, Whisk Animate 最高权限实验性 AI 访问无明确提及Project Mariner, Agent Mode 早期访问Gemini in Workspace/ChromeGemini in Gmail, Docs, Vids (标准版)Gemini in Gmail, Docs, Vids (增强版), Chrome 中 Gemini 早期访问使用限制较高最高云存储标准 Google One 计划存储 (例如 2TB)30TB (跨 Drive, Photos, Gmail)YouTube Premium不包含 (除非单独订阅)包含其他显著特性NotebookLMNotebookLM (最高权限和最先进模型)
数据来源:8
VIII. 未来之路:谷歌的 AI 优先发展轨迹A. AI 的必然趋势:根本性的重塑
谷歌 I/O 2025 进一步巩固了 AI 不仅仅是谷歌战略的一个组成部分,而是其驱动力的核心地位。该公司正在经历一场深刻的转型,旨在将 AI 如此深入地融入其产品和服务中,使其成为一个无形但不可或缺的层面,从而全面提升用户体验和开发者能力 1。
B. 在竞争激烈的 AI 格局中航行
I/O 2025 上展示的各项发布和惊人的创新速度,清晰地表明了谷歌在激烈竞争的 AI 领域保持领先地位的决心。这不仅包括追赶,更旨在超越微软/OpenAI、Anthropic 等竞争对手所提供的能力,特别是在多模态理解、智能体 AI 和基础模型性能等领域 4。
C. 将开发者生态系统作为增长引擎
I/O 2025 的重要部分致力于为开发者提供新的工具、API 和平台。从增强的 AI Studio 和 Firebase AI Logic,到开放的 Gemma 模型以及 Android Studio 和 Chrome DevTools 中的 AI 辅助编码,谷歌正在大力投入,使其 AI 技术易于访问和构建。这一战略认识到,一个繁荣的开发者生态系统对于推动创新、创建新颖应用以及确保谷歌 AI 的广泛采用至关重要 12。
D. 潜在挑战与前进之路负责任的 AI 与信任:随着 AI 变得越来越强大和普及,确保负责任的开发和部署至关重要。像 SynthID Detector 10 这样的举措是朝着这个方向迈出的一步,但需要持续保持警惕,以解决偏见、错误信息以及高级 AI 智能体的伦理影响等问题。个性化时代的隐私:在跨多个谷歌服务访问用户数据 3 的驱动下,实现超个性化 AI 体验,需要一个强大而透明的隐私保护方法。维护用户信任对于这些个性化 AI 功能的成功至关重要。对开放网络的影响:通过 AI Mode 和 AI Overviews 2 对搜索进行的转型,引发了人们对网络流量未来以及依赖这些流量的内容发布商可持续性的合理担忧。谷歌需要巧妙地平衡这种关系,以确保一个健康的信息生态系统。执行与采纳:尽管 I/O 2025 展示的愿景雄心勃勃,但成功执行这些新的 AI 技术并获得广泛的用户/开发者采纳,将是实现谷歌 AI 优先未来的关键。
谷歌的总体目标似乎是将 AI 定位为一种基础性实用工具,就像搜索本身已经成为的那样——一个跨所有数字交互无缝辅助的智能层,使任务更轻松,信息更容易获取,体验更个性化。Gemini 在搜索 2、Android 25、XR 8、Workspace 8 和开发者工具 12 中的无处不在都指向了这一点。其目标是让 AI 成为一种永远存在、乐于助人的力量,而不仅仅是一个独立的应用程序。桑达尔·皮查伊关于 AI 正在为全球人民变为现实的言论 3,强化了这种广泛而有影响力的整合愿景。
谷歌正在利用其核心优势——海量数据集、世界一流的 AI 基础设施(Ironwood TPU 3)以及庞大的现有用户/开发者基础——来构建和捍卫其在 AI 时代的地位。这些都是重要的竞争壁垒。处理的 480 万亿个 token 3 代表了模型训练方面无与伦比的数据优势。Ironwood TPU 3 提供了定制硬件优势。700 万使用 Gemini 构建的开发者 3 和 4 亿 Gemini 应用用户 3 创造了一个强大的生态系统。这些要素共同构成了强大的竞争地位。
一个强劲的新兴主题是向“智能体 AI”的转变——这种 AI 不仅提供信息,还能采取行动。从 Project Mariner 3 和 Gemini 中的 Agent Mode 3,到 AI 购物智能体 14 乃至智能体编码(Jules 12),谷歌正在探索 AI 如何自主执行任务,这可能从根本上改变用户工作流程和应用格局。多个公告都围绕着 AI 执行多步骤任务展开:Mariner 预订航班 8、Gemini 应用中的 Agent Mode 查找公寓 3、AI 购物进行购买 14、Jules 编写代码 12。这种贯穿不同产品的一致主题表明,谷歌正将 AI 智能体作为用户交互和任务完成新范式进行战略性推动。
Veo 3(视频+音频 8)、Imagen 4、Gemini Live 的视觉理解能力 14、Search Live 18 的进步,以及对 Android XR 10 和 Google Beam 3 的重点关注,都强调了谷歌的信念,即未来的 AI 交互将越来越趋向多模态(文本、图像、音频、视频)和沉浸式。AI 正在超越文本。Veo 3 生成带声音的视频 8、Gemini Live 理解摄像头画面 14、Android XR 眼镜提供视觉叠加 10 以及 Google Beam 创造 3D 临场感 3,所有这些都指向一种更丰富、感官更完整的 AI 交互模型,将计算带出平面屏幕的限制。