执行摘要
谷歌I/O 2025大会于2025年5月20日至21日举行,通过线上直播和山景城海岸线露天剧场的线下活动相结合的形式,明确巩固了谷歌向“人工智能优先”未来的战略转型 。本次大会全面展示了人工智能,特别是Gemini系列模型,如何深度融入谷歌的几乎所有产品和平台,从搜索和Workspace到Android和开发者工具。谷歌首席执行官桑达尔·皮查伊将其称为“人工智能平台转变的新阶段”,标志着数十年的AI研究正变为全球用户的现实 。大会始终强调人工智能是组织信息并使其普遍可访问和有用的核心驱动力 。
大会的核心发布围绕谷歌基础AI模型的重大进展展开,包括带有“深度思考”增强推理模式的Gemini 2.5 Pro、最新迭代的生成式媒体模型Imagen 4(用于图像)和Veo 3(用于带原生音频的视频),以及新型设备端模型Gemma 3n 。面向消费者的一项重大进展是“AI模式”在谷歌搜索中的全面推出,将搜索转变为对话式、代理式的体验 。Android XR平台的进展,包括合作伙伴关系和开发者工具,预示着谷歌在扩展现实领域的长期布局 。此外,面向开发者的新型AI工具,如Jules(编码代理)和Gemini Code Assist,凸显了谷歌赋能外部创新的决心 。谷歌Meet中的实时翻译和代理式购物功能等关键消费者功能进一步说明了AI的普遍集成 。Project Starline更名为Google Beam也展示了AI优先的3D视频通信的宏伟愿景 。
谷歌积极的人工智能整合旨在重新定义用户与其服务的互动方式,使其更具对话性、个性化和主动性。这一策略旨在通过利用其庞大的用户基础和现有产品套件,巩固谷歌在其他主要人工智能参与者面前的竞争地位。对开发者工具和云服务的强烈关注,突显了谷歌培育强大AI生态系统的意图。尽管这预示着用户体验和生产力将得到提升,但这种普遍的AI转型也带来了重大挑战,包括对内容创作者网站流量的潜在影响(如AI概述导致点击率下降所示)、管理用户对日益自主的AI代理的接受度,以及解决隐私问题 。新推出的分层AI订阅服务(Google AI Pro和高端的Google AI Ultra)预示着对高级AI能力明确的货币化策略,这可能会在尖端功能的访问方面造成差异 。
谷歌I/O 2025:背景与愿景
活动日期、形式与谷歌的总体使命
谷歌I/O 2025大会于2025年5月20日至21日举行,采用线上与线下相结合的混合模式 。全球观众可以通过在线直播参与,同时在加利福尼亚州山景城海岸线露天剧场设有线下活动,这种双重方式最大限度地扩大了覆盖范围,同时保留了关键发布和开发者互动的实体中心 。
大会以备受期待的谷歌主旨演讲拉开帷幕,于5月20日上午10:00(太平洋时间)举行,为公司的重大发布奠定了基础 。随后,下午1:30(太平洋时间)举行了专门的开发者主旨演讲,强调了谷歌对其开发者社区的承诺 。谷歌为本次活动阐明的持久使命是“探索我们如何进一步履行组织世界信息并使其普遍可访问和有用的使命” 。这一核心原则现在明确且深刻地融入了人工智能,成为几乎所有新发布的基础理念。
“人工智能平台转变”与谷歌的承诺
谷歌首席执行官桑达尔·皮查伊强调了行业正在经历的深刻变革,他指出世界正处于“人工智能平台转变的新阶段” 。他强调,数十年来的人工智能研究现在正汇聚成惠及全球人民的切实、现实世界的应用。这一声明将人工智能定位为谷歌长期战略的核心支柱。
在整个大会上,人工智能相关发布的压倒性关注,以及人工智能被持续称为“皇冠上的明珠”,都强化了谷歌的深切承诺 。这种普遍的集成表明,人工智能不仅仅是一个附加功能,而是未来创新的基础层,它在继承以往I/O大会趋势的基础上,实现了更广泛、更深入的集成。
与往届I/O大会及行业趋势的比较
本次大会的重点发生了一个显著的变化,即谷歌已在主会前一周的“Android Show: I/O Edition”中,战略性地展示了许多Android 16的重要功能 。这种预先发布策略使得谷歌能够将I/O 2025的主旨演讲和会议几乎完全聚焦于人工智能,这表明了将人工智能作为头条主题的刻意优先排序。
这些发布将谷歌置于与OpenAI的ChatGPT和Meta的AI产品等其他知名AI参与者的直接竞争中 。谷歌对Gemini能力,特别是针对“普通消费者”的能力的信心得到了强调,这表明它直接挑战了竞争对手在对话式AI和生成式媒体领域的市场领导地位 。
预先发布Android 16的更新,并在此次谷歌I/O大会上将绝大部分关注点放在人工智能上,是一项强大的战略举措 。这不仅仅是简单地“包含”人工智能,而是将I/O大会打造成一场“人工智能盛会”。此举向市场、投资者和全球开发者社区发出了一个明确信号:谷歌的核心创新引擎、未来增长和竞争优势与人工智能密不可分。这宣告了谷歌通过在其整个产品组合中展示无与伦比的广度和深度整合,超越人工智能竞赛中竞争对手的意图。这可能也预示着公司内部资源分配和研发重点的转变。
反复强调人工智能“进一步履行组织世界信息”的使命 ,以及皮查伊将当前阶段描述为“人工智能平台转变的新阶段” ,表明人工智能不再是附加功能,而是谷歌根本性的架构和哲学转变。这关乎从根本上重新构想用户如何与所有信息和服务互动,超越传统的界面。搜索中的“AI模式” 将传统搜索引擎转变为对话式AI专家,是这一深刻变革最直接的体现。这意味着未来的谷歌产品和更新很可能从一开始就以人工智能为核心进行设计,而不是后续再将人工智能附加其上。这种集成方法可能带来更无缝、直观和强大的人工智能体验,使其更像是智能伙伴而非仅仅是工具。然而,这也引发了关于用户自主权、人工智能“黑箱”决策的潜在问题,以及随着人工智能更深入地融入日常生活,对明确伦理准则的需求。
不断演进的Gemini生态系统与人工智能模型
核心模型进展
谷歌宣布其旗舰Gemini模型取得了重大进展。Gemini 2.5 Flash已脱离预览阶段,提供性能提升和效率增益,使其更广泛地应用于各种场景 。更强大的Gemini 2.5 Pro被强调为谷歌迄今为止最强大的模型 。Gemini 2.5 Pro的一项关键创新是引入了**“深度思考”**(Deep Think)模式,这是一种增强的推理模式。该模式使模型能够运行多条并行推理路径,对复杂查询进行更深入的“思考”,在数学、代码和多模态领域取得了领先的基准成绩。深度思考目前仅供“受信任的测试者”使用,这表明其尖端性质和持续的完善过程 。
谷歌最新的图像生成模型Imagen 4正在Gemini应用中推出,并有望带来显著改进 。这些改进包括更丰富的细节、更好的整体视觉效果,以及至关重要的是,图像中文字和排版生成的显著提升——这是大多数AI图像生成器长期面临的挑战 。它还拥有2K分辨率的提升,允许更高质量的缩放和打印 。
谷歌视频生成模型的第三代Veo 3代表着一个重大飞跃,其特点是原生音频生成 。这意味着它可以为生成的视频生成环境声音甚至角色对话,解决了以前AI视频工具通常需要单独生成音频的关键限制 。Veo 3还声称在场景生成中对物理有更强的理解,从而产生更逼真的输出 。它可通过高级的Google AI Ultra订阅在美国使用 。
新的生成式音乐模型Lyria 2也首次亮相,补充了谷歌在视觉和文本模态方面不断扩展的生成式AI工具套件 。
Gemma 3n是谷歌最新、最强大的设备端模型 。它旨在直接在用户设备(如手机、平板电脑或笔记本电脑)上运行,无需持续的云连接,在降低延迟、增强隐私和离线可用性方面具有显著优势 。它基于与Gemini Nano共享的新架构构建,针对低内存使用、快速响应时间和多模态输入支持进行了优化 。它提供5B和8B参数变体,旨在在本地提供强大的人工智能能力 。
Gemini Diffusion是一种实验性模型架构,专注于提高文本生成的速度和连贯性 。与传统语言模型按固定序列逐个生成token不同,扩散模型通过多个步骤细化噪声,这种方法借鉴自图像生成 。Gemini Diffusion不是直接预测下一个词,而是从粗略的近似开始,然后迭代改进,这使其更擅长需要细化和纠错的任务,如复杂的数学、代码生成和编辑 。
SignGemma是一个即将推出的开放模型,专门用于将手语(最初是美国手语)翻译成口语文本 。这项举措旨在使开发者能够为聋哑和听障用户创建新的辅助应用,展示了人工智能在社会影响方面的潜力 。
人工智能代理与助手
Project Astra是谷歌对通用AI助手的总体愿景,它能够无缝理解并与周围世界互动 。Astra的元素变得越来越具体,演示展示了其控制Android手机、导航应用程序甚至拨打电话的能力 。其实时AI能力将集成到谷歌搜索的AI模式中,增强视觉搜索体验 。
Gemini Live是一种多模态工具,最初在Pixel手机上推出,现在正通过Gemini应用(拥有超过4亿月活跃用户)向所有兼容的Android和iOS设备推广 。Gemini Live允许用户与Gemini进行自然语言对话,询问有关屏幕截图或手机摄像头捕获的实时视频的问题 。它还将扩展到桌面Chrome(Mac + Windows),最初专注于当前网页的问答 。
Project Mariner被描述为一个高级代理,能够同时处理多达10项不同任务 。Project Mariner可以查找信息、进行预订、购买物品和进行研究 。它与搜索中的AI模式集成,提供代理能力,例如促进购买活动门票或进行预订 。Project Mariner将专供Google AI Ultra订阅用户使用 。
Jules是一个异步编码代理,已从谷歌的实验室阶段进入公开测试版,所有开发者无需等待即可使用 。Jules由Gemini 2.5 Pro提供支持,可以自主分析代码、理解开发者意图、编写测试、构建新功能、修复错误,甚至为其工作提供音频变更日志 。它直接与GitHub仓库集成,将其克隆到云虚拟机中,并在准备就绪时生成拉取请求供开发者审查 。谷歌已表示计划在平台成熟后对Jules进行商业化 。
Gems是谷歌的自定义AI代理,是现有代理功能的一部分,允许用户为特定任务创建个性化AI代理 。
“教与重复”(Teach and Repeat)是一项新颖的功能,允许AI代理从以前完成的任务中学习 。此功能使其能够自主执行类似的未来任务,无需重复的详细指令 。
Computer Use API是Gemini API中一项新的开发者功能(目前仅供受信任的测试者使用) 。此API允许开发者构建应用程序,在用户指导下以编程方式浏览网页或使用其他软件工具,进一步扩展了AI代理的能力 。
新型AI服务与分级
Google AI Pro(原“AI Premium”层级)已更名为Google AI Pro,并保持每月19.99美元的现有价格 。此层级继续提供增强的AI功能和对Gemini模型的访问 。
Google AI Ultra是一个新的高级订阅层级,定价显著提高,为每月249.99美元 。这个“VIP”层级面向高级用户和专业人士,提供“对最前沿技术的早期和最大程度的访问” 。其优势包括无限使用高成本功能,如深度研究(Deep Research),以及早期访问带有原生音频生成的Veo 3等高级模型 。此外,它还提供谷歌相册、云端硬盘和Gmail中高达30TB的存储空间 。
<br>
导出到 Google 表格
<br>
谷歌并未仅仅专注于单一的、庞大的Gemini模型。Imagen 4(图像、图像中的文本、2K分辨率) 、Veo 3(带原生音频的视频) 、Lyria 2(音乐) 、Gemma 3n(设备端、多模态、低内存、注重隐私) 和Gemini Diffusion(文本生成细化) 等专业模型的推出,表明了谷歌在模型多样化方面的明确战略。每个模型都针对特定的模态或部署环境进行了优化。这种策略表明谷歌旨在各种AI模态中实现同类最佳性能,通过提供高度优化的工具直接挑战OpenAI的Sora或RunwayML等竞争对手。对于开发者而言,这意味着未来他们可以为特定任务选择最合适的谷歌AI模型,从而实现更高效、高质量且可能更具成本效益的AI应用。对Gemma 3n等设备端模型的强调,预示着未来将出现更普遍、更私密、更实时的AI体验,减少对持续云连接的依赖,为移动和嵌入式系统开辟了新的应用领域。
对Project Astra(通用助手) 、Project Mariner(多任务代理) 、Jules(自主编码代理) 以及“教与重复”功能 的强烈强调,表明谷歌对“代理式人工智能”的深刻承诺。这种范式将AI从简单地回答问题,转变为使AI能够代表用户自主执行复杂的多步骤任务。Computer Use API 进一步强化了这一点,允许AI直接与软件和网络互动。这代表着从反应式AI(响应查询)到主动式AI(执行任务和解决问题)的根本性转变。对于终端用户而言,这预示着前所未有的自动化和便利水平(例如,代理式购物、收件箱清理、自动化编码)。对于开发者而言,它开辟了全新的应用构建范式,使其能够“做”事情而不仅仅是“说”事情,从而可能显著简化工作流程。然而,这也引发了关于用户控制、AI决策透明度、潜在的意外后果或“失控”代理,以及重要的隐私问题,特别是当代理被授予访问敏感数据(例如,Astra访问Gmail )的权限时。
Google AI Ultra以每月249.99美元的价格推出,远高于Google AI Pro的每月19.99美元 ,旨在提供“对最前沿技术的早期和最大程度的访问” ,这清晰地勾勒出一种复杂的分级货币化策略。这个高级层级不仅仅是增加存储空间(30TB),更重要的是提供对最先进、资源密集型且可能独占的功能的访问,例如无限的深度研究和对Veo 3的早期访问 。这一策略表明谷歌正在积极为“AI狂热者” 、高级用户以及可能需要并愿意为尖端功能和新兴技术早期访问付费的企业客户创建一个高端细分市场。它使谷歌能够抵消开发和运行高级AI模型所需的大量计算成本,同时通过从专门的高价值用户群获得早期反馈来促进创新。一个潜在的后果是,AI访问可能会形成两级系统,其中最具突破性和可能具有变革性的功能最初被高额付费墙所阻挡,这可能会加剧AI采用和收益方面的数字鸿沟。
搜索与用户交互的革新
谷歌搜索的AI模式
AI模式目前正在美国全面向所有用户推出,标志着谷歌搜索向更具对话性、类似聊天机器人的体验的重大转变 。此模式专门设计用于处理传统关键词搜索难以应对的更长、更复杂和多方面的查询。支撑这一核心技术创新的是**“查询扇出”技术** 。该方法涉及谷歌定制版Gemini将复杂的查询分解为多个子主题,然后同时在整个网络上发出大量查询,其深度远超传统搜索,最后将结果编译成结构化、综合性的答案,并附带相关链接和引用 。
AI模式计划在未来增强深度搜索功能,使系统能够通过分析大量网站的信息,进一步深入查询,提供更全面的答案 。此外,个人上下文也将被整合,允许AI模式根据用户的过往搜索历史和从Gmail等其他谷歌产品中获取的上下文信息,提供更相关和个性化的建议 。AI模式很快将获得生成与特定查询相关的自定义图表和图形的能力,在适用时以易于理解的视觉格式呈现复杂的搜索结果 。
尽管AI模式作为一个独立的标签运行,谷歌计划通过AI概述逐步将其部分高级功能注入核心搜索体验中,目前约有15亿人经常使用AI概述 。这些AI概述也正在进行大规模扩展,将推广到200多个国家,并支持40多种语言 。AI模式和AI概述都将很快利用定制优化版的Gemini 2.5,确保谷歌搜索产品中AI功能的一致性和强大性 。
增强的购物体验
AI模式正在配备强大的新购物功能,其中最引人注目的是“代理式结账”或“代我购买”功能 。这使用户能够跟踪所需商品的价格并设置特定的支出限额。当价格符合用户预期时,AI可以通过Google Pay自主购买商品,从而显著简化购买流程 。
一项新颖的虚拟试穿模式正在推出,允许用户上传一张自己的照片 。谷歌结合其购物图谱和Gemini AI模型,将使用户能够虚拟地看到一件衣服在虚拟身体上的效果,从而增强在线购物体验 。
Search Live
这项即将推出的功能将利用Project Astra的先进能力,在谷歌搜索中提供类似Gemini Live的体验 。这预计将实现实时视觉搜索和互动,允许用户将摄像头对准物体,并立即接收上下文信息或执行操作 。
Google Beam(原Project Starline)
Project Starline,谷歌雄心勃勃的超现实视频会议项目,已正式更名为Google Beam 。它现在被描述为“AI优先的3D视频通信平台” 。该技术利用一系列网络摄像头和复杂的AI来合并多个视频流,并在3D光场显示器上渲染用户,旨在营造一种与远程参与者同处一室的强烈感觉,而无需传统的VR头显 。
谷歌已与惠普合作,将于今年晚些时候生产并推出首批Google Beam设备,这表明谷歌正认真推动这项沉浸式通信技术进入市场 。
AI模式的全面推出及其“查询扇出”技术 根本性地改变了谷歌的信息传递模式。它不再仅仅呈现链接列表,而是提供综合性的对话式答案。至关重要的是,数据显示“过去一年中,谷歌搜索结果的点击率下降了近30%”,原因是用户“对AI概述越来越满意” 。这是一个直接且可衡量的影响。这代表着互联网和数字经济的重大结构性转变。尽管谷歌声称旨在驱动更多搜索和最终更多点击 ,但当前趋势表明,直接流向外部网站的流量显著减少。这给内容创作者、出版商、电子商务网站以及任何严重依赖自然搜索流量进行发现和创收的企业带来了生存威胁。谷歌面临的挑战将是如何平衡提升用户满意度与维护一个健康、充满活力的网络生态系统,该生态系统能持续生产其AI模型用于训练和实时信息所需的高质量内容。在搜索结果中包含“您可能不会发现的内容和创作者的链接” 是一种潜在的缓解策略,但其在维持网络内容经济方面的长期有效性仍是一个关键的未决问题。
“代理式购物”等功能 ,即AI可以跟踪价格并自动代表用户购买商品,以及AI模式中整合利用Gmail和过往搜索数据生成的“个人上下文” ,都清晰地表明了谷歌正朝着高度自动化和深度个性化的商业模式迈进。AI不再仅仅是推荐,而是积极执行交易。这可能彻底改变在线购物,通过自动化价格跟踪和结账等繁琐任务,为消费者带来极大的便利和效率。然而,这也引发了关于谷歌对其各项服务中个人数据的访问和利用程度的重大隐私担忧。此外,它还提出了关于用户控制以及“过度自动化”可能性的问题,即用户可能会对其购买决策或财务数据失去直接控制权。这还可能进一步将电子商务集中在谷歌的生态系统内,从而可能削弱消费者与商家之间的直接关系。
Project Starline更名为Google Beam 以及与惠普达成设备制造战略合作 ,都表明谷歌正认真致力于实现“AI优先的3D视频通信” 。明确强调在无需VR头显的情况下营造“同处一室的感觉” 是一个关键的差异化因素,旨在实现比现有VR解决方案更广泛的普及。Google Beam有潜力从根本上重新定义远程协作、虚拟会议乃至个人通信,提供比传统2D视频通话更具沉浸感和自然感的体验。这可能对远程工作的未来、全球商业互动、教育乃至个人关系产生深远影响,通过更有效地弥合地理距离。这也表明谷歌对先进视觉AI和超越传统屏幕的专业硬件的长期战略押注,预示着AI介导的通信将成为未来的常态。
Android与扩展现实前沿
Android XR平台
谷歌进一步阐述了Android XR,其旨在在增强现实(AR)、混合现实(MR)和虚拟现实(VR)体验领域复制Android在智能手机市场成功的宏伟平台 。该平台设计灵活,支持多种屏幕配置的设备,包括双屏、单屏甚至无屏设备,这表明其在硬件形态方面采取了灵活的方法 。
谷歌确认了与三星在Android XR方面扩大且重要的合作关系,特别提到了**三星的“Project Moohan”**作为一款高端VR头显 。同时展示了原型AR眼镜,其单屏单元能够显示逐向导航指令、智能手机通知,甚至拍照 。Project Moohan头显因其良好的重量平衡而受到关注,部分原因归因于外部电池组,这表明其注重用户在长时间使用时的舒适度 。
Gemini AI深度集成于这些XR设备中,凸显了谷歌的AI优先方法 。例如,Project Moohan设有一个专用按钮来启动Gemini,使用户能够在XR环境中发出命令、提问和进行对话 。
为了促进开发,谷歌发布了Android XR SDK的开发者预览版2 。此外,Android Studio现在包含一个嵌入式Android XR模拟器,允许开发者直接在集成开发环境中部署应用程序、导航3D空间和使用布局检查器,从而显著简化了XR开发工作流程 。
尽管谷歌和三星暗示将在今年内推出,但行业专家和分析师对2025年实际消费产品发布仍持怀疑态度 。这种怀疑是基于过去类似项目的延迟以及关税情况等更广泛的地缘政治因素,表明大规模消费者发布可能还需要一段时间 。
<br>
导出到 Google 表格
<br>
尽管展示了AR眼镜和三星VR头显(Project Moohan)的运行原型 ,并发布了重要的SDK更新 ,但专家共识仍认为消费产品“至少还需要一年”才能上市 ,对2025年推出持怀疑态度 。谷歌在I/O大会上的主要关注点是Android XR平台和开发者工具 ,而非特定的硬件发布。这表明谷歌采取了深思熟虑的、长期的、平台优先的战略。谷歌似乎正在从过去的硬件失误(例如,谷歌眼镜的首次消费者发布)中吸取教训,并优先建立一个强大、对开发者友好的XR生态系统,然后再推动消费硬件。这种耐心的方法旨在确保当设备最终发布时,一个丰富而引人注目的应用程序生态系统已经准备就绪,从而显著增加广泛采用的可能性,并避免硬件缺乏软件的“鸡生蛋,蛋生鸡”问题。这也表明谷歌认识到XR市场仍处于萌芽阶段,需要基础架构工作才能实现大规模消费者吸引力。
Gemini与Android XR的深度集成,例如Project Moohan上的专用Gemini按钮 以及Project Astra控制手机和导航应用程序的能力展示 ,清晰地表明谷歌将AI视为XR的核心价值主张和关键差异化因素,而不仅仅是附加功能。XR眼镜被明确定位为“连接物理世界与AI以提供额外帮助的载体” 。谷歌正在将其XR产品定位为“视觉中的AI助手”,而不仅仅是沉浸式内容的显示设备。这种对实用、AI驱动的辅助和现实世界中上下文信息的战略关注,可以使其与主要侧重娱乐或基本生产力的竞争对手显著区分开来。这预示着未来AI将无缝地叠加在我们的物理现实上,提供实时、智能的支持,使XR成为日常生活中真正有用和不可或缺的一部分,而不仅仅是一种小众技术。这可能在教育、现场服务和日常辅助等领域开启全新的XR用例。
Android生态系统增强功能(简要提及)
Android 16的许多重要升级已在主会前一周的“Android Show: I/O Edition”中战略性地揭示 。这一预热活动使谷歌能够将I/O 2025的主要焦点完全转移到人工智能上。
Wear OS 6被宣布为Wear OS“最强大和最具表现力的版本”,其特色是Material 3 Expressive,这是一种提供个性化视觉效果和动态的新UI设计语言 。开发者可以通过新的Jetpack库访问此功能,从而增强可穿戴设备上的用户体验 。
Android Auto集成方面,Gemini AI聊天机器人预计将在未来几个月内推广到配备Android Auto的汽车,并于今年晚些时候推广到内置谷歌服务的汽车(例如沃尔沃车型) 。此次扩展包括车载体验的新机会,例如支持游戏和视频类别,以及通过Car App Library和新API增强媒体和通信应用的功能 。
摄像头和媒体改进方面,Android平台正在获得摄像头和媒体功能的增强,包括用于改善昏暗光线下摄影的软件低光增强,以及用于音频播放处理的原生PCM卸载,这有助于延长电池寿命 。
Google Play更新旨在提升应用发现、参与度和收入 。这些更新包括增强的个性化、精选内容空间、新的主题浏览页面和扩展的收藏(例如新的旅行类别),旨在使Play商店成为一个内容更丰富的目的地 。开发者还获得了在检测到问题时停止完全上线版本的关键能力 。
AI驱动的生产力与创造力(Google Workspace)
Gmail与Google Meet
Gmail正在获得一套新的AI驱动功能,旨在提高生产力 。其中包括个性化智能回复,提供更具上下文相关性和量身定制的回复建议 。一个值得注意的补充是“收件箱清理”功能,允许用户使用自然语言对话提示管理邮件(例如,“删除去年所有来自The Groomed Paw的未读邮件”),从而实现快速直观的收件箱管理 。集成的日历预约排程功能也正在推出,直接在Gmail中简化工作流程 。
Google Meet正在获得一项突破性的实时语音翻译功能 。该功能能够匹配说话者的语气和语调进行翻译,例如西班牙语到英语的翻译演示 。此功能目前对Google AI Pro和Ultra订阅用户开放测试版,并计划在未来推出对其他语言的支持 。
AI用于内容创作
Flow(AI电影制作工具)是基于谷歌的Veo、Imagen和Gemini模型构建的一款重要新型AI电影制作工具 。Flow被描述为VideoFX的演进,提供高级功能,如摄像机移动和透视控制、编辑和扩展现有镜头的选项,以及将Veo生成的AI视频内容无缝集成到大型项目中的关键能力 。Flow面向Google AI Pro和Ultra订阅用户开放,旨在服务有抱负和专业的电影制作人 。
Google Vids允许用户将整个幻灯片演示文稿转换为视频,AI头像只需上传脚本即可生成,还提供了转录修剪和平衡声音等功能 。
Gemini Canvas被介绍为一个协同创作平台,可以将内容转换为网页、信息图表、测验或音频概述 。
NotebookLM获得了升级,成为一个AI音频生成器,允许用户在没有麦克风的情况下制作逼真的AI播客 。
Imagen 4也已集成到Google Workspace应用中,包括Docs、Slides和Vids,进一步增强了这些工具的视觉创作能力 。
AI用于开发者
Colab将很快提供全新的代理式体验。用户只需告诉Colab想要实现的目标,它就会在笔记本中采取行动,修复错误并转换代码,帮助用户更快地解决难题 。
Gemini Code Assist是谷歌的免费AI编码助手,面向个人用户提供,其代码审查代理Gemini Code Assist for GitHub也已全面向所有开发者推出 。此外,Gemini 2.5现在为Gemini Code Assist提供支持,当在Vertex AI上可用时,Gemini Code Assist Standard和Enterprise开发者将获得200万token的上下文窗口 。
Firebase Studio是谷歌新的云端AI工作区,使开发者更容易将想法转化为全栈AI应用 。开发者可以使用builder.io插件在Firebase Studio中将Figma设计变为现实,并且从今天开始,它将推出检测应用何时需要后端并自动为其配置的功能 。
Jules(如前所述,但在此强调其开发者重点)已向所有人开放,它是一个异步编码代理,可以处理开发者不愿做的随机任务 。它可以处理积压的bug,同时处理多项任务,甚至可以初步构建新功能。Jules直接与GitHub协作,将仓库克隆到云虚拟机中,并在开发者准备就绪时创建拉取请求供其审查 。
Stitch是一款新的AI驱动工具,通过自然语言描述或图像提示生成高质量的UI设计和相应的桌面及移动前端代码 。Stitch让用户能够闪电般地将想法变为现实,通过对话迭代设计,调整主题,并轻松导出为CSS/HTML或Figma以继续开发 。
Google AI Studio获得了更新,成为使用Gemini API构建应用的最快平台,利用尖端的Gemini 2.5模型以及Imagen、Veo等新的生成式媒体模型和原生图像生成功能 。Gemini 2.5 Pro也已集成到Google AI Studio的原生代码编辑器中,使用户能够更快地进行原型设计 。它与GenAI SDK紧密优化,可以立即从文本、图像或视频提示生成Web应用 。
原生音频对话:从今天晚些时候开始,开发者可以预览新的Gemini 2.5 Flash和2.5 Pro文本转语音(TTS)功能,实现复杂的单扬声器和多扬声器语音输出 。通过新的可控TTS模型,开发者现在可以精确控制语音风格、口音和语速,实现高度定制的AI生成音频 。
异步函数调用:这项新功能将使长时间运行的函数或工具能够在后台调用,而不会阻塞主对话流程 。
Computer Use API(如前所述,但在此强调其开发者重点)是Gemini API中一项新的开发者功能,允许开发者构建应用程序,在用户指导下浏览网页或使用其他软件工具 。
Chrome与Web开发
Chrome浏览器引入了多项新功能,旨在提升用户体验和开发者效率。其中包括内置AI API,利用Gemini Nano等领先模型,并支持Prompt API的多模态能力 。客户端AI通过Firebase和Gemini开发者API得到扩展,提供混合AI解决方案 。
Chrome开发者工具也获得了AI辅助,支持调试工作流程,涵盖样式、性能等多个方面 。此外,自动化密码更改功能将帮助用户自动更改因数据泄露而受损的账户密码 。
在UI方面,声明式弹窗(Declarative Popovers)引入了新的Interest Invoker API,结合Anchor Positioning API和Popover API,无需JavaScript即可创建丰富的响应式交互式UI元素,如工具提示或悬停卡片 。通过CSS和HTML的几行代码,轮播图现在更容易构建,Pinterest通过使用新的CSS原语将代码量减少了90% 。
其他开发者工具更新包括:Credential Manager简化了登录体验 ;Chrome扩展程序现在支持取消提交审查,加快了迭代速度 ;以及Web Platform Dashboard提供了全面的Web功能支持视图 。
谷歌云与企业AI
Agent Development Kit (ADK) Python现在已达到生产就绪状态,为开发者提供了可靠且强大的平台,以自信地构建和部署其代理到实时环境中 。雷诺集团、Box和Revionics等客户已在使用ADK并提供了积极反馈 。
Vertex AI Agent Engine UI的推出,旨在简化代理在生产环境中的部署、管理和扩展 。这个用户友好的界面在Google Cloud控制台中提供了一个全面的仪表板,用于查看和管理已部署的代理、列出会话、跟踪和调试操作以及监控代理 。
Agent2Agent (A2A) 协议也得到了更新(v0.2),增强了代理之间的交互,支持无状态交互和明确的身份验证要求,提高了安全性和可靠性 。为了方便开发者使用A2A协议,谷歌发布了A2A的官方Python SDK 。A2A生态系统正在快速发展,Auth0和SAP Joule等合作伙伴正在集成A2A协议,以实现更复杂的代理编排和跨系统任务执行 。
此外,谷歌还宣布了Google AI for game developers 以及APIM Operator for Apigee的普遍可用性 。值得注意的是,Google Cloud Next 2025是一个独立的活动,但其在AI和云服务方面的进展也与I/O大会的主题相辅相成 。
结论
谷歌I/O 2025大会明确标志着谷歌向“人工智能优先”未来的全面转型,将人工智能深度融入其产品和平台的方方面面。本次大会的核心在于Gemini系列模型的显著进步,以及“AI模式”在搜索中的广泛应用,预示着用户与数字信息互动方式的根本性变革。从AI驱动的生产力工具到扩展现实领域的雄心,谷歌正在积极塑造一个由智能代理和生成式AI主导的未来。
这种全面的AI整合带来了巨大的机遇,包括前所未有的自动化水平、更个性化的体验以及在内容创作和软件开发方面的新能力。然而,这种转型也伴随着挑战。搜索模式的改变可能对依赖传统网络流量的数字内容生态系统构成结构性威胁。此外,AI代理能力的增强,虽然提供了便利,但也引发了关于用户控制、隐私和AI决策透明度的重要问题。谷歌通过推出分层订阅服务(如Google AI Ultra)来对先进AI能力进行货币化,这可能在尖端技术的访问方面造成差异。
展望未来,谷歌的战略部署表明其致力于在AI竞赛中保持领先地位,不仅通过核心模型创新,还通过构建一个强大的开发者生态系统和探索新的交互范式(如Google Beam和Android XR)。然而,这些雄心壮志的成功将取决于谷歌能否有效应对随之而来的社会、经济和伦理挑战,确保其AI创新能够普遍惠及用户,同时维护一个健康、可持续的数字环境。