谷歌I/O超全总结：AI搜索大变样，AR眼镜复活，大模型全家桶升级，史上最贵订阅费1800元

时间：2025-05-21 08:46:00

智东西5月21日报道，今日凌晨，在一年一度的谷歌I/O开发者大会上，谷歌的AI大戏连番上演！

时长不到2小时的主题演讲上，谷歌CEO桑达尔·皮查伊携一众谷歌高管总共提到95次“Gemini”、92次“AI”。

模型升级方面：Gemini 2.5 Pro新支持原生音频输出、Project Mariner的计算机使用功能、深度思考、高安全防护；视频模型Veo 2新增原生音频生成功能、Gemini 2.5 Flash在推理、编程和长上下文等关键指标上升级。全新发布模型包括：扩散语言模型Gemini Diffusion、视频生成模型Veo 3、图像生成模型Imagen 4。

谷歌还推出全新Gemini订阅计划：AI Pro用户月付19.99美元（折合人民币约144元），可使用Veo 2、Gemini 2.5 Pro等入门级产品；AI Ultra用户月付249.99美元（折合人民币约1804元），可拥有Veo 3的无限访问权限、使用Gemini 2.5 Pro深度思考模式等。

这都指向一个目标：构建通用AI助手。谷歌DeepMind创始人兼CEO戴密斯·哈萨比斯（Demis Hassabis）称，他们将Gemini打造成一个世界模型，是开发一种新型、更通用、更有用AI助手的关键一步。

谷歌展示了其通用AI助手的最新研究原型。在自行车维修场景中，Gemini可以帮助用户查询维修手册、滚动到特定页面、搜索视频教程、主动提供实用信息，还可以拨打电话，查询零件库存情况，并帮助用户下单。

其余更新包括颠覆用户搜索体验的AI Mode：根据用户需求动态调整包含图表、店铺列表等的答案生成界面，在购物场景，AI Mode可根据用户购买意图定制购物界面，提供虚拟试穿、追踪用户预期价位、代理结账功能，其还集成了视觉搜索，用户可以通过手机摄像头实时搜索提问。AI Mode现已面向所有美国用户推出。

同时，谷歌此前三大研究项目获得重大进展：Project Starline引入全新3D视频通讯体验、Project Astra能利用Gemini和摄像头来解决问题、Project Marina支持多任务处理。

大会尾声，谷歌还现场演示了重量级安卓XR智能眼镜。

翻译能力是这款眼镜的亮点之一，不过测试时，可以明显感觉到工作人员减慢了语速，谷歌安卓XR智能眼镜仅正确翻译了对话中的前半部分，之后出现了无法识别的问题。

据XREAL新闻稿披露，谷歌将与XREAL合作打造第二款安卓XR设备Project Aura。

皮查伊透露，Gemini应用目前已经拥有超过4亿月活用户，超过700万名开发者通过Gemini API进行开发。

谷歌今天放出的诸多AI大招，智东西带你一文看尽。

01.Gemini系列模型屠榜，谷歌产品每月处理token数一年增长50倍

Gemini时代，谷歌的模型和产品发布速度都比以往更快。上届I/O大会至今，谷歌已经宣布10余款模型重大突破、20余款重大AI产品。

自第一代Gemini模型发布以来，Gemini模型的Elo分数已提升300多分。编程方面，Gemini 2.5 Pro成为编程平台Cursor上年度增长最快的模型，每分钟产出数十万行被采纳的代码。

在LMArena排行榜中，Gemini系列模型包揽了每秒生成输出token数最高的前三名，并且模型价格也在下降。

全栈基础设施方面，谷歌第七代TPU Ironwood是首款专为大规模AI思考和推理工作负载而设计的TPU，其性能是上一代的10倍，每个Pod的计算能力达到42.5 exaFLOPS。

皮查伊提到谷歌大模型相关的几组数据：

去年同期谷歌每月通过产品和API处理的token数量为9.7万亿，目前其每月处理的token数达到480万亿，一年内增长了约50倍；

超过700万名开发者通过Gemini API进行开发，涵盖谷歌AI Studio和Vertex AI两大平台，同比增长超过五倍，同时Vertex AI平台上的Gemini使用率较去年增长40倍；

Gemini应用目前拥有超过4亿月活用户，在Gemini应用中使用2.5 Pro版本的用户使用量增长了45%；

在搜索方面，AI概览功能的每月用户超15亿。皮查伊认为AI Mode是搜索领域的下一个重大进展，我们正处在AI平台转型的新阶段。

皮查伊还提到，Gemini已经通关精灵宝可梦，集齐8枚徽章获得冠军，“距离人工宝可梦智能更进一步”。

02.Gemini编程、语音、深度思考迎升级，DeepMind CEO揭秘终极愿景

哈萨比斯提到，Gemini 2.5 Pro是谷歌迄今为止最智能的模型，也是全球最强大的基础模型。两周前，谷歌发布了Gemini 2.5 Pro的预览版，开发者们用它实现了诸多创意：比如将草图转化为交互应用、模拟完整3D城市等。

新版的Gemini 2.5 Pro在WebDev Arena编程排行榜登顶。谷歌还将他们去年发布的LearnLM（专为学习场景微调的模型）接入Gemini 2.5 Pro模型，这让后者在解题等学习场景的能力进一步提升。

今天谷歌推出了轻量级模型Gemini 2.5 Flash的升级版。这款模型在推理、编程和长上下文等关键指标上实现提升，在大模型竞技场的排名仅次于Gemini 2.5 Pro。升级版模型将于6月初全面开放，Pro版本随后跟进，目前开发者已经可以在AI Studio抢先体验。

Gemini还引入了更多的功能。增强版安全防护的可抵御间接提示注入攻击；思维摘要功能将模型思考过程可视化，便于调试；Gemini 2.5 Pro即将新增“思考预算”控件，开发者可控制模型思考的长度，从而平衡质量与成本。

Gemini 2.5 Pro和Gemini 2.5 Flash的文本转语音功能支持多角色对话，能实现语气微妙变化、切换耳语模式、跨24种语言切换。

谷歌Gemini产品负责人Tulsee Doshi展示了Gemini 2.5 Pro的编程能力。现场，Gemini 2.5 Pro仅参照一张草图就生成了完整的3D交互网页，用时37秒就在原网页代码上完成修改。

Gemini 2.5 Pro现已在多款AI IDE平台（如Cursor等）中可用。谷歌昨日开启公测的编程助手Jules也接入了Gemini 2.5 Pro，能独立处理GitHub代码库的复杂任务，将原本耗时数小时的工作缩短至分钟级。

谷歌Jules用户界面

在模型架构创新方面，谷歌将扩散模型技术应用于文本生成。全新的Gemini Diffusion实验模型（扩散语言模型）的生成速度比Gemini 2.5 Flash快5倍。这款模型不仅仅能按顺序从左到右生成内容，还可以生成过程中快速迭代解决方案，并在生成过程中进行错误纠正。

谷歌打造了Gemini 2.5的“深度思考（Deep Think）”模式，运用类AlphaGo的并行推理技术。这一模式已经在美国数学奥林匹克2025测试和Live Codebench编程测试取得不错的效果，但由于需要额外安全评估，谷歌将先向可信测试者开放API。

哈萨比斯称，谷歌未来的重点是将Gemini模型扩展为一个“世界模型”。模型对物理世界的理解能力，不仅对视频、3D生成至关重要，也是机器人技术突破的关键。为此，谷歌还专门微调了Gemini Robotics模型，能让机器人学习抓取物体、遵循指令等任务，并能够即时适应新任务。

谷歌的终极愿景是将Gemini打造成真正的通用AI助手（Universal AI Assistant），具备个性化、主动性和强大能力。

03.Veo 3一次性生成超真实有声视频，每月花1800元才能体验

多模态模型方面，谷歌发布了最新图像生成模型Imagen 4。Imagen 4可以逼真地刻画出复杂的织物、水滴和动物毛皮等物体。这款模型最高支持2K分辨率，图片纵横比和自由定制，其文字生成和排版能力也有明显提升，给海报制作、PPT制作等生产级应用提供了更好的支持。

谷歌视频生成模型Veo 2新增了视频参考、相机控制、对象添加与删除等功能，而最新发布的Veo 3实现了有声视频的直接生成，能直接给城市街道场景的视频配上自然的噪音，或是直接生成人物之间的对话。此外，Veo 3在文本和图像提示、现实世界物理和口型同步方面都表现出色。

谷歌为Veo打造了配套的AI电影制作工具Flow，这一工具集成了Veo、Imagen和Gemini三款模型，可用于电影片段、场景和故事的创作。

音乐生成方面，谷歌进一步扩大了配套的音乐创作平台Music AI Sandbox的访问权限，由Lyria 2音乐生成模型提供技术支持。谷歌还打造了交互式音乐生成模型Lyria Realtime，允许用户实时交互地创建、控制音乐。

在大量AI生成内容出现之后，此类内容的识别也成为关键挑战。谷歌于2023年推出了SynthID水印，迄今为止已为100亿份AI生成的图像、视频、音频和文本内容添加水印。今天，谷歌进一步发布了SynthID检测器，这一验证门户能帮助人们更方便地识别AI生成内容。

Gemini将推出Canvas功能，支持互动性的用户协作。用户描述需求后，Canvas可自动生成可分享的交互式内容，其他用户也可以对这一内容进行修改。

谷歌还推出了Gemini in Chrome，这是一款Chrome浏览器中内嵌的个性化助手，实时理解当前网页内容与用户所处的上下文。例如，在购物场景中，Gemini in Chrome可以帮助用户快速对比商品评论、辅助决策。这一功能将于本周面向美国用户开放。

Gemini App中将内置上述一系列谷歌的媒体内容生成模型。

04.联手三星、高通共建安卓XR，现场演示智能眼镜回消息、搜图片

谷歌副总裁、安卓XR主管沙赫拉姆·伊扎迪（Shahram Izadi）称，安卓平台现在正发生许多令人兴奋的变化。上周，谷歌已经发布了安卓16和Wear OS 6两大新一代操作系统，而今天发布的许多Gemini最新进展将很快登上安卓平台，不仅限于手机，还包括手表、汽车和智能电视。

而谷歌的安卓XR是Gemini时代的首个安卓平台，将支持从头显到智能眼镜等多种设备类型，满足不同使用场景的需求，如沉浸式观影、游戏和工作等。

目前，谷歌正与三星合作共建安卓XR，并与高通合作针对骁龙平台进行优化。自去年发布开发者预览版以来，已有数百名开发者为该平台构建应用。

谷歌认为，智能眼镜是AI的理想载体。现场，谷歌工作人员和NBA球星“字母哥”一同展示了谷歌眼镜原型机的使用体验。

天气、时间、图像和消息等信息能以彩色形式显示在谷歌眼镜上，用户可以直接通过语音指令让安卓XR智能眼镜完成消息回复、开启勿扰模式、图像检索等操作。

这款眼镜还具备一定的上下文记忆能力。在演示人员登上台后，谷歌眼镜能回忆起刚才在后台看到的咖啡究竟是什么品牌的。

谷歌称，他们与三星的合作关系将会提升至新的高度，从头显拓展至智能眼镜领域，双方已经在合作开发软件和参考硬件平台。

继与三星合作的Project Moohan之后，谷歌的第二款安卓XR设备是与XREAL合作的Project Aura。这款智能眼镜使用了安卓XR的软件堆栈和高通骁龙XR芯片，配备光学透视（OST）和虚拟透视（VST）显示技术，拥有70度的视野，不过仍然采用了有线的设计。

05.AI Mode支持上传全身照虚拟试穿，跟踪低价代理结账

自去年在I/O大会上推出以来，谷歌搜索的AI Overviews月活用户已达15亿，在200多个国家和地区可用。

AI Overviews是Google Lens视觉搜索增长的驱动力之一。Google Lens搜索次数的年增长率为65%，今年已经完成超过1000亿次视觉搜索。

为提供更沉浸式的AI搜索体验，谷歌推出了全新的“AI Mode”。AI Mode以新标签页形式出现在搜索界面中，其底座是谷歌基于Gemini 2.5定制的模型版本。

这一模式下，其会针对用户需求对答案进行整合并提供方便阅读的答案形式，如附带评分的饭店信息、包含地图概览的答案等，同时，用户还可以通过对话形式进行后续追问。这项功能今天开始在美国推出。

AI Mode背后的关键技术是“查询扇出（query fan-out）”，可跨子主题和多个数据源同时发出多个相关搜索，然后将这些结果汇总在一起，提供易于理解的响应。

在个性化搜索能力方面，AI Mode允许用户引入更多偏好信息，帮助用户预定座位、进行所在地活动推荐等。对于用户需要获得更为详尽答案的问题，AI Mode能代表用户发起数十次甚至数百次搜索，几分钟内生成一份专业级报告。

AI Mode在体育数据、金融分析中的深度应用会于今年夏天推出。如让其展示本赛季和上赛季使用鱼类球棒球员的打击率和上垒率，这个问题包含不同赛季、使用特定球棒的球员、打击率、上垒率等多个要素。其会动态为用户生成如图表等适应用户观看的界面。

AI Mode还重塑了用户的购物体验，帮助用户定制浏览界面、虚拟试穿以及结账。

AI Mode将Gemini与购物图谱相结合，拥有超过500亿个产品，并附有评论、价格、颜色选项和可用性等详细信息，同时会根据用户特定需求定制产品浏览面板。

基于AI Mode，用户选中衣服点击“试穿”图标、上传全身照，就能进行虚拟试穿。这一效果由时尚定制图像生成模型提供支持，该模型能够理解人体结构和服装的细微差别，例如不同面料在不同人体上的折叠、拉伸和悬垂效果。

同时，用户在商品详情上点击“跟踪价格”，然后设置合适的尺码、颜色以及期望的支付金额，AI Mode就会自动在不同网站监控降价信息，并向用户发送降价通知，将商品添加到用户购物车并通过Google Pay完成结账。这项视觉购物、结账功能将在未来几个月内陆续推出。

06.研究项目突破：3D视频通话、视频通话搜索为Agent引入多任务处理能力

皮查伊重点提到了目前正改变谷歌产品的三个例子：

第一个项目是在Project Starline之上，谷歌推出一个以AI为核心的全新视频通话平台Google Beam，该平台采用新一代视频模型将2D视频流转换为3D体验，通过6台摄像机组成的阵列捕捉用户动作，借助AI将这些视频流进行合并，实时处理呈现用户影像，精度达毫米级，每秒60帧。谷歌与惠普合作的首批Google Beam设备将于今年晚些时候向其测试用户推出。

此外，谷歌致力于将Project Starline的底层技术引入Google Meet视频会议平台，包括实时语音翻译功能。今天谷歌将直接在Google Meet中推出实时语音翻译功能，订阅用户可以使用英语和西班牙语，未来几周之内将会支持更多语言，今年晚些时候面向企业用户推出。

第二个项目是实时、多模态的AI助手项目Project Astra，如今Gemini Live已具备Project Astra的摄像头和屏幕共享功能，让用户可以畅聊所见的一切。

去年，Project Astra展示的实时视觉、屏幕共享和记忆功能已逐步集成至Gemini中，今天谷歌新增了更自然的原生语音交互和计算机控制功能。

Gemini Live API现已推出音频视频输入和本地音频输出的预览版本，开发者可以控制其语调、口音和说话风格。

Project Astra还可用于视障人士的辅助。谷歌演示了Project Astra如何帮助一名盲人音乐家完成现场演出。

第三个项目是Project Marina，这是一个能够与网络交互并且完成任务的Agent，谷歌将Agent视为结合了先进AI模型智能与工具访问能力的系统。

其中，计算机使用是一项使Agent能与浏览器和其他软件进行交互和操作的重要能力。谷歌引入了多任务处理能力，Project Marina可以同时监管十项任务，用户展示一次任务，Agent还可以学会为未来类似的任务去制定相应的计划。

谷歌将通过Gemini API将Project Marina的计算机使用能力带给开发者，今年夏天会面向更广泛用户开放。

Gemini SDK现在兼容MCP工具，谷歌会逐步将整体功能引入到谷歌搜索以及Gemini应用。

07.结语：谷歌全面重塑搜索浏览器体验，剑指通用AI助手

哈萨比斯提到，过去的十年中，谷歌为现代AI时代奠定了许多基础，从率先提出所有大语言模型赖以构建的Transformer架构，到开发AlphaGo和AlphaZero等可以学习和规划的智能体系统，并且已将这些技术应用于量子计算、数学、生命科学和算法发现领域的突破。

这也是其最新在年度开发者大会上宣布诸多更新的技术底座。谷歌在升级Gemini模型的同时，将更多的AI能力融入到搜索、Gmail和浏览器之中。同时，谷歌还预告了未来的重大举措，包括改进视频通话功能、打造更具感知力和对话能力的助手，以及合作开发智能眼镜。

这些都彰显出谷歌作为科技巨头雄厚的技术实力和广泛的应用市场，并且在I/O大会上，谷歌也提到将在基础研究上加倍投入，真正构建更个性化、更主动、更强大的AI。未来实现通用人工智能（AGI）的下一个突破性技术或许将会更快到来。

本文来自微信公众号“智东西”（ID：zhidxcom），作者：程茜陈骏达，编辑：心缘，36氪经授权发布。

本文分类：实时讯息
浏览次数：0 次浏览
本文链接：https://www.27067.com/zixun/NJXrJ0eX86.html