Google“反击战” 一夜放出近10款模型

币圈资讯阅读：28 2024-05-15 19:48:07 评论：0

美化布局示例

欧易(OKX)最新版本

【遇到注册下载问题请加文章最下面的客服微信】永久享受返佣20%手续费！

APP下载全球官网大陆官网

币安(Binance)最新版本

币安交易所app【遇到注册下载问题请加文章最下面的客服微信】永久享受返佣20%手续费！

APP下载官网地址

火币HTX最新版本

火币老牌交易所【遇到注册下载问题请加文章最下面的客服微信】永久享受返佣20%手续费！

APP下载官网地址

```html

据CSDN的屠敏报道

According to Tu Min's report 比特币今日价格行情网_okx交易所app_永续合约_比特币怎么买卖交易_虚拟币交易所平台

今年的5月份，AI盛宴接连开席，让人仿佛置身于2023年3月。

去年三月份，Google开放了PaLM API，几乎同时OpenAI发布了最强大的GPT-4模型，此外，微软也宣布他们的Office全家桶被GPT-4改革。这使得Google似乎被大家所忽视。

今年同样的情况正在上演，OpenAI在昨天发布了全面升级的GPT4o，而微软即将在下周召开Build 2024大会。这一次，Google能否逆风翻盘呢？我们将从开幕的I/O 2024开发者大会中一探究竟。

今年的I/O大会也宣称了Google的“AI First”战略，已经过去了8年。

01 亮点抢先看

就像之前预料的，这次将近两个小时的主题演讲中，“AI”成为了I/O大会提及的关键词，以高达121次的频次，可以看出Google对AI的强调。

Google CEO Sundar Pichai（桑达尔·皮查伊）最近在一档节目中表示，“AI目前还处于发展的早期阶段，相信谷歌最终将赢得这场战争，正如谷歌当初并不是第一家做搜索的公司”。

在I/O发布会上，Sundar Pichai也强调了这一点，“我们仍处于人工智能平台转变的早期阶段。对于创作者、开发者、初创公司和每个人来说，我们看到了巨大的机遇。”

Sundar Pichai表示，去年发布的Gemini（双子座）定位为多模态大型模型，可以跨文本、图像、视频、代码进行推理。今年2月，Google发布了Gemini 1.5 Pro，在长文本方面实现了突破，将上下文窗口长度扩展到100万个tokens，比其他基础模型更多。现在，超过150万的开发者正在使用Gemini模型。

发布会上，Sundar Pichai分享了Google内部的最新进展：

Gemini应用程序现已上线Android和iOS系统，通过Gemini Advanced，用户可以访问Google最强大的模型。
Google将向全球所有开发者推出Gemini 1.5 Pro的改进版本。此外，今天拥有100万个token上下文的Gemini 1.5 Pro现在可以直接在Gemini Advanced中供消费者使用，它可以跨35种语言使用。
Google将Gemini 1.5 Pro上下文窗口扩展到了200万个tokens，并以私人预览版的形式提供给开发人员。
尽管我们还处于Agent的早期阶段，但是Google已经开始先行探索，尝试了Project Astra，通过智能手机摄像头分析世界，识别及解释代码、帮助人类寻找眼镜、还能辨别声音...
比Gemini 1.5 Pro更轻量级的Gemini 1.5 Flash发布，针对低延迟和成本等重要的任务进行了优化。
可制作“高质量”1080p视频的Veo模型和文本生成图像模型Imagen 3发布；
采用全新架构、27B大小尺寸的Gemma 2.0来了；
Android，第一个包含内置设备基础模型的移动操作系统，深度集成了Gemini模型，成为以Google AI为核心的操作系统；
第六代TPU Trillium发布，与上一代TPU v5e相比，每个芯片的计算性能提高了4。

``````html

近日，谷歌公司发布了一系列令人瞩目的更新，其中包括 Gemma 1.5 Pro 和 Gemini 1.5 Flash 两款新模型的推出，以及首个视觉语言开放模型 PaliGemma 的发布。

谷歌推出了新模型

02 谷歌“杀疯了”，多款模型齐发

近期，谷歌公司再次展示了其在大模型领域的领先地位。Gemini 1.5 Pro 在长文本方面取得了突破，上下文窗口长度扩展到了 100 万个 tokens，大幅提升了处理能力。此外，Gemini 1.5 Pro 还通过质量改进和新增功能，为用户提供了更广泛、更复杂的应用场景支持。

与此同时，Gemini 1.5 Pro 在 API 和 Google AI Studio 中新增了音频理解功能，使其能够更全面地处理多媒体数据。更令人瞩目的是，谷歌宣布将上下文窗口扩展到 200 万个 tokens，为开发者提供了更广阔的应用空间。

要使用拥有 200 万个 tokens 上下文窗口的 Gemini 1.5 Pro，开发者需加入 Google AI Studio 或 Vertex AI 中的候补名单。

Gemini 1.5 Flash：轻量级新模型

Gemini 1.5 Flash 是一款专为效率和成本优化的轻量级模型。尽管比 1.5 Pro 更轻便，但它在处理多模态数据时表现出色。默认情况下，Flash 拥有 100 万个 tokens 上下文窗口，可以处理大量数据，包括视频、音频和代码等。

Gemini 1.5 Flash 适用于摘要生成、聊天机器人、图像和视频字幕生成等任务。通过“蒸馏”过程，Flash 成功将大型模型的核心知识转移到了更小、更高效的模型中。

Gemini 1.5 Flash 的价格定为每 100 万个 tokens 35 美分，相比 GPT-4o 的价格更具竞争力。目前，Gemini 1.5 Pro 和 1.5 Flash 已推出公共预览版，并在 Google AI Studio 和 Vertex AI 中提供。

谷歌发布首个视觉语言开放模型 PaliGemma

PaliGemma 是一款功能强大的视觉语言模型，旨在支持多种视觉语言任务。该模型基于 SigLIP 视觉模型和 Gemma 语言模型等组件构建，可以用于图像字幕、视觉问答、文本理解、对象检测等任务。

谷歌表示，为促进开放研究，PaliGemma 可通过多种平台和资源获得，包括 GitHub、Hugging Face 模型、Kaggle、Vertex AI Model Garden 和 ai.nvidia。

``````html 新闻稿

TensoRT-LLM加速：PaliGemma登陆com

最新消息显示，PaliGemma现已登陆com平台，并成功整合了JAX和Hugging Face Transformers，实现了轻松高效的集成。

Gemma 2 引爆新动能

新一代Gemma 2即将发布，不仅拥有全新尺寸，更搭载全新架构，旨在实现突破性的性能与效率。据悉，Gemma 2拥有270亿个参数，性能可与Llama 3 70B媲美，但仅为其一半大小。

谷歌公司透露，Gemma 2的高效设计使其计算量仅为同类模型的一半。经过优化的27B模型不仅可在NVIDIA GPU上高效运行，还可在Vertex AI的单个TPU主机上运行，从而为更广泛的用户提供更便捷、更经济的部署选择。

Gemma 2将于六月正式推出。

Veo：全新高端视频生成模型问世

Google今日发布了全新视频生成模型Veo，可视为对标OpenAI的Sora，其可生成各类高质量1080p分辨率视频，时长可达一分钟以上。

Veo基于Google多年来的视频生成模型工作，包括生成查询网络(GQN)、DVD-GAN、Imagen-Video、Phenaki、WALT、VideoPoet和Lumiere，通过结合架构、缩放法则及其他技术，不断提升质量与输出分辨率。

用户可立即加入候补名单，申请使用Veo。

Imagen 3：高品质文本到图像模型发布

最新发布的Imagen 3相较于Google之前的模型，其分散注意力的视觉伪影大幅减少，能够更好地理解自然语言、把握背后的意图，并细致融合长文本中的细节。

从今日起，创作者们可在ImageFX中进行Imagen 3的私人预览，并加入候补名单。Imagen 3即将登陆Vertex AI。

未来预览：通用AI代理Project Astra

在今天的发布会上，Google DeepMind首席执行官兼联合创始人Demis Harbis透露，Google一直致力于开发对日常生活有益的通用AI代理，其中Project Astra（高级视觉和语音响应代理）是其中的重要尝试之一。

该项目在Gemini的基础上，Google开发了原型代理，能够连续编码视频帧、将视频和语音输入组合到事件时间线中，并缓存此信息以进行有效调用，从而更快地处理信息。

通过利用语音模型，Google还加强了它们的发音，为代理提供了更广泛的语调。这些代理能够更好地理解所处的上下文，并在对话中快速做出响应。

在发布会演示的示例中，通过Project Astra，能够自动识别实际场景中发出声音的物体，甚至能够直接定位到发声部位，解释电脑屏幕上代码的作用，还能帮助人类找到眼镜等等。

Google表示：“有了这样的技术，我们很容易想象未来人们可以通过手机或眼镜设备拥有专业的人工智能助手。其中一些功能将于今年晚些时候出现在Google产品中。”

03 Gemini Advanced：定制化升级，全面拓展Gemini

Gemini 1.5 Pro的全新升级版本Gemini Advanced已正式推出，该版本面向全球开发者，支持35种语言。

如前文所述，Gemini 1.

``` 新闻稿：Gemini Advanced 引领新一轮数据分析革命

Gemini Advanced 引领新一轮数据分析革命

最新发布的 5 Pro 具备了 100 万 token 上下文的能力，这一长期上下文窗口的引入使得 Gemini Advanced 可以轻松理解多个大型文档。据悉，它预计能处理总共最多 1,500 页的文本，或者总结 100 封电子邮件，甚至能够处理一小时的视频内容或超过 30,000 行的代码库。

Google 今日透露，借助于 Google Drive 或直接从设备上传文件的功能，Gemini Advanced 很快将成为数据分析师的得力助手。它将能够从上传的数据文件（例如电子表格）中发现见解，并动态构建自定义可视化和图表。

Gemini Advanced 图片

为了提供更加个性化的体验，Gemini Advanced 订阅者将很快能够创建自定义版本的“Gems”。用户可以根据需求创建各种 Gems，比如健身伴侣、副主厨、编码助手或创意写作指南。只需描述您希望 Gem 完成的任务以及您期望它如何响应，例如：“你是我的跑步教练，给我一个每日跑步计划，并保持积极、乐观和激励。” Gemini 将接受这些说明，仅需一次点击即可增强它们，从而创造出满足特定需求的 Gem。

Gemini 自定义版本

用 AI 改写 Google 搜索

在没有商业应用场景的情况下，大型模型技术的进步似乎只是空中楼阁。与 OpenAI 不同，Google 和微软正在 AI 应用的领域展开激烈竞争。对于以搜索起家的 Google 来说，它自然不会错过 AI 的浪潮。

Google 副总裁兼搜索主管 Liz Reid 表示：“通过生成式人工智能，搜索能够做的事情远远超出你的想象。因此，无论是进行研究、规划还是进行头脑风暴，只需提出你想到的或需要完成的任务，Google 将负责处理一切。”

AI Overviews：「一次搜索，获得所有信息」

在今天的发布会上，Google 推出了一个名为“AI 概述”（AI Overviews）的功能，其宗旨是“一次搜索，获得所有信息”。

简单来说，有时你可能需要快速找到答案，但却没有时间将所有必要的信息整理在一起。例如，“你正在寻找一家新的瑜伽或普拉提工作室，并且想找到一家受当地人欢迎、交通便利且对新会员提供折扣的工作室”，这时你只需清楚地描述你的需求进行一次搜索，AI Overviews 将给出解决复杂问题的答案。

AI 概述

拍摄视频，获得 AI 帮助

随着对视频理解技术的进步，Google 还增强了其视觉搜索功能。通过 Google Lens 视频搜索，你可以拍摄你遇到的问题或者周围的事物（包括运动的物体），从而进行搜索并得到答案，这将节省因文字描述不清而造成的时间浪费和麻烦。

然而，以上两项功能目前仅在美国地区推出，未来将会向更多国家推广。

除了在搜索领域，大型模型的应用还将进一步提升产品的智能程度。

Ask Photos

在照片搜索应用方面，Google 推出了一个名为“询问照片”（Ask Photos）的功能。

通过 Gemini，它能够识别照片中不同的背景信息，例如询问：“我的女儿是什么时候学会游泳的？她的游泳进展如何？”该功能能够汇总所有相关内容，帮助用户快速收集信息并解决疑问。

询问照片

这一功能目前尚未推出，Google 表示将于今年夏季发布。

```html

5 Pro 引入到 Google Workspace

Google 还将大模型集成到 Google Workspace，例如，在 Gmail 中搜索电子邮件，通过与学校最近往来的邮件，随时了解孩子学校发生的一切情况。我们可以要求 Gemini 总结一下学校最近发来的所有电子邮件。它在后台识别相关电子邮件，甚至分析 PDF 等附件。

新增 NotebookLM 中的音频输出

NotebookLM 是 Google 在去年 7 月推出的一款AI 笔记应用，可围绕用户上传文档完成摘要、创建想法。

基于多模态大模型技术，Google 在该应用上新增了音频输出功能。它使用 Gemini 1.5 Pro 获取用户的源材料并生成个性化的交互式音频对话。

05 深度集成 Gemini 的 Android

用 AI 对操作系统进行升级，是微软和 Google 正在大力推进的事情。作为全球第一大移动操作系统，Android 拥有数十亿用户。Google 对此表示，已将 Gemini 模型整合到 Android 中，并引入了很多实用的 AI 功能。

例如通过“Circle to Search”（划圈搜索），可以使用户无需切换应用程序，使用画圈、涂鸦、点击等简单的交互方式获取更多信息。如今，Circle to Search 可以帮助学生完成作业，当学生圈出他们遇到的提示时，他们将获得解决一系列物理和数学问题的分步说明，从而获得更深入的理解，而不仅仅是答案。

另外，Google 将很快在 Android 系统上更新 Gemini，方便用户在应用程序顶部调出 Gemini 的叠加层，以便以更多方式轻松使用 Gemini。

「Android 是第一个包含内置设备基础模型的移动操作系统」，借助 Gemini Nano，Android 用户可以快速体验 AI 功能。Google 透露，从今年晚些时候的 Pixel 开始，其将推出最新型号 Gemini Nano 与多模态。这意味着新版 Pixel 手机不仅能够处理文本输入，还能够理解更多上下文信息，例如视觉、声音和口语。

此外，Google 在 Android 中借助 Gemini Nano 在通话过程中检测到通常与诈骗相关的对话时，提供实时警报，例如，如果有声称”银行“的人要求你紧急转账、使用礼品卡付款或要求提供卡 PIN 码或密码等个人信息（这些都是不常见的银行要求），你就会收到提醒，不过这项功能还在测试中。

06 第六代 TPU Trillium

Sundar Pichai 表示，训练最先进的模型需要大量的计算能力。过去六年中，行业对 ML 计算的需求增长了 100 万倍，并且每年都会增加十倍。

为了适应 ML 计算的增长需求，其推出了第六代 TPU—— Trillium，与上一代 TPU v5e 相比，每个 Trillium 芯片的计算性能提高了 4。

``````html

Google宣布，为了提高性能，他们扩大了矩阵乘法单元(MXU)的规模，并增加了时钟速度。

此外，Trillium还搭载了第三代SparseCore，这是一种专门的加速器，用于处理高级排名和推荐工作负载中常见的超大嵌入。Trillium TPU能够更快地训练下一批基础模型，并以更少的延迟和更低的成本为这些模型提供服务。

Trillium TPU的能效比TPU v5e提高了67%以上。

据悉，Google将于2024年底向其云客户提供Trillium。

07 安全措施

除了以上模型与产品更新外，Google在安全方面也有了最新动作，旨在应对AI滥用等情况。

一方面，Google推出了一个基于Gemini的新模型系列，并对学习进行了微调，发布了LearnLM。其将研究支持的学习科学和学术原则集成到Google的产品中，帮助管理认知负荷并适应学习者的目标、需求和动机。

另一方面，为了让知识更容易获取和消化，Google构建了一种新的实验工具Illuminate，它利用Gemini 1.5 Pro的长上下文功能将复杂的研究论文转换为简短的音频对话。Illuminate可以在几分钟内生成由两个人工智能生成的声音组成的对话，提供对研究论文中关键见解的概述和简短讨论。

最后，Google采用了“人工智能辅助红队”的技术来主动测试自己的系统是否存在弱点并试图打破它们，并通过将水印工具SynthID扩展为两种新模式：文本和视频，使AI生成的内容更易于识别。

08 你如何看待Google I/O这场发布会？

以上便是Google I/O 2024 Keynote的主要内容，产品非常丰富，不过多数都需要等待。

随着这一场发布会的结束，不少专家也发表了一些看法。来自NVIDIA高级研究经理Jim Fan表示：

Google I/O。一些想法：该模型似乎是多模式输入，但不是多模式输出。Imagen-3和music gen模型仍作为独立组件与双子座分离。将所有模态输入/输出原生合并是不可避免的未来趋势：

使“使用更像机器人的声音”、“说话速度提高2倍”、“迭代编辑此图像”和“生成一致的连环画”等任务成为可能。
不会丢失跨模态边界的信息，如情感和背景声音。
提供新的语境功能。你可以通过少量的示例，教模型以新颖的方式将不同的感官结合起来。
GPT-4o做得并不完美，但它的形式因素是正确的。用Andrej的LLM-as-OS比喻：我们需要模型原生支持尽可能多的文件扩展名。
谷歌正在做的一件事是正确的：他们终于在认真努力地将人工智能整合到搜索框中。我感觉到了Agent流：规划、实时浏览和多模态输入，所有这些都来自登录页面。谷歌最强大的护城河是分销。Gemini不一定要成为最好的模型，也可以成为世界上最常用的模型。

AI著名学者吴恩达表示，“祝贺我所有的Google朋友在I/O上发布了很酷的公告！我个人期待Gemini拥有200万个token输入上下文窗口以及对设备上AI的更好支持——应该会为应用程序构建者带来新的机会！”