微闻

标签: Gemini

  • 谷歌推出新一代AI推理模型Gemini 2.5

    谷歌推出新一代AI推理模型Gemini 2.5

    谷歌推出新一代AI推理模型Gemini 2.5

    近日,谷歌正式发布了最新的Gemini 2.5系列AI推理模型。这一更新版本在问答交互中引入了短暂的”思考”环节,以增强模型的推理能力。

    作为此次升级的核心产品,Gemini 2.5 Pro Experimental于2月13日正式推出。这款多模态推理AI模型被谷歌称为目前最智能的AI系统之一。该模型已整合到Google AI Studio开发者平台和Gemini应用程序中,并向订阅其每月20美元” Gemini Advanced”计划的用户提供访问权限。

    Gemini 2.5 Pro(代号为” nebula”)在复杂任务处理能力上实现了显著突破,尤其在衡量人类偏好的LMArena排行榜上展现出超越现有竞争对手的优势。这一进展使Gemini系列进一步巩固了其在AI领域的领先地位。

    值得注意的是,此次发布的Gemini 2.5系列是对先前版本的重大改进。此前的Gemini 1.5 Pro已展示了从PDF文件中提取特定引述并进行推理的能力,而新版本则在此基础上实现了更复杂的多模态处理和生成能力,包括图像和音频内容的原生支持。

    Gemini系列模型采用了与Gemma相同的前沿研究和技术架构。其中,20亿参数的Gemma 2模型可借助Ollama在本地运行推理,充分展现了Gemini技术生态的延展性。这一系列的技术创新进一步确立了谷歌在AI领域的创新地位,并为其开发者社区提供了强大的工具支持。

  • 谷歌Gemini推出实时屏幕解读与视频分析功能

    谷歌Gemini推出实时屏幕解读与视频分析功能

    谷歌近期宣布为其人工智能助手Gemini推出两项重要更新:屏幕内容实时解读功能和视频实时分析能力。这些新功能旨在为用户提供更直观的互动体验,并使Gemini能够通过屏幕或摄像头获取实时画面并进行理解与反馈。

    据消息人士透露,这些功能得到了谷歌多模态虚拟助手项目“Project Astra”的技术加持。其中,屏幕内容实时解读功能允许用户直接通过Gemini Live查询屏幕上显示的信息,并即时获得相关解答;而视频实时分析功能则使Gemini能够通过智能手机摄像头捕捉画面并进行实时解析。

    值得注意的是,这两项新功能将作为谷歌One AI Premium计划的一部分向付费订阅用户提供。该计划涵盖了包括多模态交互、实时串流等在内的高级AI服务。此外,开发者也可通过Google AI Studio和Vertex AI平台利用Gemini的多模态实时API来构建动态应用程序,进一步扩展其应用场景。

    Gemini 2.0版本还新增了对多种媒介的支持,包括文本、图片(实验性功能)及音频(即将推出)。这些改进不仅提升了Gemini的功能多样性,也显著增强了其处理速度和生成能力。通过将先进的人工智能技术与实时数据处理相结合,谷歌正在为用户提供更加智能化的交互体验。

  • Gemini 2.0 Flash 原生图像输出功能

    谷歌公测 Gemini 2.0 Flash 原生图像输出

    谷歌在 Gemini 2.0 Flash 中对原生图像输出功能进行更广泛的实验,允许进行对话式图像编辑以及其他功能。Gemini 2.0 Flash于去年12月发布时,谷歌说这款多模态模型除了文本之外,还可以原生输出音频和图像。原生输出不只是提供提示并返回图像,还允许用户通过自然语言对话的多个回合来编辑图像、进行文本图像混合输出、世界理解和精确渲染。整个对话过程中都会保留上下文。例如给出提示:“给我一份巧克力曲奇饼干的食谱。请附上每个步骤的图片。”该模型可以逐步给出步骤和示例图片,图片中的元素能保持一致。所有可用地区的用户都可以使用Google AI Studio 中的 Gemini 2.0 Flash实验版本和通过 Gemini API 测试此新功能。

    —— 谷歌博客

  • 谷歌Gemini:集成搜索历史、深度研究与自定义功能的免费升级

    谷歌 Gemini 向所有用户免费推出搜索历史集成、深度研究及自定义版本功能

    谷歌正在利用其最大的竞争优势让 Gemini 脱颖而出:搜索。启用个性化后,Gemini 现在可以自动分析参考用户的搜索历史记录是否可以“增强”其回复。该功能由 Gemini 2.0 Flash Thinking Experimental 模型提供支持,并且只有当其 AI 模型认为搜索结果“有用”时,它才会引用。

    谷歌去年年底推出深度研究功能现在免费向所有人开放,Gemini 用户可以使用 45 多种语言免费试用深度研究,无需订阅付费计划。深度研究中 Gemini 创建研究计划并收集资料,生成有关复杂主题的全面但易于阅读的报告。去年 8 月 Gemini 推出的 Gems 的功能,允许用户创建针对特定用例的聊天机器人的自定义版本,现在也免费向所有用户开放,不再需要高级订阅,并提供了几个预制的 Gems 来帮助用户入门。

    —— The Verge, Engadget, Android Authority

  • 谷歌推出基于Gemini的全新文本嵌入模型

    谷歌推出基于 Gemini 的全新文本嵌入模型

    当地时间周五,谷歌公司在其Gemini开发者API中添加了一款新的实验性文本“嵌入”模型Gemini Embedding。​嵌入模型将单词和短语等文本输入转换为数值表示,称为嵌入,以捕捉文本的语义含义。嵌入技术被广泛应用于文档检索和分类等领域,部分原因是可以降低成本同时改善延迟。谷歌在博客文章中表示:这个嵌入模型是在 Gemini 模型本身的基础上训练的,继承了 Gemini 对语言和细微语境的理解,使其适用于广泛的用途。我们已经将我们的模型训练得非常通用,并在金融、科学、法律、搜索等不同领域提供了卓越的性能。”谷歌称 Gemini Embedding 处于容量有限的“实验阶段”,可能会发生变化。

    —— Techcrunch

  • 谷歌日历推出Gemini面板

    谷歌日历新增 Gemini 面板帮助管理日程

    谷歌正在谷歌日历中测试一个由人工智能驱动的全新 Gemini 侧面板,让用户可以快速且以对话方式查看日程安排、创建活动并查找活动详情。用户可以通过点击谷歌日历窗口右上角的“Ask Gemini”图标来访问 Gemini 聊天机器人。然后用户可以选择建议的提示或编写自己的提示。例如,Gemini 可能会建议用户“添加午餐活动”或用户与某人的“查找下一个会议”。如果想要更多建议,可以选择“更多建议”选项。用户也可以直接编写自己的提示,例如“我和艾米丽的下一次会面是什么时候?”谷歌日历是最新获得 Gemini 侧面板的 Workspace 应用,此前已在 Gmail、云端硬盘、文档、表格、幻灯片和 Chat 中推出。

    —— Techcrunch

  • 谷歌限制Gemini回答政治问题

    谷歌仍限制 Gemini 回答政治问题的方式

    ​尽管 OpenAI 等几家谷歌竞争对手在最近几个月调整了他们的 AI 聊天机器人,使其能够讨论政治敏感话题,但谷歌似乎采取了更为保守的做法。测试发现,当被要求回答某些政治问题时,谷歌的 AI 聊天机器人 Gemini 经常表示“目前没法回答关于选举和政治人物的问题”。谷歌在2024年3月宣布,在美国、印度和其他国家举行的几场选举前,Gemini 将不会回答与选举相关的问题。许多 AI 公司也采取了类似的临时限制,担心如果他们的聊天机器人出现错误会引发强烈反响。然而现在谷歌似乎显得有些格格不入。去年的重大选举已经结束,但谷歌尚未公开宣布是否会改变 Gemini 处理特定政治话题的方式。

    —— Techcrunch

  • 谷歌推出iPhone锁屏小部件 Gemini

    谷歌为 iPhone 推出 Gemini 锁屏小部件

    适用于 iOS 和 iPadOS 的谷歌 Gemini 应用现在包含一些锁屏小部件,可以更轻松地访问人工智能助手的各种功能。该应用的最新更新总共增加了六个小部件,每个小部件都可以直接跳转到特定的 Gemini 功能。六个小部件包括,输入提示:遇到问题了? 立即键入任何内容。现场聊天:与Gemini一起大声讨论或头脑风暴。打开麦克风: 快速打开麦克风以设置提醒事项、创建日历事件等。使用相机:拍摄您眼前事物的照片,并向双子座提问。分享图片: 选择图片以获取更多信息、创建新艺术或开始聊天。共享文件: 使用文件来共享问题背后的信息或灵感。

    —— TheVerge

  • 谷歌 Gemini 新增屏幕共享功能

    谷歌 Gemini 现允许用屏幕上的内容来提问

    谷歌正在为其人工智能助手 Gemini 添加新功能,让用户可以使用屏幕上的视频和内容实时向其提问。在巴塞罗那举行的2025年世界移动通信大会上,该公司展示了一项新的“屏幕共享”功能,该功能可让用户与 Gemini 分享手机屏幕上的内容并询问有关问题。例如该公司播放了一段视频,视频中一位用户正在购买一条宽松牛仔裤并询问 Gemini 哪些其他衣服可以与之搭配。视频搜索功能可让用户拍摄视频并在拍摄过程中向 Gemini 助手提问。谷歌表示,这些功能将于本月晚些时候向安卓 Gemini Advanced 订阅用户推出。

    —— Techcrunch

  • 谷歌表格接受Gemini驱动升级

    谷歌表格获得由AI助手 Gemini 驱动的升级

    ​谷歌正在为谷歌表格提供一项由Gemini驱动的升级,旨在帮助用户更快地分析数据,并利用人工智能将电子表格转换为图表。通过此更新,用户可以使用Gemini的功能从数据中生成洞察,例如相关性、趋势、异常值等等。现在还可以生成高级可视化效果,例如热图,他们可以将其作为静态图像插入电子表格中的单元格中。尽管该公司上个月宣布了这一更新,但谷歌本周五表示,现在所有 Workspace 商业用户都可以使用。点击表格右上角 Gemini 图标。就可提出如“根据历史数据预测下一季度净收入” 或 “按类别和设备创建支持案例的简单热图” 之类的问题。

    —— Techcrunch