标签：模型

阿里云通义千问视觉理解模型降价超80%

阿里云通义千问视觉理解模型降价超80%

12 月 31 日，阿里云宣布本年度第三轮大模型降价，通义千问视觉理解模型全线降价超 80%。据悉，其中 Qwen-VL-Plus 直降 81%，输入价格仅为 0.0015 元/千 tokens，创下全网最低价格；更高性能的 Qwen-VL-Max 降至 0.003 元/千 tokens，降幅高达 85%。目前，按照最新价格，1 块钱可最多处理约 600 张 720P 图片，或 1700 张 480P 图片。据介绍，Qwen-VL 是阿里云研发的大规模视觉语言模型。Qwen-VL 可以以图像、文本、检测框作为输入，并以文本和检测框作为输出。

—— 每日经济新闻、第一财经

2025年1月3日
微软将引入其他人工智能模型到 365 Copilot

微软寻求将其他模型引入 365 Copilot 产品

知情人士透露，微软正致力于在其旗舰 AI 产品 Microsoft 365 Copilot 中引入内部及第三方人工智能模型，以期从当前的 OpenAI 底层技术中实现多样化并降低成本。这是微软减少对其支持的 OpenAI 依赖的最新举措，这与微软近年来宣称可以提前使用 OpenAI 模型的做法不同。出于对企业用户成本和速度的担忧，微软也在寻求降低 365 Copilot 对 OpenAI 的依赖。微软发言人表示，OpenAI 将继续作为这家公司在前沿模型方面的合作伙伴。两家公司之间的原始协议允许这家软件巨头定制 OpenAI 的模型。“我们根据产品和体验整合了 OpenAI 和微软的各种模型。”

—— 路透社

2025年1月3日
YouTube允许第三方公司使用其视频训练人工智能模型

YouTube创作者可选是否允许第三方AI训练

YouTube 平台正在推出一种方法，让创作者允许第三方公司使用他们的视频来训练人工智能模型。需要明确的是，默认设置是关闭的，这意味着如果您不想让第三方公司抓取您的视频用于人工智能训练，无需执行任何操作。但如果出于某种原因确实想允许，这将是一个选择。YouTube 将在“未来几天”在 YouTube Studio 中推出该设置，并且“仍然禁止”未经授权的抓取。创作者可以从第三方公司列表中挑选允许使用您视频进行训练的公司，或者选择允许所有第三方公司。名单包括 AI21 Labs、Adobe、IBM、Meta、字节跳动、Cohere、Anthropic、Runway、英伟达、苹果、微软、OpenAI、Perplexity、亚马逊、Pika Labs、Stability AI 和 xAI。

—— TheVerge

2024年12月26日
Anthropic推出新人工智能模型：Claude 3.5 Haiku

Anthropic 3.5 Haiku 模型向 Claude 用户推出

昨日，Anthropic 为其人工智能聊天机器人平台 Claude 的用户发布了其最新的人工智能模型之一 Claude 3.5 Haiku。该模型现在可以在 Claude 的网页和移动版本中使用。3.5 Haiku 是 Anthropic 于今年11月推出的模型，在特定基准测试中，其表现与 Anthropic 现役旗舰模型 3 Opus 相当甚至更好。3.5 Haiku 模型特别适合编程建议、数据提取和标记以及内容审核。3.5 Haiku 还能够输出比其前代模型 3 Haiku 更长的文本内容，并且该模型的知识截止日期已更新，这意味着可以引用更多近期事件。然而该模型不支持图像分析。

—— Techcrunch

2024年12月14日
谷歌推出 Gemini 2.0 模型

谷歌推出 Gemini 2.0 模型带来智能体能力

谷歌推出其旗舰人工智能模型新版本，据称该模型的速度比之前版本快两倍，并将为协助用户的虚拟代理提供动力。谷歌公司周三表示，新模型 Gemini 2.0 可以跨语言生成图像和音频，并可在谷歌搜索和编码项目中提供帮助。Gemini 新功能使构建能够思考、记忆、规划甚至代表用户采取行动的代理成为可能。谷歌公司本周将开始在搜索和 AI 摘要中测试 Gemini 2.0。谷歌周三还向开发人员提供了 Gemini 2.0 Flash 的实验版本，这是其快速高效的人工智能模型，该模型可以更好地处理图像并接近人类的推理能力。

另外三个实验性项目也将由 Gemini 2.0 驱动。I/O 大会上宣布的现实世界理解项目 Astra 已经完成了 Android 版本的测试，即将开始眼镜版本的原型测试。Mariner 项目旨在从浏览器开始探索人机交互的未来，它能够理解和推理浏览器屏幕上的信息，然后通过实验性的 Chrome 扩展程序代替用户完成复杂任务。编码智能体 Jules 可直接集成到 GitHub 工作流中，以在开发人员监督下自主解决问题、制定计划并执行。
—— Google 博客、彭博社

2024年12月12日
字节跳动视频生成模型PixelDance内测

字节跳动视频生成模型在豆包电脑版内测

近日，字节跳动视频生成模型PixelDance已在豆包电脑版正式开启内测，部分用户已开通体验入口。内测页面显示，用户每日可免费生成十支视频。早期内测创作者介绍，当PixelDance生成10秒视频时，切换镜头3-5次的效果最佳，场景和角色能保持很好的一致性。通过小幅度、渐进式的提示词描述，PixelDance能生成魔术般的特效。此外，用户还可使用时序提示词、长镜头等技巧，增强视频的复杂度和表现力，对剧情创作非常友好。目前，基于该模型的视频生成能力已在豆包电脑版陆续开放。

—— 新浪科技

2024年12月12日
OpenAI发布Sora视频人工智能模型

OpenAI 的视频生成器 Sora 正式发布

当地时间周一，OpenAI 推出了其文本转视频人工智能模型 Sora ，这是其为期12天的“产品发布季”系列的一部分，现已在 Sora.com 上向美国和“大多数其他国家”的 ChatGPT 订阅用户推出，还有一款新模型 Sora Turbo 同步推出。这个更新的模型增加了从文本生成视频、动画图像和混合视频等功能。OpenAI 表示，通过 ChatGPT Plus 订阅，用户可以生成最多 50 个优先视频 (1,000 个积分)，分辨率高达 720p，时长为 5 秒。上周推出的 ChatGPT Pro 订阅每月收费 200 美元，提供“无限生成”功能，最多可生成 500 个优先视频，同时将分辨率提高到 1080p，时长提高到 20 秒。更昂贵的套餐还允许订阅者下载无水印视频，并同时进行最多五次生成。

—— TheVerge

2024年12月12日
阿里云通义推出新开源人工智能模型QwQ

阿里云通义开源推理大模型QwQ，推理水平比肩OpenAI o1

11月28日，阿里云通义团队发布全新人工智能推理模型QwQ-32B-Preview，并同步开源。评测数据显示，预览版本的QwQ，已展现出研究生水平的科学推理能力，在数学和编程方面表现尤为出色，整体推理水平比肩OpenAI o1。QwQ (Qwen with Questions)是通义千问Qwen大模型最新推出的实验性研究模型，也是阿里云首个开源的人工智能推理模型。阿里云通义千问团队研究发现，当模型有足够的时间思考、质疑和反思时，其对数学和编程的理解就会深化。基于此，QwQ取得了解决复杂问题的突破性进展。

—— 阿里巴巴

2024年12月5日
英伟达显示了可以生成音乐和音频的模型

英伟达展示了可以生成音乐和音频的模型

英伟达11月25日展示了一款用于生成音乐和音频的人工智能模型 Fugatto。该模型可以根据文本提示修改声音、产生新的声音。不过英伟达目前没有公开发布 Fugatto 技术。新模型面向音乐、电影和游戏制作商。可以改变录音的口音和情绪，将钢琴演奏转换成人声歌唱，具体来讲，Fugatto 可以分离歌曲中的人声，添加乐器，将钢琴换成歌剧歌手来改变旋律。英伟达表示，新模型可以创造出“从未听过的声音”，比如可以使小号吠叫或者萨克斯发出猫叫声。英伟达表示目前仍在讨论是否以及如何将其公开发布。

—— 澎湃新闻、Fugatto

2024年12月5日
Niantic constructs massive geographic space AI model

Niantic 正在利用 Pokémon Go 玩家数据构建“地理空间”AI 模型

Niantic 宣布正在构建一个新的“大型地理空间模型”（LGM），该模型结合了 Pokémon Go 和其他 Niantic 产品玩家智能手机上的数百万张扫描图。这种 AI 模型可以让计算机和机器人以新的方式理解世界并与世界互动。Niantic 已在全球扫描了 1000 万个地点，每周收到大约 100 万个新扫描地点，每个都包含数百张离散图像。

LGM 的“空间智能”建立在 Niantic 所开发的视觉定位系统的神经网络之上。博客文章解释说：“过去五年来，Niantic 一直致力于构建我们的视觉定位系统 (VPS)，该系统使用手机的单张图像来确定其位置和方向，并使用由人们扫描我们游戏和 Scaniverse 中有趣的位置而构建的 3D 地图”，并且“这些数据是独一无二的，因为它是从行人的角度获取的，包括汽车无法到达的地方。”

—— The Verge ， Niantic

2024年12月5日

标签： 模型

标签：模型