微闻

标签：视觉理解

阿里通义千问：推出了新视觉理解模型Qwen2.5-VL

阿里开源全新视觉理解模型Qwen2.5-VL

阿里通义千问今日宣布开源全新的视觉理解模型 Qwen2.5-VL，推出了3B、7B和72B三个尺寸版本。主要特点：◆视觉理解：不仅擅长识别常见物体，还能够分析图像中的文本、图表、图标、图形和布局。◆代理：直接作为一个视觉 Agent，可以推理并动态地使用工具，初步具备了使用电脑和使用手机的能力。◆理解长视频和捕捉事件：能够理解超过1小时的视频，精准定位相关视频片段来捕捉事件。◆视觉定位：可以通过生成 bounding boxes 或者 points 来准确定位图像中的物体，并能够为坐标和属性提供稳定的 JSON 输出。◆结构化输出：对于发票、表单、表格等数据，支持内容的结构化输出。

—— 阿里通义千问

2025年1月28日
阿里云通义千问视觉理解模型降价超80%

阿里云通义千问视觉理解模型降价超80%

12 月 31 日，阿里云宣布本年度第三轮大模型降价，通义千问视觉理解模型全线降价超 80%。据悉，其中 Qwen-VL-Plus 直降 81%，输入价格仅为 0.0015 元/千 tokens，创下全网最低价格；更高性能的 Qwen-VL-Max 降至 0.003 元/千 tokens，降幅高达 85%。目前，按照最新价格，1 块钱可最多处理约 600 张 720P 图片，或 1700 张 480P 图片。据介绍，Qwen-VL 是阿里云研发的大规模视觉语言模型。Qwen-VL 可以以图像、文本、检测框作为输入，并以文本和检测框作为输出。

—— 每日经济新闻、第一财经

2025年1月3日

标签： 视觉理解

阿里通义千问：推出了新视觉理解模型Qwen2.5-VL

阿里云通义千问视觉理解模型降价超80%

标签：视觉理解