微闻

标签: 视觉理解

  • 阿里通义千问:推出了新视觉理解模型Qwen2.5-VL

    阿里开源全新视觉理解模型Qwen2.5-VL

    阿里通义千问今日宣布开源全新的视觉理解模型 Qwen2.5-VL,推出了3B、7B和72B三个尺寸版本。主要特点:◆视觉理解:不仅擅长识别常见物体,还能够分析图像中的文本、图表、图标、图形和布局。◆代理:直接作为一个视觉 Agent,可以推理并动态地使用工具,初步具备了使用电脑和使用手机的能力。◆理解长视频和捕捉事件:能够理解超过1小时的视频,精准定位相关视频片段来捕捉事件。◆视觉定位:可以通过生成 bounding boxes 或者 points 来准确定位图像中的物体,并能够为坐标和属性提供稳定的 JSON 输出。◆结构化输出:对于发票、表单、表格等数据,支持内容的结构化输出。

    —— 阿里通义千问

  • 阿里云通义千问视觉理解模型降价超80%

    阿里云通义千问视觉理解模型降价超80%

    12 月 31 日,阿里云宣布本年度第三轮大模型降价,通义千问视觉理解模型全线降价超 80%。据悉,其中 Qwen-VL-Plus 直降 81%,输入价格仅为 0.0015 元/千 tokens,创下全网最低价格;更高性能的 Qwen-VL-Max 降至 0.003 元/千 tokens,降幅高达 85%。目前,按照最新价格,1 块钱可最多处理约 600 张 720P 图片,或 1700 张 480P 图片。据介绍,Qwen-VL 是阿里云研发的大规模视觉语言模型。Qwen-VL 可以以图像、文本、检测框作为输入,并以文本和检测框作为输出。

    —— 每日经济新闻、第一财经