阿里开源全新视觉理解模型Qwen2.5-VL
阿里通义千问今日宣布开源全新的视觉理解模型 Qwen2.5-VL,推出了3B、7B和72B三个尺寸版本。主要特点:◆视觉理解:不仅擅长识别常见物体,还能够分析图像中的文本、图表、图标、图形和布局。◆代理:直接作为一个视觉 Agent,可以推理并动态地使用工具,初步具备了使用电脑和使用手机的能力。◆理解长视频和捕捉事件:能够理解超过1小时的视频,精准定位相关视频片段来捕捉事件。◆视觉定位:可以通过生成 bounding boxes 或者 points 来准确定位图像中的物体,并能够为坐标和属性提供稳定的 JSON 输出。◆结构化输出:对于发票、表单、表格等数据,支持内容的结构化输出。
—— 阿里通义千问