微闻

标签: 阿里

  • 阿里Qwen团队发布全新视觉推理模型QVQ-Max

    阿里Qwen团队发布全新视觉推理模型QVQ-Max

    阿里Qwen团队近日在社交平台X上正式发布全新视觉推理模型QVQ-Max,标志着其在多模态人工智能领域取得重要进展。作为QVQ系列的最新版本,该模型专为提升传统人工智能在视觉信息处理方面的局限性而设计,着重优化了从视觉感知到认知推理的核心能力。

    据官方介绍,QVQ-Max具备三大核心优势:首先,在细致观察方面,它能够精准识别图像中的细节和文字标识;其次,在深度推理层面,模型能够结合背景知识进行分析和综合判断;最后,在灵活应用方面,该模型支持创意生成和内容创作等多样化任务。特别是在MathVision benchmark测试中,QVQ-Max展现出”思考长度”与准确率正相关的显著特性,充分验证了其在复杂多模态任务中的潜力。

    值得注意的是,这一发布紧随阿里Qwen团队此前推出的qwen-max-0125模型,该模型曾被视为通义千问系列中效果最为出色的版本。此外,QVQ系列的开发初衷在于探索提升视觉推理能力的创新路径,尤其是在数学推理等专业领域表现突出。

    此次发布的还包括Qwen-VL-Plus和Qwen-VL-Max两款视觉语言模型,进一步巩固了阿里在国产视觉语言模型领域的领先地位。这些新模型基于通义千问语言系列打造,在视觉理解能力上实现了显著突破。特别是QVQ模型的引入,为图像解答问题提供了强大的推理支持。

    这些创新成果不仅展现了中国科技企业在人工智能领域的技术实力,也为多模态AI技术的发展和应用开辟了新的方向。

  • 阿里开源全模态模型R1-Omni 情感识别性能提升

    阿里开源全模态模型R1-Omni 情感识别更优

    阿里通义实验室开源 R1-Omni 模型,首个将具有可验证奖励的强化学习(RLVR)应用于全能多模态大语言模型。研究员利用RLVR对开源Omni模型HumanOmni-0.5B进行优化,在推理能力、情感识别准确性和泛化能力三个关键方面显著提高了其性能。R1-Omni能够更清楚地理解视觉和听觉信息如何促进情绪识别,能够明确展示哪些模态信息对特定情绪的判断起到了关键作用。在两场演示视频中,R1-Omni能推测视频中人物的情绪状态,并描述其服饰和周围环境。OpenAI于今年早些时候推出GPT-4.5模型,据称能更好地识别和响应用户书面提问中的微妙线索。但最初仅向月费200美元的付费用户开放。

    —— 科创板日报、彭博社

  • 阿里推出高性能模型

    阿里开源全新推理模型通义千问 QwQ-32B

    阿里巴巴发布并开源全新的推理模型通义千问QwQ-32B。这是一款拥有320亿参数的模型,其性能可与具备6710亿参数(其中370亿被激活)的DeepSeek-R1媲美。在测试数学能力的AIME24评测集上,以及评估代码能力的LiveCodeBench中,千问QwQ-32B表现与DeepSeek-R1相当,远胜于o1-mini及相同尺寸的R1蒸馏模型;在由Meta首席科学家杨立昆领衔的LLMs评测榜LiveBench、谷歌等提出的指令遵循能力 IFEval 评测集、由加州大学伯克利分校等提出的评估准确调用函数或工具方面的BFCL测试中,千问 QwQ-32B 的得分均超越了DeepSeek- R1。

    —— Hugging Face、ModelScope

  • 阿里万相视频生成大模型开源

    阿里旗下万相视频生成大模型宣布开源

    阿里云旗下视觉生成基座模型万相2.1(Wan)宣布开源,开源采用的Apache2.0协议,14B和1.3B两个参数规格的全部推理代码和权重全部开源,同时支持文生视频和图生视频任务。据介绍,14B万相模型在指令遵循、复杂运动生成、物理建模、文字视频生成等方面表现突出,在权威评测集VBench中,万相2.1以总分86.22%的成绩超越Sora、Luma、Pika等国内外模型,稳居榜首位置。1.3B版本测试结果不仅超过了更大尺寸的开源模型,甚至还接近部分闭源模型,同时能在消费级显卡运行,仅需8.2GB显存就可以生成高质量视频,适用于二次模型开发和学术研究。

    —— Github、HuggingFace、魔搭社区

  • 里安·柯恩对阿里的新大笔押注

    游戏驿站CEO增持阿里巴巴股份至10亿美元

    据知情人士透露,最近几个月来,游戏驿站CEO里安·柯恩将其对阿里巴巴的个人持股增至10亿美元,即约700万股。对阿里巴巴的大笔押注反映了科恩对中国长期经济增长前景的看好。科恩被称为迷因股之王,他在疫情期间帮助引发了游戏驿站和其他企业的爆炸性反弹。大约两年前,柯恩据报持有价值数亿美元的阿里巴巴股票。2023年,柯恩私下敦促阿里巴巴加快股票回购,称阿里巴巴股价被严重低估。当时他还私下讨论了希望与阿里建立长期关系。据知情人士透露,柯恩最近和阿里巴巴进行过商谈。

    —— 华尔街日报

  • 蔡崇信确认阿里为苹果iPhone开发AI功能

    蔡崇信确认阿里为苹果 iPhone 开发AI功能

    2月13日,在阿联酋迪拜举办的2025世界政府峰会上,阿里巴巴联合创始人、董事局主席蔡崇信回应阿里巴巴与苹果公司合作为国行 iPhone 开发 AI 功能传闻,他表示,苹果在中国需要一个本地化的合作伙伴,为他们的手机服务。苹果一直非常挑剔,他们与中国的多家公司进行了交谈。最终,他们选择与我们做生意。我们非常幸运,也非常荣幸能够与苹果这样的伟大公司做生意。此前有媒体报道,苹果公司和阿里巴巴将合作为中国 iPhone 用户开发人工智能功能。苹果公司和阿里巴巴已将共同开发的中国人工智能功能提交给中国的网络监管机构审批。

    —— 第一财经

  • 阿里Qwen 2.5-Max超大规模MoE模型发布

    阿里Qwen 2.5-Max超大规模MoE模型发布

    1月29日凌晨,阿里云公布了其全新的通义千问 Qwen 2.5-Max 超大规模 MoE 模型,该模型预训练数据超过20万亿 tokens。目前开发者可在 Qwen Chat 平台免费体验模型,企业和机构也可通过阿里云百炼平台直接调用新模型 API 服务。在 Arena-Hard、LiveBench、LiveCodeBench 和 GPQA-Diamond 等基准测试中,Qwen2.5-Max 表现超越了 DeepSeek V3,同时在 MMLU-Pro 等其他评估中也展现出了极具竞争力的成绩。阿里云的基座模型在大多数基准测试中都展现出了显著的优势。阿里云称随着后训练技术的进步,下一个版本 Qwen2.5-Max 将会达到更高水平。

    —— 通义千问

  • 阿里通义千问:推出了新视觉理解模型Qwen2.5-VL

    阿里开源全新视觉理解模型Qwen2.5-VL

    阿里通义千问今日宣布开源全新的视觉理解模型 Qwen2.5-VL,推出了3B、7B和72B三个尺寸版本。主要特点:◆视觉理解:不仅擅长识别常见物体,还能够分析图像中的文本、图表、图标、图形和布局。◆代理:直接作为一个视觉 Agent,可以推理并动态地使用工具,初步具备了使用电脑和使用手机的能力。◆理解长视频和捕捉事件:能够理解超过1小时的视频,精准定位相关视频片段来捕捉事件。◆视觉定位:可以通过生成 bounding boxes 或者 points 来准确定位图像中的物体,并能够为坐标和属性提供稳定的 JSON 输出。◆结构化输出:对于发票、表单、表格等数据,支持内容的结构化输出。

    —— 阿里通义千问

  • 阿里推出电商TAO面向日本市场

    阿里在日本推出电商“TAO”:中国发货

    中国阿里巴巴集团12日针对面向日本市场推出的电商APP“TAO”举办了说明会。“TAO”的卖点是通过与大型物流公司合作建立起来的配送体制、日语客服支持体系以及高质量的商品包装等。该APP已于10月上线,销售服装、杂货、数字相关商品等超过300万种商品。还具备由人工智能根据消费者的偏好推荐商品的功能。商品在消费者下单后主要从中国发货,几天后送达日本。还设有专属的买手团队。日本消费者“很重视服务和商品质量。如果不放心,绝对不会购买商品”。作为针对日本消费者的举措,阿里还宣传购买商品后40天内可免费退货的服务等。

    —— 日经新闻

  • 阿里成立电商事业群

    阿里整合国内与海外电商 成立电商事业群

    11月21日,阿里巴巴集团CEO吴泳铭发布全员邮件,宣布成立阿里电商事业群,任命蒋凡负责,向吴泳铭汇报。新的电商事业群将全面整合淘宝天猫集团、国际数字商业集团以及1688、闲鱼等电商业务,形成覆盖国内外全产业链的业务集群。此次成立新的电商事业群,是吴泳铭作为阿里CEO,面向未来在电商领域如何用好国内和国际两种资源形成发展合力做出的新思考和新行动。

    —— 阿里巴巴