微闻

标签: 模型

  • 阿里Qwen团队发布全新视觉推理模型QVQ-Max

    阿里Qwen团队发布全新视觉推理模型QVQ-Max

    阿里Qwen团队近日在社交平台X上正式发布全新视觉推理模型QVQ-Max,标志着其在多模态人工智能领域取得重要进展。作为QVQ系列的最新版本,该模型专为提升传统人工智能在视觉信息处理方面的局限性而设计,着重优化了从视觉感知到认知推理的核心能力。

    据官方介绍,QVQ-Max具备三大核心优势:首先,在细致观察方面,它能够精准识别图像中的细节和文字标识;其次,在深度推理层面,模型能够结合背景知识进行分析和综合判断;最后,在灵活应用方面,该模型支持创意生成和内容创作等多样化任务。特别是在MathVision benchmark测试中,QVQ-Max展现出”思考长度”与准确率正相关的显著特性,充分验证了其在复杂多模态任务中的潜力。

    值得注意的是,这一发布紧随阿里Qwen团队此前推出的qwen-max-0125模型,该模型曾被视为通义千问系列中效果最为出色的版本。此外,QVQ系列的开发初衷在于探索提升视觉推理能力的创新路径,尤其是在数学推理等专业领域表现突出。

    此次发布的还包括Qwen-VL-Plus和Qwen-VL-Max两款视觉语言模型,进一步巩固了阿里在国产视觉语言模型领域的领先地位。这些新模型基于通义千问语言系列打造,在视觉理解能力上实现了显著突破。特别是QVQ模型的引入,为图像解答问题提供了强大的推理支持。

    这些创新成果不仅展现了中国科技企业在人工智能领域的技术实力,也为多模态AI技术的发展和应用开辟了新的方向。

  • 腾讯混元推出五款3D生成模型全开源性能优化

    腾讯混元推出五款3D生成模型 全部开源

    腾讯混元宣布推出5个全新3D生成模型,模型生成速度更快、细节更丰富、材质表达更逼真,并且全部开源。同时,其自研的3D AI创作引擎也迎来升级,新增多视图输入、模型智能减面、格式全兼容等能力,面向C端用户全面开放使用。据悉,5个开源模型均基于Hunyuan3D-2.0打造,其中 Turbo 系列模型在保证高精度和高质量的基础上,对几何生成模型进行了数十倍的加速,确保整个生成过程能够在30秒内完成。轻量级mini系列模型,通过模型架构优化与运行效率提升,可进一步降低算力成本,其几何模型可以部署在4080显卡甚至苹果M1 Pro芯片上

    —— 新浪科技、Github

  • 阿里开源全模态模型R1-Omni 情感识别性能提升

    阿里开源全模态模型R1-Omni 情感识别更优

    阿里通义实验室开源 R1-Omni 模型,首个将具有可验证奖励的强化学习(RLVR)应用于全能多模态大语言模型。研究员利用RLVR对开源Omni模型HumanOmni-0.5B进行优化,在推理能力、情感识别准确性和泛化能力三个关键方面显著提高了其性能。R1-Omni能够更清楚地理解视觉和听觉信息如何促进情绪识别,能够明确展示哪些模态信息对特定情绪的判断起到了关键作用。在两场演示视频中,R1-Omni能推测视频中人物的情绪状态,并描述其服饰和周围环境。OpenAI于今年早些时候推出GPT-4.5模型,据称能更好地识别和响应用户书面提问中的微妙线索。但最初仅向月费200美元的付费用户开放。

    —— 科创板日报、彭博社

  • 谷歌推出基于Gemini的全新文本嵌入模型

    谷歌推出基于 Gemini 的全新文本嵌入模型

    当地时间周五,谷歌公司在其Gemini开发者API中添加了一款新的实验性文本“嵌入”模型Gemini Embedding。​嵌入模型将单词和短语等文本输入转换为数值表示,称为嵌入,以捕捉文本的语义含义。嵌入技术被广泛应用于文档检索和分类等领域,部分原因是可以降低成本同时改善延迟。谷歌在博客文章中表示:这个嵌入模型是在 Gemini 模型本身的基础上训练的,继承了 Gemini 对语言和细微语境的理解,使其适用于广泛的用途。我们已经将我们的模型训练得非常通用,并在金融、科学、法律、搜索等不同领域提供了卓越的性能。”谷歌称 Gemini Embedding 处于容量有限的“实验阶段”,可能会发生变化。

    —— Techcrunch

  • 微软开发人工智能模型以与OpenAI竞争

    微软正开发AI推理模型 以与OpenAI竞争

    据知情人士透露,微软开发了自研人工智能模型,并认为这些模型可以与OpenAI等行业领导者的产品比肩。微软正在开发的一系列模型最近测试结果表明,它们能够与最先进的竞争对手较量,包括OpenAI和Anthropic的产品。微软测试了名为“MAI”的模型在各种任务中的表现,包括运用于该公司的Copilot人工智能助手。知情人士说,微软还在开发所谓的推理模型,旨在处理更复杂的查询并显示类似人类的问题解决能力。微软发言人表示:“正如我们之前所说,我们正在使用多种模型,包括继续与OpenAI的深度合作,以及微软人工智能的模型和开源模型。”

    —— 彭博社

  • Meta加速推进自然对话人工智能模型

    Meta 加速推进自然对话人工智能模型

    知情人士表示,Meta 计划在其最新的开源大型语言模型 Llama 4 中引入改进的语音功能,预计将在未来几周内推出,因为它押注未来所谓的人工智能助手将是对话式的,而不是文本导向的。该公司一直特别专注于让用户与其语音模型之间的对话更接近双向自然对话,允许用户打断,而不是更死板的问答格式。该公司CEO扎克伯格提出了大胆的计划,要将公司打造成AI领导者。这促使该公司开始考虑为其人工智能助手 Meta AI 试行付费订阅服务,用于预订和视频制作等代理型任务。该公司还在考虑在其人工智能助手的搜索结果中引入付费广告或赞助帖子。

    —— 英国金融时报

  • 阿里推出高性能模型

    阿里开源全新推理模型通义千问 QwQ-32B

    阿里巴巴发布并开源全新的推理模型通义千问QwQ-32B。这是一款拥有320亿参数的模型,其性能可与具备6710亿参数(其中370亿被激活)的DeepSeek-R1媲美。在测试数学能力的AIME24评测集上,以及评估代码能力的LiveCodeBench中,千问QwQ-32B表现与DeepSeek-R1相当,远胜于o1-mini及相同尺寸的R1蒸馏模型;在由Meta首席科学家杨立昆领衔的LLMs评测榜LiveBench、谷歌等提出的指令遵循能力 IFEval 评测集、由加州大学伯克利分校等提出的评估准确调用函数或工具方面的BFCL测试中,千问 QwQ-32B 的得分均超越了DeepSeek- R1。

    —— Hugging Face、ModelScope

  • 亚马逊新推理 AI 模型

    亚马逊正在开发一款新的“推理” AI 模型

    亚马逊正在开发一款具备先进“推理”能力的人工智能模型。据一位直接参与该项目的知情人士透露,这款新产品计划最早在六月以“Nova”品牌发布,这是亚马逊去年底推出的一系列生成式人工智能模型。这位知情人士补充说,亚马逊希望新模型采用一种“混合推理”方式,既能快速给出答案,又能在同一系统中进行更为复杂的思考。亚马逊首要目标之一是让其Nova推理模型在价格上优于竞争对手。亚马逊此前表示,其现有的Nova模型比通过 Bedrock 平台提供的第三方模型便宜至少 75%。亚马逊另一个目标是让即将推出的推理模型在外部基准测试中排名前五。

    —— 商业内幕

  • 谷歌开源人工智能模型SpeciesNet

    谷歌开源物种识别 AI 模型 SpeciesNet

    谷歌开源了一款名为SpeciesNet的人工智能模型,旨在通过分析红外相机陷阱拍摄的照片来识别动物物种。​各地的研究人员使用红外相机陷阱来研究野生动物种群。尽管这些红外相机陷阱可以提供宝贵的见解,但它们会产生大量数据,需要数天甚至数周的时间才能筛选完毕。为解决这一问题,谷歌约六年前推出了野生动物洞察平台。平台许多分析工具均由SpeciesNet模型提供支持。谷歌表示,该模型是基于超过6500万张公开图像以及来自史密森保护生物学研究所、野生动物保护协会等机构图像数据进行训练的。能够将图像分类为超过2000种标签,涵盖动物物种、动物分类群以及非动物物体。

    —— Techcrunch

  • 百度推出新的人工智能模型文心 4.5

    消息称百度将在3月中旬推出文心4.5模型

    据知情人士透露,中国百度将于三月中旬发布下一代人工智能模型文心 4.5,新版本将在推理等多个方面实现能力提升。知情人士表示,升级后的文心 4.5 将具备更强的多模态能力。多模态人工智能系统能够处理和整合文本、视频、图像、音频等不同类型的数据,并能在不同格式之间进行转换。百度本月早些时候表示,文心 4.5 系列将在未来几个月内逐步推出,并计划于6月30日正式开源。百度是中国最早推出ChatGPT式聊天机器人的科技巨头之一,尽管在激烈的竞争中声称其性能可与OpenAI的GPT-4相媲美,但其文心大语言模型仍难以获得广泛采用。

    —— 路透社