微闻

标签: 开源

  • 腾讯混元推出五款3D生成模型全开源性能优化

    腾讯混元推出五款3D生成模型 全部开源

    腾讯混元宣布推出5个全新3D生成模型,模型生成速度更快、细节更丰富、材质表达更逼真,并且全部开源。同时,其自研的3D AI创作引擎也迎来升级,新增多视图输入、模型智能减面、格式全兼容等能力,面向C端用户全面开放使用。据悉,5个开源模型均基于Hunyuan3D-2.0打造,其中 Turbo 系列模型在保证高精度和高质量的基础上,对几何生成模型进行了数十倍的加速,确保整个生成过程能够在30秒内完成。轻量级mini系列模型,通过模型架构优化与运行效率提升,可进一步降低算力成本,其几何模型可以部署在4080显卡甚至苹果M1 Pro芯片上

    —— 新浪科技、Github

  • 阿里开源全模态模型R1-Omni 情感识别性能提升

    阿里开源全模态模型R1-Omni 情感识别更优

    阿里通义实验室开源 R1-Omni 模型,首个将具有可验证奖励的强化学习(RLVR)应用于全能多模态大语言模型。研究员利用RLVR对开源Omni模型HumanOmni-0.5B进行优化,在推理能力、情感识别准确性和泛化能力三个关键方面显著提高了其性能。R1-Omni能够更清楚地理解视觉和听觉信息如何促进情绪识别,能够明确展示哪些模态信息对特定情绪的判断起到了关键作用。在两场演示视频中,R1-Omni能推测视频中人物的情绪状态,并描述其服饰和周围环境。OpenAI于今年早些时候推出GPT-4.5模型,据称能更好地识别和响应用户书面提问中的微妙线索。但最初仅向月费200美元的付费用户开放。

    —— 科创板日报、彭博社

  • 谷歌开源人工智能模型SpeciesNet

    谷歌开源物种识别 AI 模型 SpeciesNet

    谷歌开源了一款名为SpeciesNet的人工智能模型,旨在通过分析红外相机陷阱拍摄的照片来识别动物物种。​各地的研究人员使用红外相机陷阱来研究野生动物种群。尽管这些红外相机陷阱可以提供宝贵的见解,但它们会产生大量数据,需要数天甚至数周的时间才能筛选完毕。为解决这一问题,谷歌约六年前推出了野生动物洞察平台。平台许多分析工具均由SpeciesNet模型提供支持。谷歌表示,该模型是基于超过6500万张公开图像以及来自史密森保护生物学研究所、野生动物保护协会等机构图像数据进行训练的。能够将图像分类为超过2000种标签,涵盖动物物种、动物分类群以及非动物物体。

    —— Techcrunch

  • 阿里巴巴开源视频模型万相2.1

    阿里巴巴将开源旗下文生视频模型万相2.1

    从知情人士处获悉,阿里巴巴将于今日晚间全面开源旗下视频生成模型万相2.1模型。今年1月,阿里旗下万相刚宣布推出2.1 版本模型升级,视频生成、图像生成两大能力均获得提升。在视频生成方面,万相 2.1 通过自研的高效VAE和DiT架构增强了时空上下文建模能力,支持无限长1080P视频的高效编解码,首次实现了中文文字视频生成功能,登上VBench榜单第一。据此前介绍,万相2.1支持中英文视频,可以一键生成艺术字,还提供多种视频特效选项,以增强视觉表现力,例如过渡、粒子效果、模拟等。

    —— 新浪科技

  • DeepSeek开源EP通信库

    DeepSeek开源周第二日:开源EP通信库

    DeepSeek官宣,今日开源DeepEP,第一个用于MoE模型训练和推理的开源EP通信库。特点有:高效、优化的全员沟通;节点内和节点间均支持NVLink和RDMA;用于训练和推理预填充的高吞吐量内核;用于推理解码的低延迟内核;原生FP8调度支持;灵活的GPU资源控制,实现计算-通信重叠。DeepEP是一款专为混合专家(MoE)和专家并行(EP)设计的通信库,提供了高吞吐量和低延迟的all-to-all GPU内核,常用于MoE派发和合并操作。该库还支持低精度计算,包括FP8。

    —— DeepSeek

  • DeepSeek 开源周首发:高效 MLA 解码内核

    DeepSeek 发布“开源周”首个项目为针对 Hopper GPU 优化的高效 MLA 解码内核

    DeepSeek 今天开始了连续五天的“开源周”,并发布了首个开源代码库 FlashMLA。该代码库是针对英伟达 Hopper GPU 优化的高效多层注意力 (MLA) 解码内核。FlashMLA 的灵感源自 FlashAttention 2&3 和 cutlass 项目,专门优化了变长序列的并行处理,支持分页式KV缓存的快速访问,通过高度优化的 CUDA 内核实现注意力计算加速。

    FlashMLA 要求使用英伟达 Hopper GPU,并在 CUDA 12.3 及以上版本以及 PyTorch 2.0 及以上版本的环境中运行。在 CUDA 12.6 环境下,H800 SXM5 内存受限配置下可实现 3000 GB/s 的带宽,计算受限配置下则可达 580 TFLOPS 的算力,展现出卓越的计算效率。

    —— DeepSeek

  • DeepSeek 宣布开源代码库

    DeepSeek 宣布下周起陆续开源五个代码库

    DeepSeek 在 X 发文宣布,下周起会陆续开源五个代码库,每日都有新内容解锁,进一步分享新的进展。DeepSeek 介绍,当前在线服务的模块已经经过测试、部署完备,可以投入生产环境。DeepSeek 公司将自己定义为小公司,并表示每一次分享都会变成强有力的势能,加速行业发展的旅程。DeepSeek 还称这个领域没有高高在上的象牙塔,只有纯粹的车库创业精神与社区共筑的创新力量。

    从上线以来至2月9日,DeepSeek App 的累计下载量超1.1亿次,周活跃用户规模最高近9700万。其中,1月20日至1月26日,APP周下载量达到226万次。次周,下载量则直接飙升至6300万次,环比增长超2700%。

    —— DeepSeek、每日经济新闻

  • 李彦宏:百度即将开源强大的文心大模型4.5系列

    李彦宏:最强大的文心大模型4.5系列将开源

    2月18日晚,在百度2024年Q4及全年财报电话会上,百度创始人、董事长兼首席执行官李彦宏透露,文心大模型4.5将开源,4.5将是百度有史以来最强大的大模型,“希望客户和用户能比之前更方便地体验这款模型”。他表示,开源4.5系列的决策源自于对技术领先地位的坚定信心,开源将进一步促进文心大模型的广泛应用,并在更多场景中扩大其影响力,“但我想强调的是,无论开源闭源,基础模型只有在大规模解决现实问题时,才具备真实价值”。未来,百度将加速推动文心大模型的性能升级与成本降低。

    —— 凤凰网科技

  • 百度将文心下一代模型正式开源

    百度:文心下一代模型6月30日起正式开源

    百度公众号今日宣布:将在未来几个月中陆续推出文心大模型4.5系列,并于6月30日起正式开源。百度昨日还宣布,随着文心大模型的迭代升级和成本不断下降,文心一言将于4月1日0时起全面免费,所有PC端和APP端用户均可体验文心系列最新模型,以及超长文档处理、专业检索增强、高级AI绘画、多语种对话等功能。还透露即日起上线深度搜索功能,具备更强大的思考规划和工具调用能力,可为用户提供专家级内容回复,并处理多场景任务,实现多模态输入与输出。

    —— 新华社、百度

  • 施密特呼吁西方专注于开源AI模型的开发

    施密特呼吁西方专注于开源AI模型的开发

    谷歌前 CEO 埃里克•施密特警告称,西方国家需要专注于构建开源人工智能模型,否则有可能在这场开发尖端技术的全球竞赛中输给中国。施密特表示:“如果我们不对此采取行动,中国最终将成为开源领域的领导者,而世界其他地区将变成闭源的。”他说,未能投资开源技术将阻碍西方大学的科学发现,这些大学可能负担不起昂贵的闭源模型。虽然美国通过构建GPT-4等强大的人工智能模型,主导了人工智能开发的第一阶段,但欧洲有机会通过思考如何在这一技术基础上构建“应用”,将人工智能应用于企业,从而获得经济收益。“欧洲必须加紧行动起来。应用层非常强大,它将使你们的欧洲更有效率。”

    —— 英国金融时报