标签：大语言模型

微软推出BitNet b1.58 LLM家族：首个20亿参数开源原生1-bit大语言模型

微软推出BitNet b1.58 LLM家族，这是首个超过20亿参数的开源原生1-bit大语言模型。该模型专为高效运行而设计，在内存占用和能耗方面表现优异，尤其适合在CPU或小型硬件设备上执行。

BitNet b1.58系列基于4TB规模的数据集进行训练，具备4096 token的上下文长度。其3B和3.9B版本分别仅需2.22GB和2.38GB内存，相较于LLaMA-3B的7.89GB内存占用显著减少。此外，在延迟性方面，BitNet b1.58-3B/3.9B版本分别仅需1.87ms和2.11ms，优于LLaMA-3B的5.07ms表现。在PPL（困惑度）和零样本训练准确性等关键指标上，BitNet也展现出超越LLaMA-3B的优势。

这一突破标志着大语言模型在终端设备上的应用迈出了重要一步。微软亚洲研究院的相关技术探索，如T-MAC、Ladder和LUT架构，为实现更高效的大规模模型提供了方向。随着技术的进一步发展，未来有望在终端侧支持更大参数规模的AI模型运行，从而推动人工智能技术的实际落地与广泛应用。

2025年4月17日
DeepSeek发布最新大语言模型DeepSeek-V3-0324

中国的人工智能公司DeepSeek近日宣布推出其最新版本的大语言模型——DeepSeek-V3-0324，并在Hugging Face平台上正式开源。此次更新主要集中在提升模型的推理能力、搜索能力和中文写作水平，较上一版本实现了显著优化。

作为一家总部位于杭州的AI企业，DeepSeek此前已凭借低成本、高性能的产品在市场上崭露头角。其最新推出的V3-0324版本不仅在MMLU-Pro等基准测试中取得了75.9%到81.2%（提升幅度达5.3个百分点）的进步，还在各项评测中展现了超越美国公司Anthropic的Claude Sonnet 3.5模型的实力，被研究者认为可能成为当前最强大的非推理模型。

DeepSeek-V3-0324模型采用MIT许可证协议开源发布，允许开发者自由使用和修改。这一举措不仅体现了企业对技术创新和开放共享的支持，也为全球AI技术的发展提供了新的可能性。

2025年3月25日
阿里开源推出全新多模态大语言模型Qwen2.5-VL-32B-Instruct

阿里开源推出全新多模态大语言模型——Qwen2.5-VL-32B-Instruct

在与深度求索DeepSeek-V3更新同步推出的同一夜，阿里通义千问团队宣布开源其最新研发的多模态大型语言模型：Qwen2.5-VL-32B-Instruct。这一新版本在原有Qwen2.5-VL系列基础上进行了重要优化，展现出显著的技术突破。

据官方介绍，相较于此前发布的同系列模型，此次推出的320亿参数规模的Qwen2.5-VL-32B-Instruct模型在多个维度实现了性能提升：

首先，在输出风格方面，该模型通过调整回复策略，使回答更加详细、格式更为规范，并更贴近人类的主观偏好。其次，在数学推理能力上，经过优化后的模型在解决复杂数学问题时准确率显著提高。此外，图像细粒度理解与推理能力也得到增强，展现出更强的图像解析、内容识别和视觉逻辑推导能力。

值得注意的是，尽管该模型仅有320亿参数规模，但在各项测试中却展现出超越更大规模的Qwen2-VL-72B-Instruct模型的表现。这表明，通过针对性优化而非一味追求参数规模，同样能够实现显著的技术突破。

目前，QwenLM团队已将这一全新模型及其不同尺寸版本（包括0.5B、1.5B、3B、7B、14B、32B和72B）开源发布，为研究者和开发者提供了丰富的选择空间。

2025年3月25日
苹果公司人工智能研究人员挑战大语言模型LLM的能力

苹果研究人员表示AI模型不具有推理能力

苹果公司的六位人工智能研究人员刚刚发表了一篇关于大语言模型LLM的极好文章，他们勇于挑战主流模式。其中有一段很关键：“我们在语言模型中没有发现形式推理的证据 …. 它们的行为可以用复杂的模式匹配来更好地解释。事实上，这种模式匹配非常脆弱，改变名称可以使结果改变大约10%！”（一句话）改变一个词以不相关的方式重复两遍或添加一些不相关的信息可能会给你不同的答案。

LLM 缺乏足够抽象和正规推理的另一个表现是，问题越大，性能往往越差。在解决小问题时性能还可以，但很快就会下降。我们可以在整数运算中看到同样的情况。无论是旧模型还是新模型，在越来越大的乘法运算问题上，我们都能多次观察到运算速度下降的现象。埃隆·马斯克的自动驾驶出租车可能也会遭遇类似的问题：它们在最常见的情况下可能能够安全运行，但在某些情况下也可能难以进行足够的抽象推理。

—— Marcus on AI

2024年12月5日
四款未公开名字的大语言模型极易受到基本越狱攻击

英国AI安全研究所轻松越狱主要大语言模型

英国政府下属人工智能安全研究所(AISI)在一份新报告中指出，接受测试的四款未公开名字的大语言模型“极易受到基本越狱攻击”。一些未越狱的模型甚至在研究人员未尝试生成“有害输出”的情况下生成了这些输出。大多数公开可用的大语言模型都内置了某些保障措施，以防止它们产生有害或非法的反应；越狱简单地说就是欺骗模型，使其忽略这些保障措施。人工智能安全研究所使用最近标准化评估框架的提示词以及其内部开发的提示词进行测试。即使没有尝试越狱，这些模型也至少回答了一些有害的问题。而尝试“相对简单的攻击”，所有模型都对98%至100%的有害问题作出了回应。

—— Engadget

2024年12月5日
小米大语言模型正式通过大模型备案

小米大语言模型 MiLM 正式通过大模型备案

5月16日，据小米公司微博消息，小米大语言模型 MiLM 正式通过大模型备案。小米公司表示，小米大模型将逐步应用于小米汽车、手机、智能家居等产品中。后续也将面向更多用户开放体验。据悉，小米大语言模型以轻量化和本地部署为突破口，通过端云结合，实现设备和场景之间的互联，为“人车家全生态”战略赋能。

—— 第一财经

2024年12月5日
国产team成功开发大语言模型

日本团队利用超算“富岳”开发大语言模型

东京工业大学、理化学研究所、富士通等的团队10日发布消息称，运用超级计算机“富岳”独立开发了日语能力出色的生成式人工智能基础技术“大语言模型”。不仅企业与大学可下载使用，公众也可通过富士通官网试用。此次利用包括富岳在内的国产技术，还独立汇总了用于学习的日语数据。该团队认为，能够消除海外模型被指“使用哪些数据如何开发存在不透明”的担忧。该团队从互联网文本数据库中甄选高质量的日语文本。使用“富岳”推进人工智能学习，用不到1年时间完成开发。据称，特点是能够自然地处理敬语和以日本文化为背景的对话。富岳不使用GPU，团队此次优化了软件，把CPU的计算速度提高至6倍，展示了使用国产超算也能开发生成式人工智能。

—— 共同社

2024年12月5日
google团队发现可以通过API攻击大语言模型

Google 团队成功攻击并窃取了大语言模型的隐藏参数

Google 一个团队发布了一篇论文，表明可以通过查询 OpenAI 的 ChatGPT 或 Google 的 PaLM-2 的公共 API 来窃取它们的一部分信息。该攻击能以几百美元的成本恢复模型的一层（最后一层）。该攻击还可以对这些模型的隐藏维度进行逆向工程，例如， GPT-3 Ada 的隐藏层大小为 1024 。Google 已经将该研究结果和修复方法分享给 OpenAI，OpenAI 在确认数据有效并应用模型修复之后，已经要求 Google 团队不要公开并删除有关数据。

—— GitHub，arXiv

2024年12月5日
xAIs 大语言对话模型Grok将开源

xAI 将在本周开源大语言对话模型 Grok

马斯克在社交平台 X 发帖表示，其旗下的人工智能公司 xAI 将在本周开源其大语言对话模型 Grok 。该模型在去年通过 X 平台推出，抢先体验计划目前仅限 X Premium+ 订阅者。

—— 马斯克

2024年12月5日
Mistral Large 大语言模型发布

Mistral Large 大语言模型发布

Mistral Large 是 Mistral 新的尖端文本生成模型。它达到了顶级的推理能力，可用于复杂的多语言推理任务，包括文本理解、转换和代码生成。Mistral Large 在常用基准测试中取得了优异的成绩，使其成为世界上排名第二的可通过 API 普遍使用的模型（仅次于 GPT-4）。该模型也可以通过 Azure 直接调用。

Mistral Large 具有以下特点
– 支持英语、法语、西班牙语、德语和意大利语。
– 32K 标记上下文窗口。
– 精确的指令遵循使开发人员能够设计他们的审核策略。
– 原生支持函数调用。

Mistral 还发布了一个新的优化模型 Mistral Small，针对延迟和成本进行了优化，其性能优于 Mixtral 8x7B，并且延迟较低，这使其成为开源型号和旗舰型号之间的中间解决方案。

—— mistral.ai

2024年12月5日

标签： 大语言模型

标签：大语言模型