标签：大模型

大模型创新不再依赖最先进硬件

官媒：大模型创新不一定要依赖最先进硬件

OpenAI以规模作为大模型的制胜法宝：为追求更高的性能，模型体积不断膨胀，参数数量呈现指数级增长。这种开发模式，带来了惊人的能源消耗和训练成本，难以为继。而中国公司运用剪枝、量化、知识蒸馏等一系列创新技术，开启了大模型瘦身新风尚，走出一条“小而强”的新路径。以DeepSeek公司为例，R1在多个基准测试中与OpenAI的o1持平，但成本仅为o1的三十分之一。DeepSeek的成功证明，大模型创新不一定要依赖最先进的硬件，而是可以通过聪明的工程设计和高效的训练方法实现。这种技术突破不仅降低了AI大模型的硬件门槛和能源消耗，更重要的是为AI技术普惠化铺平了道路。

—— 中国官媒《经济日报》

2025年1月26日
字节跳动大模型训练任务被实习生破坏

字节跳动大模型训练任务被实习生攻击

知情人士处获悉，今年6月，某高校的博士在字节跳动商业化技术团队实习，因对团队资源分配不满，使用攻击代码破坏团队的模型训练任务。传闻显示，该田姓实习生利用了HF (huggingface) 的漏洞，在公司的共享模型里写入破坏代码，导致模型的训练效果忽高忽低，无法产生预期的训练效果。字节跳动内部已经调查明确此事为田姓实习生所为。目前该实习生已被辞退，字节跳动同时把此事同步给阳光诚信联盟和企业反舞弊联盟以及学校。但这名实习生被辞退后到处“辟谣”甩锅。被攻击的是商业化技术团队的模型训练任务，影响了该团队的一些业务进展。

—— 界面新闻

2024年12月5日
三星Galaxy Z系列新品接入豆包大模型

三星中国Galaxy Z系列新品接入豆包大模型

7月17日，三星电子面向中国市场发布新一代Galaxy Z系列产品。会上，三星电子与火山引擎官宣合作，为Galaxy Z Fold6、Galaxy Z Flip6手机的智能助手和AI视觉接入豆包大模型。此前，三星在海外新品发布会上公布了与谷歌Gemini的深度合作。

—— 界面新闻

2024年12月5日
Gemma 2 大模型升级

Google 推出开源大模型更新 Gemma 2

Google 今天发布了其下一代开源大模型 Gemma 2，有 9B 和 27B 两种参数大小。与第一代相比，其性能更高、推理效率更高，并且内置了显著的安全改进。 Google称， 27B 的模型性能可以与比其大两倍的模型相媲美。这些大模型可在单个 NVIDIA H100 GPU 或 TPU 主机实现全精度推理，从而显著降低部署成本。 Gemma 2 也可以在 CPU 上使用量化版本进行本地推理，或者在配备 NVIDIA RTX 或 GeForce RTX 的个人电脑上使用。

—— Google 博客

2024年12月5日
阿里通义千问 Qwen2 大模型发布

阿里通义千问 Qwen2 大模型发布并同步开源

阿里通义千问 Qwen2 大模型今日发布，并在 Hugging Face 和 ModelScope 上同步开源。据悉，Qwen2 系列涵盖5个尺寸的预训练和指令微调模型，其中包括 Qwen2-0.5B、Qwen2-1.5B、Qwen2-7B、Qwen2-57B-A14B 和 Qwen2-72B，上下文长度支持进一步扩展，最高达128K tokens。

—— Qwen2

2024年12月5日
斯坦福团队因抄袭清华系大模型

斯坦福团队被曝抄袭清华系大模型，已删库跑路

斯坦福的这项研究叫做 Llama3-V，是于5月29日发布的，宣称只需要500美元就能训出一个SOTA多模态大模型，比GPT-4V、Gemini Ultra、Claude Opus都强。

但是没发布两天，Llama3-V 就遭遇了重重质疑。有人指出，Llama3-V 项目中有一大部分似乎窃取了清华大学自然语言处理实验室与面壁智能合作开发的多模态模型 MiniCPM-Llama3-V 2.5。

—— 凤凰网、量子位

2024年12月5日
端侧大模型功耗问题

荣耀CEO赵明：功耗是端侧大模型亟待解决的问题

对于未来端侧大模型的趋势，荣耀CEO赵明今天 (27日) 接受媒体采访时认为，大模型在手机上的落地会是恰到好处，不用刻意追求更大的模型，像ChatGPT这种能力未来在手机侧很难复刻，也不是核心应用场景。端侧AI是个人工具，要让个人在AI世界变得更强大，更好地管理和使用网络大模型。“目前，端侧70亿参数大模型还不能长期持久地使用。跑两小时，手机可能就没电了。低功耗的70亿参数大模型才是有价值的。未来随着端侧大模型逐步把能力构建起来，20亿模型就能实现70亿的效果。未来，大模型也会有不同的参数，比如10亿、20亿、30亿，而不是任何时候都用大参数的模型。”

—— 科创板日报

2024年12月5日
中国网络空间研究院推出基于“习近平思想”的大模型

中国网络空间研究院推出基于“习近平思想”的大模型

隶属于中国最高互联网监管机构网信办的中国网络空间研究院表示，推出了基于中国国家主席习近平政治哲学的大型语言模型，这是一个未开放的人工智能系统，据称“安全可靠”。据周一在微信公众号“中国网信杂志”上发布的一篇文章称，该哲学以及其他与官方政府叙述一致的选定网络空间主题构成了该大模型的核心内容。

据一位参与该项目的人士透露，目前，新模型正在该研究院内部使用，但最终可能会被广泛使用。帖子称，新模型可以回答问题、创建报告、总结信息并进行中英文翻译。

根据部分训练语料内容显示，该训练集大量参考了政府法规和政策文件、国家媒体报道和其他官方出版物。数据包中的数十份文本文件中，有一份文件提到了习近平 86,314 次。

—— 金融时报

2024年12月5日
微软出台人工智能新大模型MAI-1

微软将推出自研新大模型 MAI-1 与谷歌和 OpenAI 竞争

微软正在公司内部训练一个新的人工智能模型，其规模足以与谷歌、Anthropic，乃至 OpenAI 的先进模型相抗衡。新模型内部代号为 MAI-1 ，由前谷歌 AI 负责人 Mustafa Suleyman 领导开发。 Suleyman 曾担任初创公司 Inflection 的 CEO，今年 3 月微软以 6.5 亿美元收购该公司后加入微软。

MAI-1 可能会基于 Inflection 的训练数据与技术，但据两名知情的微软员工透露，新模型与 Inflection 公司原有的模型 Pi 是两个不同项目。相关人士称，MAI-1 的规模“远大于”微软此前训练过的任何开源模型，将有约 5,000 亿参数，意味着它将需要更强算力及训练数据，同时也会具备更高的成本。

—— The Information

2024年12月5日
谷歌医学大模型Med-Gemini超越人类医生

谷歌医学大模型 Med-Gemini 在基准测试中超越人类医生

谷歌研究院和 DeepMind 周一发表了一篇论文详细介绍了医学专用大模型 Med-Gemini 的惊人能力。该模型打破了多项基准测试的记录，并在多个任务中超越人类医学专家。

Med-Gemini 以 Gemini 大模型为基础进行了针对医学知识的微调。谷歌还为该模型提供了网络搜索能力，模型除了在不确定答案时可以引用搜索结果作为参考外，还可以使用网络搜索进行自我学习，对模型进行持续微调，以学习最新的医学知识。而结合 Gemini 超长上下文的能力和推理链的设计，该模型可以处理数十万词构成的复杂病例医学记录。其多模态能力则可以使其处理病理学图片和影像学图像在内的多种医疗数据。

谷歌认为该研究结果为 Med-Gemini 的潜力提供了令人信服的证据，但在医疗这个安全关键领域进行实际部署之前，进一步严格的评估至关重要。

—— New Altas，arxiv

2024年12月5日

标签： 大模型

标签：大模型