标签：大型语言模型

深度求索推出高性能的大型语言模型DeepSeek-R1

DeepSeek登顶苹果美区免费下载排行榜

由中国杭州深度求索开发的Deepseek应用今日登顶苹果中国地区和美国地区应用商店免费APP下载排行榜，在美区下载榜上超越了ChatGPT。1月20日，该公司正式发布推理大模型DeepSeek-R1。一经推出，DeepSeek-R1便凭借其“物美价廉”的特性在海外开发者社区中引发了轰动。作为一款开源模型，R1在数学、代码、自然语言推理等任务上的性能能够比肩OpenAI o1模型正式版，并采用MIT许可协议，支持免费商用、任意修改和衍生开发等。目前，在国外大模型排名榜Chatbot Arena上，DeepSeek-R1的基准测试排名已经升至全类别大模型第三，与OpenAI的ChatGPT-4o最新版并列，并在StyleCtrl分类中与OpenAI的o1模型并列第一。

—— 财联社

2025年1月27日
开源AI公司OpenAIPush出第五代大型语言模型Orion

OPENAI年底将推出下一个前沿模型Orion

获悉，人工智能公司 OpenAI 计划在12月前推出其下一个前沿模型 Orion。与 OpenAI 上两个模型 GPT-4o 和 o1 的发布不同，Orion 最初不会通过 ChatGPT 广泛发布。消息人士透露，OpenAI 正计划首先向与其密切合作的公司提供访问权限，以便他们构建自己的产品和功能。消息人士称，微软内部的工程师正准备最早于11月在 Azure 上托管 Orion 模型。虽然 OpenAI 内部将 Orion 视为 GPT-4 的继任者，但目前尚不清楚该公司是否会在外部将其称为 GPT-5。与往常一样，发布计划可能会发生变化，并可能推迟。OpenAI 首席执行官在 X 回应表示：“假新闻泛滥。”

—— TheVerge

2024年12月5日
《大型语言模型不会达到人类智能水平》

Meta人工智能主管杨立昆：大型语言模型不会达到人类智能水平

Meta 的人工智能主管表示，为 ChatGPT 等生成式人工智能产品提供动力的大型语言模型永远无法实现像人类一样的推理和计划能力，他专注于一种激进的替代方法，即在机器中创造“超级智能”。该公司首席人工智能科学家杨立昆表示，LLM“对逻辑的理解非常有限……不理解物理世界，没有持久的记忆，不能按照任何合理的定义进行推理，也不能进行层次化的规划”。杨立昆说，LLMs的这种进化是肤浅和有限的，只有当人类工程师介入并根据这些信息进行训练时，模型才会学习，而不是像人类那样自然地得出结论。“在大多数人看来，这当然是推理，但主要是利用从大量训练数据中积累的知识。(LLM)尽管有局限性，但非常有用。”

——英国金融时报（全文截图）

2024年12月5日
美国考虑对外竞争对手限制获取大型语言模型

美国考虑限制中国等国外竞争对手获取大型语言模型

三位知情人士透露，美国商务部正在考虑采取新的监管措施，限制专有或闭源人工智能模型的出口，这些模型的软件和训练数据都是保密的。美国政府和私营部门的研究人员担心，美国的对手可能会利用这些模型挖掘大量文本和图像来总结信息并生成内容，发动激进的网络攻击，甚至制造强大的生物武器。消息人士表示，为了制定人工智能模型的出口管制，基于训练模型所需计算能力的门槛可能成为确定哪些人工智能模型将受到出口限制的基础。消息人士强调，该机构还远未最终确定规则提案。

—— 路透社

2024年12月5日
苹果公司开发大型语言模型

古尔曼：苹果致力于开发用于生成式人工智能功能的设备端大型语言模型

据彭博社的马克·古尔曼报道，苹果公司正在开发自己的大型语言模型 (LLM)，该模型可在设备上运行，以优先考虑速度和隐私。古尔曼在他的“Power On”时事通讯中写道，苹果公司的大语言模型为即将推出的生成式人工智能功能奠定了基础。“所有迹象”似乎表明，它将完全在设备上运行，而不是像大多数现有人工智能服务那样通过云端运行。由于苹果公司的人工智能工具将在设备上运行，因此在某些情况下，可能不如直接基于云的竞争对手，但古尔曼表示，该公司可以通过从谷歌和其他人工智能服务提供商获得技术许可来“填补空白”。

—— macrumors

2024年12月5日
WhatsApp 开始测试基于大型语言模型的聊天机器人

WhatsApp 在印度和更多市场测试 Meta AI 聊天机器人

WhatsApp 正在与印度和其他一些市场的用户测试其基于大型语言模型的聊天机器人 Meta AI，这表明其打算利用庞大的用户群来扩大其人工智能产品范围。该公司最近开始测试这款人工智能聊天机器人，目前已在美国、印度和尼日利亚等特定市场进行测试。Meta 在一份声明中证实了这一举措。“我们的生成式人工智能体验正处于不同的开发阶段，我们正在有限的范围内公开测试其中的一系列产品。”

—— Techcrunch

2024年12月5日
Meta 将在下个月内推出其新一代大型语言模型 Llama 3

Meta 确认其 Llama 3 开源大型语言模型将于下个月推出

在4月9日于伦敦举行的一次活动中，Meta 确认计划在下个月内首次发布 Llama 3，这是用于驱动生成式人工智能助手的下一代大型语言模型。Meta 全球事务总裁 Nick Clegg 说：“在接下来的一个月内，实际上更短，我们希望开始推出我们的新一代模型套件 Llama 3。”他的描述听起来像是要发布该产品的几个不同迭代或版本。“今年[发布]的不同版本，将有许多不同的模型具有不同的功能，而且很快就会开始。”Meta 首席产品官 Chris Cox 补充说，该计划将通过 Llama 3 为 Meta 的多种产品提供动力。

—— Techcrunch

2024年12月5日
谷歌发布大型语言模型 Gemini 1.0

谷歌推出最新的大型语言模型 Gemini 1.0

谷歌发布最新的大型语言模型 Gemini，谷歌 CEO 皮查伊在 6 月份的 I/O 开发者大会上首次透露了该模型，现在正式向公众推出。

谷歌针对不同场景发布了三种不同尺寸的版本。例如 Google 的人工智能聊天机器人 Bard 现在由可扩展的 Gemini Pro 提供支持。

Gemini Nano 是轻量版本，旨在 Android 设备上本地离线运行，Pixel 8 Pro 成为首款搭载此模型的设备。

Gemini Ultra，它是谷歌迄今为止创建的最强大的 LLM，适用于高度复杂的任务。似乎主要是为数据中心和企业应用设计的。

—— 谷歌博客

2024年12月5日
Meta 正开发更强大的新大型语言模型

Meta 正开发更强大的新大型语言模型，对标OpenAI 的 GPT-4

据知情人士透露，Meta 正在开发一款新的大型语言模型，并预计其功能将与 GPT-4 一样强大。根据 Meta 的目标，其新 AI 模型将比两个月前刚刚发布的名为 Llama 2 的模型强大数倍。这个新 AI 模型计划明年上线。

Meta 目前正在搭建这项工作所需的数据中心，并购置更多的 H100 芯片，这是英伟达用于此类 AI 训练的最先进制程芯片。其中一些知情人士说，虽然与微软合作在后者的云计算平台 Azure 上提供 Llama 2 服务，但 Meta 计划在自己的基础设施上训练这个新模型。

—— 华尔街日报

2024年12月5日
微软与Meta合作推出开源大型语言模型 Llama 2

帮开发者构建生成式 AI 应用，Meta 和微软合作推出开源模型 Llama 2

Meta 和微软近日合作推出 Llama 2，这是 Meta 公司的下一代开源大型语言模型，可以免费用于研究和商业用途。

微软在新闻稿中表示，Llama 2 旨在帮助开发者和组织，构建生成式人工智能工具和体验。

Azure 客户可以在 Azure 平台上更轻松、更安全地微调和部署 7B、13B 和 70B 参数的 Llama 2 模型，此外通过优化可以在 Windows 本地运行。

Llama 2 模型与 Azure AI 的结合使开发人员能够利用 Azure AI 的强大工具进行模型训练、微调、推理，特别是支持 AI 安全的功能。

微软表示在 Windows 中加入 Llama 2 模型，有助于推动 Windows 成为开发人员根据客户需求构建人工智能体验的最佳场所，并释放他们使用 Windows Subsystem for Linux (WSL)、Windows 终端、Microsoft Visual Studio 和 VS Code 等世界级工具进行构建的能力。

—— 微软、Meta 、IT之家

2024年12月5日

标签： 大型语言模型

标签：大型语言模型