标签: 大语言模型

  • 苹果公司人工智能研究人员挑战大语言模型LLM的能力

    苹果研究人员表示AI模型不具有推理能力

    苹果公司的六位人工智能研究人员刚刚发表了一篇关于大语言模型LLM的极好文章,他们勇于挑战主流模式。其中有一段很关键:“我们在语言模型中没有发现形式推理的证据 …. 它们的行为可以用复杂的模式匹配来更好地解释。事实上,这种模式匹配非常脆弱,改变名称可以使结果改变大约10%!”(一句话)改变一个词以不相关的方式重复两遍或添加一些不相关的信息可能会给你不同的答案。

    LLM 缺乏足够抽象和正规推理的另一个表现是,问题越大,性能往往越差。在解决小问题时性能还可以,但很快就会下降。我们可以在整数运算中看到同样的情况。无论是旧模型还是新模型,在越来越大的乘法运算问题上,我们都能多次观察到运算速度下降的现象。埃隆·马斯克的自动驾驶出租车可能也会遭遇类似的问题:它们在最常见的情况下可能能够安全运行,但在某些情况下也可能难以进行足够的抽象推理。

    —— Marcus on AI

  • 四款未公开名字的大语言模型极易受到基本越狱攻击

    英国AI安全研究所轻松越狱主要大语言模型

    英国政府下属人工智能安全研究所(AISI)在一份新报告中指出,接受测试的四款未公开名字的大语言模型“极易受到基本越狱攻击”。一些未越狱的模型甚至在研究人员未尝试生成“有害输出”的情况下生成了这些输出。大多数公开可用的大语言模型都内置了某些保障措施,以防止它们产生有害或非法的反应;越狱简单地说就是欺骗模型,使其忽略这些保障措施。人工智能安全研究所使用最近标准化评估框架的提示词以及其内部开发的提示词进行测试。即使没有尝试越狱,这些模型也至少回答了一些有害的问题。而尝试“相对简单的攻击”,所有模型都对98%至100%的有害问题作出了回应。

    —— Engadget

  • 小米大语言模型正式通过大模型备案

    小米大语言模型 MiLM 正式通过大模型备案

    5月16日,据小米公司微博消息,小米大语言模型 MiLM 正式通过大模型备案。小米公司表示,小米大模型将逐步应用于小米汽车、手机、智能家居等产品中。后续也将面向更多用户开放体验。据悉,小米大语言模型以轻量化和本地部署为突破口,通过端云结合,实现设备和场景之间的互联,为“人车家全生态”战略赋能。

    —— 第一财经

  • 国产team成功开发大语言模型

    日本团队利用超算“富岳”开发大语言模型

    东京工业大学、理化学研究所、富士通等的团队10日发布消息称,运用超级计算机“富岳”独立开发了日语能力出色的生成式人工智能基础技术“大语言模型”。不仅企业与大学可下载使用,公众也可通过富士通官网试用。此次利用包括富岳在内的国产技术,还独立汇总了用于学习的日语数据。该团队认为,能够消除海外模型被指“使用哪些数据如何开发存在不透明”的担忧。该团队从互联网文本数据库中甄选高质量的日语文本。使用“富岳”推进人工智能学习,用不到1年时间完成开发。据称,特点是能够自然地处理敬语和以日本文化为背景的对话。富岳不使用GPU,团队此次优化了软件,把CPU的计算速度提高至6倍,展示了使用国产超算也能开发生成式人工智能。

    —— 共同社

  • google团队发现可以通过API攻击大语言模型

    Google 团队成功攻击并窃取了大语言模型的隐藏参数

    Google 一个团队发布了一篇论文,表明可以通过查询 OpenAI 的 ChatGPT 或 Google 的 PaLM-2 的公共 API 来窃取它们的一部分信息。该攻击能以几百美元的成本恢复模型的一层(最后一层)。该攻击还可以对这些模型的隐藏维度进行逆向工程,例如, GPT-3 Ada 的隐藏层大小为 1024 。Google 已经将该研究结果和修复方法分享给 OpenAI,OpenAI 在确认数据有效并应用模型修复之后,已经要求 Google 团队不要公开并删除有关数据。

    —— GitHub,arXiv

  • xAIs 大语言对话模型Grok将开源

    xAI 将在本周开源大语言对话模型 Grok

    马斯克在社交平台 X 发帖表示,其旗下的人工智能公司 xAI 将在本周开源其大语言对话模型 Grok 。该模型在去年通过 X 平台推出,抢先体验计划目前仅限 X Premium+ 订阅者。

    —— 马斯克

  • Mistral Large 大语言模型发布

    Mistral Large 大语言模型发布

    Mistral Large 是 Mistral 新的尖端文本生成模型。它达到了顶级的推理能力,可用于复杂的多语言推理任务,包括文本理解、转换和代码生成。Mistral Large 在常用基准测试中取得了优异的成绩,使其成为世界上排名第二的可通过 API 普遍使用的模型(仅次于 GPT-4)。该模型也可以通过 Azure 直接调用。

    Mistral Large 具有以下特点
    – 支持英语、法语、西班牙语、德语和意大利语。
    – 32K 标记上下文窗口。
    – 精确的指令遵循使开发人员能够设计他们的审核策略。
    – 原生支持函数调用。

    Mistral 还发布了一个新的优化模型 Mistral Small,针对延迟和成本进行了优化,其性能优于 Mixtral 8x7B,并且延迟较低,这使其成为开源型号和旗舰型号之间的中间解决方案。

    —— mistral.ai

  • 谷歌预计其更先进的大语言模型将于明年登陆 Android手机

    谷歌预计其更先进的大语言模型将于明年登陆 Android 手机

    谷歌 Pixel 部门产品管理副总裁 Brian Rakowski 表示,他预计该公司最先进的大语言模型(目前只能通过互联网连接远程数据中心访问)将于明年直接登陆智能手机。谷歌已经在其 Pixel 设备和所有其他有足够能力的 Android 设备上提供了 Gemini Nano,这是该公司最高效的“设备上” AI 模型。

    Rakowski 告诉 CNBC,“我们的 Gemini 模型在云端有更小的版本,在压缩这些模型以使它们在设备上运行方面已经取得了相当多的突破。”他还提到,“当前Gemini Nano 的性能水平与我们的在线模型不到一年前的水平相当。如果遵循这个轨迹,我们认为明年一定会有一些云端的东西将出现在设备上,这些模型是即时响应的,不需要网络连接或订阅。”

    —— CNBC

  • 谷歌推出开源大语言模型系列Gemma

    Google 发布开源大语言模型 Gemma

    谷歌今天宣布推出 Gemma,这是一个新的轻量级开源大语言模型系列。 现在 Gemma 2B 和 Gemma 7B 两个模型已经可用,每个尺寸都发布了经过预训练和指令调整的变体。谷歌同时提供了多项工具以便快速部署该模型,包括开箱即用的 Colab 实例,可快速部署的容器镜像,以及和其它流行开发工具的集成。 Gemma 模型也能够直接在开发人员笔记本电脑或台式计算机上运行。根据谷歌的技术报告,该模型在多个测试中超越的 Llama 2 等开源模型。这些新模型“受到 Gemini 的启发”,使用与其相似的技术,并被许可用于商业和研究用途。

    此外,谷歌还发布了一个新的负责任的生成式AI工具包,以提供“使用 Gemma 创建更安全的人工智能应用程序的指导和基本工具”以及调试工具。

    —— TechCrunch, Google 官方博客, Gemma 官网

  • 蚂蚁金服加速开发大语言模型技术

    马云支持蚂蚁金服开发AI模型

    马云支持的蚂蚁集团正在开发大语言模型技术,为 ChatGPT 类服务提供支持,加入寻求在下一代人工智能领域赢得优势的中国公司行列。

    名为“Zhen Yi”的项目正在由一个专门的部门创建,并将部署内部研究。蚂蚁金服发言人证实了这一消息,该消息由星空网率先报道

    蚂蚁金服正在与其关联公司阿里巴巴集团控股有限公司、百度公司和商汤科技集团公司等公司展开竞争。他们的努力反映了美国的发展,Alphabet Inc. 的谷歌和微软公司正在探索生成人工智能,它可以从中创建原创内容只需简单的用户提示,即可将诗歌转化为艺术。

    人工智能已经成为中美科技竞争的下一个大舞台,引发了人们对中国企业能否长期获得开发大规模人工智能模型所需的高端芯片的担忧。

    —— 彭博社