标签: 机器学习

  • o3 模型获得AI竞赛突破

    OpenAI 的 o3 模型取得突破性进展但经济性欠佳

    AGI 基准测试竞赛 Arc Prize 与 OpenAI 合作在 ARC-AGI 基准测试上对新推理模型 o3 进行了测试,其展示了 AI 适应新任务的重大突破。它在低计算模式下的半私有评估中得分为 75.7%,相较于上代模型提升了3倍,在高计算模式下得分为 87.5%,大幅领先于其他受试模型。

    然而,这种通用性的成本很高,而且目前还不是很经济:让人类解决 ARC-AGI 任务仅需支付大约每项任务 5 美元的费用,同时仅消耗几美分的能源。而 o3 在低计算模式下每项任务需要 17-20 美元,在高计算模式中每个任务数千美元。此外,仍有相当多的非常简单的 ARC-AGI-1 任务是 o3 即使消耗了数百万 token 也无法解决的,而这些任务对于正常人类并不复杂。

    —— Arc Prize

  • OpenAI 宣布推出强化微调研究项目

    OpenAI 宣布推出强化微调研究项目

    人工智能公司 OpenAI 连续12个工作日的宣讲进入第二天,今天介绍的是强化微调研究项目。该项目旨在使开发人员和机器学习工程师能够创建经过微调的专家模型。新的模型自定义技术使开发人员能够使用数十到数千个高质量任务定制模型,并根据提供的参考答案对模型的响应进行分级。此技术强化了模型对类似问题解决方案的推导,以及在特定任务上的准确性。OpenAI 表示,鼓励研究机构、大学和企业申请使用,预计在法律、保险、医疗保健、金融和工程等领域有积极结果,因为强化微调擅长于结果具有大多数专家都同意的客观“正确”答案的任务。

    —— OpenAI

  • O1系列模型简介

    OpenAI 发布新的推理模型:
    OpenAI 刚刚发布新的推理模型,可给ChatGPT Plus 和 Team 用户使用,o1-preview 每周速率限制为 30 条消息,o1-mini 每周速率限制为 50 条。目前暂不开放给api (除非你是Tier 5 (消费超过$1000)的api使用者)。

    根据OpenAI,O1模型可以解决“博士等级”的问题,并在竞赛中取得极好的成绩(AIME 成绩在全美国前500名) 。但是需要注意的是o-1-mini 和o1-preview 并非表现最好的模型,OpenAI并未发布O1(内部模型),并且在一副图表中显示了一个名叫O1-ioi的具有更好评分的一个模型。但o1-preview大部分评分均远高于GPT-4o。

    O1-mini在纯数学领域与编码领域甚至可以超过o1-preview评分,并达到接近内部O1模型的评分。

    目前O1系列模型不支持视觉输入,会使用大量的Token在内部进行推理(并且内部推理Token将会收费),花较长时间进行思考(O1 mini 较快,但是依旧比GPT-4o慢3-5倍,O1-preview可能会花费分钟级时间)

    —-OpenAI (更多具体信息请见)

  • 《大型语言模型不会达到人类智能水平》

    Meta人工智能主管杨立昆:大型语言模型不会达到人类智能水平

    Meta 的人工智能主管表示,为 ChatGPT 等生成式人工智能产品提供动力的大型语言模型永远无法实现像人类一样的推理和计划能力,他专注于一种激进的替代方法,即在机器中创造“超级智能”。该公司首席人工智能科学家杨立昆表示,LLM“对逻辑的理解非常有限……不理解物理世界,没有持久的记忆,不能按照任何合理的定义进行推理,也不能进行层次化的规划”。杨立昆说,LLMs的这种进化是肤浅和有限的,只有当人类工程师介入并根据这些信息进行训练时,模型才会学习,而不是像人类那样自然地得出结论。“在大多数人看来,这当然是推理,但主要是利用从大量训练数据中积累的知识。(LLM)尽管有局限性,但非常有用。”

    ——英国金融时报( 全文截图)

  • Chrome 地址栏添加了机器学习功能

    Chrome 地址栏添加了机器学习功能以提供更好的建议

    Chrome 浏览器中的地址栏刚刚进行了更新。谷歌表示,此次更新将有助于地址栏提供比以前“更精确、更相关”的网页建议。谷歌博文中宣布,最新版本的 Chrome (M124) 将对地址栏进行重大改进。具体来说,谷歌已将机器学习 (ML) 模型集成到多功能框中,这将提供更准确地符合您所需内容的建议。在推荐网页之前,机器学习模型能够考虑到您上次访问网址的时间。例如,如果您在过去几秒或几分钟内离开某个页面,模型将为该网址赋予较低的相关性分数,因为它可能不是您要查找的网站。

    —— Androidauthority、谷歌博客

  • 苹果公司开发大型语言模型

    古尔曼:苹果致力于开发用于生成式人工智能功能的设备端大型语言模型

    据彭博社的马克·古尔曼报道,苹果公司正在开发自己的大型语言模型 (LLM),该模型可在设备上运行,以优先考虑速度和隐私。古尔曼在他的“Power On”时事通讯中写道,苹果公司的大语言模型为即将推出的生成式人工智能功能奠定了基础。“所有迹象”似乎表明,它将完全在设备上运行,而不是像大多数现有人工智能服务那样通过云端运行。由于苹果公司的人工智能工具将在设备上运行,因此在某些情况下,可能不如直接基于云的竞争对手,但古尔曼表示,该公司可以通过从谷歌和其他人工智能服务提供商获得技术许可来“填补空白”。

    —— macrumors

  • 谷歌翻译不再需要人工建议来改进翻译

    谷歌翻译不再需要人工建议来改进翻译

    Google 翻译在帮助文章中表示已关闭贡献功能。贡献功能 2014 年首次推出时,当翻译没有达到预期时,该功能允许用户点击按钮“改进此翻译”,并编写替代翻译。但随着系统的不断发展和学习, Google 认为翻译质量有了显著的改进,因此将不再提供贡献功能。

    谷歌翻译中的评分反馈功能将继续保留,用户可以对翻译结果给出评价。

    —— Google 帮助中心

  • Anthropic发布新模型Claude 2.1

    OPENAI 的竞争对手 Anthropic 刚刚发布了新模型 Claude 2.1

    就在 OpenAI 陷入危机之际,Anthropic 推出了一款新的模型。Anthropic 是一家由谷歌支持的人工智能初创公司,由前 OpenAI 工程师创立。

    Anthropic 公司宣布,其聊天机器人 Claude 2.1 的最新更新可以为专业级用户一次消化多达 20 万个 tokens,据称相当于 500 多页的材料。

    该公司还表示,Claude 产生幻觉或撒谎的频率只有以前的一半,而且它还能通过可定制的工具完成搜索网页或使用计算器等操作。 聊天机器人现在还支持自定义、持续性的指令,并有一个新的测试窗口用于尝试提示。

    —— TheVerge、 Anthropic

  • Stable LM 3B

    Stability AI 发布最新语言模型:Stable LM 3B

    Stability AI 发布了其最新语言模型:Stable LM 3B,设计用于在手持设备和笔记本电脑等便携式数字设备上运行。

    Stable LM 3B 拥有30 亿个参数(业界通常使用的参数为 70 亿到 700 亿个),是一种紧凑型语言模型。Stable LM 3B 的主要优势之一是其更小的尺寸和更高的效率。与大型模型不同,这些模型需要的资源更少,因此大多数用户都可以轻松使用它们。

    与之前的稳定 LM 版本相比,该版本在保持了快速的执行速度的同时,在生成文本方面明显更好。在常见自然语言处理基准测试(包括常识推理和常识测试)中,它的的下游性能得到了提高。

    —— Stability AI

  • DALL·E 3

    DALL·E 3

    OpenAI 发布自然语言图像生成模型 DALL·E 3

    DALL·E 3 原生构建在 ChatGPT 上,你可以与 ChatGPT 沟通来进行内容的详细定制。这一点与完全基于 CLIP (图像-文本映射模型) 的其它图像生成AI截然不同,DALL·E 3 有着真正的”思考推理大脑”,这使它对画面的细节有着相当大的掌控力,并且不再需要复杂的 prompt 工程即可理解你的想法。

    —— OpenAI