标签: 模型

  • YouTube允许第三方公司使用其视频训练人工智能模型

    YouTube创作者可选是否允许第三方AI训练

    YouTube 平台正在推出一种方法,让创作者允许第三方公司使用他们的视频来训练人工智能模型。需要明确的是,默认设置是关闭的,这意味着如果您不想让第三方公司抓取您的视频用于人工智能训练,无需执行任何操作。但如果出于某种原因确实想允许,这将是一个选择。YouTube 将在“未来几天”在 YouTube Studio 中推出该设置,并且“仍然禁止”未经授权的抓取。创作者可以从第三方公司列表中挑选允许使用您视频进行训练的公司,或者选择允许所有第三方公司。名单包括 AI21 Labs、Adobe、IBM、Meta、字节跳动、Cohere、Anthropic、Runway、英伟达、苹果、微软、OpenAI、Perplexity、亚马逊、Pika Labs、Stability AI 和 xAI。

    —— TheVerge

  • Anthropic推出新人工智能模型:Claude 3.5 Haiku

    Anthropic 3.5 Haiku 模型向 Claude 用户推出

    昨日,Anthropic 为其人工智能聊天机器人平台 Claude 的用户发布了其最新的人工智能模型之一 Claude 3.5 Haiku。该模型现在可以在 Claude 的网页和移动版本中使用。3.5 Haiku 是 Anthropic 于今年11月推出的模型,在特定基准测试中,其表现与 Anthropic 现役旗舰模型 3 Opus 相当甚至更好。3.5 Haiku 模型特别适合编程建议、数据提取和标记以及内容审核。3.5 Haiku 还能够输出比其前代模型 3 Haiku 更长的文本内容,并且该模型的知识截止日期已更新,这意味着可以引用更多近期事件。然而该模型不支持图像分析。

    —— Techcrunch

  • 谷歌推出 Gemini 2.0 模型

    谷歌推出 Gemini 2.0 模型带来智能体能力

    谷歌推出其旗舰人工智能模型新版本,据称该模型的速度比之前版本快两倍,并将为协助用户的虚拟代理提供动力。谷歌公司周三表示,新模型 Gemini 2.0 可以跨语言生成图像和音频,并可在谷歌搜索和编码项目中提供帮助。​Gemini 新功能使构建能够思考、记忆、规划甚至代表用户采取行动的代理成为可能。谷歌公司本周将开始在搜索和 AI 摘要中测试 Gemini 2.0。谷歌周三还向开发人员提供了 Gemini 2.0 Flash 的实验版本,这是其快速高效的人工智能模型,该模型可以更好地处理图像并接近人类的推理能力。

    另外三个实验性项目也将由 Gemini 2.0 驱动。I/O 大会上宣布的现实世界理解项目 Astra 已经完成了 Android 版本的测试,即将开始眼镜版本的原型测试。Mariner 项目旨在从浏览器开始探索人机交互的未来,它能够理解和推理浏览器屏幕上的信息,然后通过实验性的 Chrome 扩展程序代替用户完成复杂任务。编码智能体 Jules 可直接集成到 GitHub 工作流中,以在开发人员监督下自主解决问题、制定计划并执行。
    —— Google 博客、彭博社

  • 字节跳动视频生成模型PixelDance内测

    字节跳动视频生成模型在豆包电脑版内测

    近日,字节跳动视频生成模型PixelDance已在豆包电脑版正式开启内测,部分用户已开通体验入口。内测页面显示,用户每日可免费生成十支视频。早期内测创作者介绍,当PixelDance生成10秒视频时,切换镜头3-5次的效果最佳,场景和角色能保持很好的一致性。通过小幅度、渐进式的提示词描述,PixelDance能生成魔术般的特效。此外,用户还可使用时序提示词、长镜头等技巧,增强视频的复杂度和表现力,对剧情创作非常友好。目前,基于该模型的视频生成能力已在豆包电脑版陆续开放。

    —— 新浪科技

  • OpenAI发布Sora视频人工智能模型

    OpenAI 的视频生成器 Sora 正式发布

    当地时间周一,OpenAI 推出了其文本转视频人工智能模型 Sora ,这是其为期12天的“产品发布季”系列的一部分,现已在 Sora.com 上向美国和“大多数其他国家”的 ChatGPT 订阅用户推出,还有一款新模型 Sora Turbo 同步推出。这个更新的模型增加了从文本生成视频、动画图像和混合视频等功能。OpenAI 表示,通过 ChatGPT Plus 订阅,用户可以生成最多 50 个优先视频 (1,000 个积分),分辨率高达 720p,时长为 5 秒。上周推出的 ChatGPT Pro 订阅每月收费 200 美元,提供“无限生成”功能,最多可生成 500 个优先视频,同时将分辨率提高到 1080p,时长提高到 20 秒。更昂贵的套餐还允许订阅者下载无水印视频,并同时进行最多五次生成。

    —— TheVerge

  • 阿里云通义推出新开源人工智能模型QwQ

    阿里云通义开源推理大模型QwQ,推理水平比肩OpenAI o1

    11月28日,阿里云通义团队发布全新人工智能推理模型QwQ-32B-Preview,并同步开源。评测数据显示,预览版本的QwQ,已展现出研究生水平的科学推理能力,在数学和编程方面表现尤为出色,整体推理水平比肩OpenAI o1。QwQ (Qwen with Questions)是通义千问Qwen大模型最新推出的实验性研究模型,也是阿里云首个开源的人工智能推理模型。阿里云通义千问团队研究发现,当模型有足够的时间思考、质疑和反思时,其对数学和编程的理解就会深化。基于此,QwQ取得了解决复杂问题的突破性进展。

    —— 阿里巴巴

  • 英伟达显示了可以生成音乐和音频的模型

    英伟达展示了可以生成音乐和音频的模型

    英伟达11月25日展示了一款用于生成音乐和音频的人工智能模型 Fugatto。该模型可以根据文本提示修改声音、产生新的声音。不过英伟达目前没有公开发布 Fugatto 技术。新模型面向音乐、电影和游戏制作商。可以改变录音的口音和情绪,将钢琴演奏转换成人声歌唱,具体来讲,Fugatto 可以分离歌曲中的人声,添加乐器,将钢琴换成歌剧歌手来改变旋律。英伟达表示,新模型可以创造出“从未听过的声音”,比如可以使小号吠叫或者萨克斯发出猫叫声。英伟达表示目前仍在讨论是否以及如何将其公开发布。

    —— 澎湃新闻、Fugatto

  • Niantic constructs massive geographic space AI model

    Niantic 正在利用 Pokémon Go 玩家数据构建“地理空间”AI 模型

    Niantic 宣布正在构建一个新的“大型地理空间模型”(LGM),该模型结合了 Pokémon Go 和其他 Niantic 产品玩家智能手机上的数百万张扫描图。这种 AI 模型可以让计算机和机器人以新的方式理解世界并与世界互动。Niantic 已在全球扫描了 1000 万个地点,每周收到大约 100 万个新扫描地点,每个都包含数百张离散图像。

    LGM 的“空间智能”建立在 Niantic 所开发的视觉定位系统的神经网络之上。博客文章解释说:“过去五年来,Niantic 一直致力于构建我们的视觉定位系统 (VPS),该系统使用手机的单张图像来确定其位置和方向,并使用由人们扫描我们游戏和 Scaniverse 中有趣的位置而构建的 3D 地图”,并且“这些数据是独一无二的,因为它是从行人的角度获取的,包括汽车无法到达的地方。”

    —— The Verge , Niantic

  • 欧盟发布GPAI模型监管指南初稿

    欧盟发布通用人工智能模型监管指南初稿

    ​周四,欧盟发布了通用人工智能 (GPAI) 模型实践准则的初稿。该文件要到五月才会最终定稿,其中列出了管理风险的指导方针,并为企业提供了遵守规定并避免巨额处罚的蓝图。欧盟的《人工智能法案》于今年8月1日生效,但为日后确定 GPAI 法规的具体细节留下了空间。这份初稿首次尝试明确对这些更先进模型的期望,让利益相关者有时间在法规生效前提交反馈并进行完善。GPAI 是指训练时总计算能力超过10²⁵ FLOPs的模型。预计受欧盟指导方针约束的公司包括 OpenAI、谷歌、Meta、Anthropic 和 Mistral。文件涉及 GPAI 制造商几个核心领域:透明度、版权合规性、风险评估以及技术/治理风险缓解。

    —— Engadget

  • 阿里云通义大模型团队开源 Qwen2.5-Coder 模型

    阿里云开源 Qwen2.5-Coder 全系列模型

    阿里云通义大模型团队开源通义千问代码模型全系列,共6款 Qwen2.5-Coder 模型。据介绍,Qwen2.5-Coder-32B-Instruct 作为本次开源的旗舰模型,在 EvalPlus 等十余个主流的代码生成基准上,均刷新了开源模型的得分纪录,并在考察代码修复能力的 Aider、多编程语言能力的 McEval 等九个基准上优于 GPT-4o,实现了开源模型对闭源模型的反超。阿里通义千问此前开源1.5B、7B两个尺寸,本次开源带来0.5B、3B、14B、32B四个尺寸。3B模型使用 Research Only 许可,其他模型均采用 Apache 2.0 许可证。

    —— Github、Huggingface