标签: 大模型

  • 字节跳动大模型训练任务被实习生破坏

    字节跳动大模型训练任务被实习生攻击

    知情人士处获悉,今年6月,某高校的博士在字节跳动商业化技术团队实习,因对团队资源分配不满,使用攻击代码破坏团队的模型训练任务。传闻显示,该田姓实习生利用了HF (huggingface) 的漏洞,在公司的共享模型里写入破坏代码,导致模型的训练效果忽高忽低,无法产生预期的训练效果。字节跳动内部已经调查明确此事为田姓实习生所为。目前该实习生已被辞退,字节跳动同时把此事同步给阳光诚信联盟和企业反舞弊联盟以及学校。但这名实习生被辞退后到处“辟谣”甩锅。被攻击的是商业化技术团队的模型训练任务,影响了该团队的一些业务进展。

    —— 界面新闻

  • 三星Galaxy Z系列新品接入豆包大模型

    三星中国Galaxy Z系列新品接入豆包大模型

    7月17日,三星电子面向中国市场发布新一代Galaxy Z系列产品。会上,三星电子与火山引擎官宣合作,为Galaxy Z Fold6、Galaxy Z Flip6手机的智能助手和AI视觉接入豆包大模型。此前,三星在海外新品发布会上公布了与谷歌Gemini的深度合作。

    —— 界面新闻

  • Gemma 2 大模型升级

    Google 推出开源大模型更新 Gemma 2

    Google 今天发布了其下一代开源大模型 Gemma 2,有 9B 和 27B 两种参数大小。与第一代相比,其性能更高、推理效率更高,并且内置了显著的安全改进。 Google称, 27B 的模型性能可以与比其大两倍的模型相媲美。这些大模型可在单个 NVIDIA H100 GPU 或 TPU 主机实现全精度推理,从而显著降低部署成本。 Gemma 2 也可以在 CPU 上使用量化版本进行本地推理,或者在配备 NVIDIA RTX 或 GeForce RTX 的个人电脑上使用。

    —— Google 博客

  • 阿里通义千问 Qwen2 大模型发布

    阿里通义千问 Qwen2 大模型发布

    阿里通义千问 Qwen2 大模型发布并同步开源

    阿里通义千问 Qwen2 大模型今日发布,并在 Hugging Face 和 ModelScope 上同步开源。据悉,Qwen2 系列涵盖5个尺寸的预训练和指令微调模型,其中包括 Qwen2-0.5B、Qwen2-1.5B、Qwen2-7B、Qwen2-57B-A14B 和 Qwen2-72B,上下文长度支持进一步扩展,最高达128K tokens。

    —— Qwen2

  • 斯坦福团队因抄袭清华系大模型

    斯坦福团队被曝抄袭清华系大模型,已删库跑路

    斯坦福的这项研究叫做 Llama3-V,是于5月29日发布的,宣称只需要500美元就能训出一个SOTA多模态大模型,比GPT-4V、Gemini Ultra、Claude Opus都强。

    但是没发布两天,Llama3-V 就遭遇了重重质疑。有人指出,Llama3-V 项目中有一大部分似乎窃取了清华大学自然语言处理实验室与面壁智能合作开发的多模态模型 MiniCPM-Llama3-V 2.5。

    —— 凤凰网、量子位

  • 端侧大模型功耗问题

    荣耀CEO赵明:功耗是端侧大模型亟待解决的问题

    对于未来端侧大模型的趋势,荣耀CEO赵明今天 (27日) 接受媒体采访时认为,大模型在手机上的落地会是恰到好处,不用刻意追求更大的模型,像ChatGPT这种能力未来在手机侧很难复刻,也不是核心应用场景。端侧AI是个人工具,要让个人在AI世界变得更强大,更好地管理和使用网络大模型。“目前,端侧70亿参数大模型还不能长期持久地使用。跑两小时,手机可能就没电了。低功耗的70亿参数大模型才是有价值的。未来随着端侧大模型逐步把能力构建起来,20亿模型就能实现70亿的效果。未来,大模型也会有不同的参数,比如10亿、20亿、30亿,而不是任何时候都用大参数的模型。”

    —— 科创板日报

  • 中国网络空间研究院推出基于“习近平思想”的大模型

    中国网络空间研究院推出基于“习近平思想”的大模型

    隶属于中国最高互联网监管机构网信办的中国网络空间研究院表示,推出了基于中国国家主席习近平政治哲学的大型语言模型,这是一个未开放的人工智能系统,据称“安全可靠”。据周一在微信公众号“中国网信杂志”上发布的一篇文章称,该哲学以及其他与官方政府叙述一致的选定网络空间主题构成了该大模型的核心内容。

    据一位参与该项目的人士透露,目前,新模型正在该研究院内部使用,但最终可能会被广泛使用。帖子称,新模型可以回答问题、创建报告、总结信息并进行中英文翻译。

    根据部分训练语料内容显示,该训练集大量参考了政府法规和政策文件、国家媒体报道和其他官方出版物。数据包中的数十份文本文件中,有一份文件提到了习近平 86,314 次。

    —— 金融时报

  • 微软出台人工智能新大模型MAI-1

    微软将推出自研新大模型 MAI-1 与谷歌和 OpenAI 竞争

    微软正在公司内部训练一个新的人工智能模型,其规模足以与谷歌、Anthropic,乃至 OpenAI 的先进模型相抗衡。新模型内部代号为 MAI-1 ,由前谷歌 AI 负责人 Mustafa Suleyman 领导开发。 Suleyman 曾担任初创公司 Inflection 的 CEO,今年 3 月微软以 6.5 亿美元收购该公司后加入微软。

    MAI-1 可能会基于 Inflection 的训练数据与技术,但据两名知情的微软员工透露,新模型与 Inflection 公司原有的模型 Pi 是两个不同项目。相关人士称,MAI-1 的规模“远大于”微软此前训练过的任何开源模型,将有约 5,000 亿参数,意味着它将需要更强算力及训练数据,同时也会具备更高的成本。

    —— The Information

  • 谷歌医学大模型Med-Gemini超越人类医生

    谷歌医学大模型 Med-Gemini 在基准测试中超越人类医生

    谷歌研究院和 DeepMind 周一发表了一篇论文详细介绍了医学专用大模型 Med-Gemini 的惊人能力。该模型打破了多项基准测试的记录,并在多个任务中超越人类医学专家。

    Med-Gemini 以 Gemini 大模型为基础进行了针对医学知识的微调。谷歌还为该模型提供了网络搜索能力,模型除了在不确定答案时可以引用搜索结果作为参考外,还可以使用网络搜索进行自我学习,对模型进行持续微调,以学习最新的医学知识。而结合 Gemini 超长上下文的能力和推理链的设计,该模型可以处理数十万词构成的复杂病例医学记录。其多模态能力则可以使其处理病理学图片和影像学图像在内的多种医疗数据。

    谷歌认为该研究结果为 Med-Gemini 的潜力提供了令人信服的证据,但在医疗这个安全关键领域进行实际部署之前,进一步严格的评估至关重要。

    —— New Altas,arxiv

  • 小红书内测自研大模型

    社交平台小红书内测自研大模型“小地瓜” 社交和搜索是落地方向

    36氪从多个独立信源获悉,由小红书AI创新负责人张德兵牵头的大模型团队,在部分内部产品灰度测试自研通用大模型基座“小地瓜”。小红书AI产品的探索,则主要由小红书产品和设计负责人邓超负责。几名知情者透露,小红书对上线新AI产品的态度非常谨慎,原因是害怕破坏现有的内容生态。一名知情者说:“小红书的内容生态是活人种草,AI在里面怎么样才不违和,这是困扰小红书的一个问题。”社交和搜索,则是小红书希望走出图文种草的舒适区,用AI触达更多用户的新场景。

    —— 36氪