标签: 大模型

  • xAI发布具有视觉能力的Grokk.1.5Vision大模型

    xAI 推出具有视觉能力的 Grok 1.5 Vision 大模型

    马斯克旗下的 xAI 推出了其首款多模态大模型 Grok 1.5 Vision 。除了文本功能外, Grok 现在还可以处理各种各样的视觉信息,包括文档、图表、图表、屏幕截图、照片,并能进行多学科推理。

    xAI 重点展示了 Grok-1.5V 的7个示例,包括:将手绘图表转换成 Python 代码、看食品标签计算卡路里、根据孩子的绘画讲个睡前故事、解释梗图、将表格转换成 csv 格式、解答生活日常问题、解决代码问题。

    —— xAI

  • Mistral 8x22B 大模型开源

    Mistral AI 开源 Mistral 8x22B Moe 大模型

    Mistral AI 公司刚刚再次用磁力链接开源了一款大模型 Mistral 8x22B,模型文件大小为 281.24 GB。从模型的名字来看,Mistral 8x22B 是去年开源的「mixtral-8x7b」的超级大杯版本,参数规模增长三倍不止,由 8 个 220 亿参数规模 (8×22B) 的专家网络组成。
    磁力链接地址:magnet:?xt=urn:btih:9238b09245d0d8cd915be09927769d5f7584c1c9&dn=mixtral-8x22b&tr=udp%3A%2F%2Fopen.demonii.com%3A1337%2Fannounce&tr=http%3A%2F%2Ftracker.opentrackr.org%3A1337%2Fannounce

    —— Mistral AI、oschina

  • AI21 Labs 推出基于 Mamba 架构的生产级大模型

    AI21 Labs 推出 Jamba:首个基于 Mamba 架构的生产级大模型

    以色列人工智能初创公司 AI21 Labs 在近日宣布推出开源大语言模型 Jamba,这是世界上首个基于 Mamba 架构的生产级人工智能模型。而目前大多数模型都基于 Transformer 架构。Jamba 将 Mamba 的结构化状态空间模型 (SSM) 和传统 Transformer 架构的优势相结合,提供了令人印象深刻的性能和效率提升。Jamba 拥有高达 256k 上下文窗口,同时在单个 80GB GPU 上可容纳最多 140K 个 tokens。其混合结构使 Jamba 的 MoE 层允许它在推理时仅使用52B可用参数中的12B参数。

    —— Maginative、Huggingface

  • MediaTek 联发科成功部署通义千问大模型

    阿里云携手联发科为手机芯片适配大模型

    3月28日消息,科创板日报记者独家获悉,全球最大的智能手机芯片厂商 MediaTek 联发科,已成功在天玑 9300 等旗舰芯片上部署通义千问大模型,首次实现大模型在手机芯片端深度适配。通义千问在离线情况下运行多轮AI对话。阿里云方面表示,将和联发科深度合作,向全球手机厂商提供端侧大模型解决方案。

    —— 科创板日报

  • Stable Diffusion 3 大模型发布

    Stable Diffusion 3 大模型发布

    Stability AI 今天发布了 Stable Diffusion 3 的早期预览版,称该模型为其最强大的文本到图像模型,在多主题提示、图像质量和拼写能力方面的性能得到了极大提高。Stable Diffusion 3 模型套件目前的参数范围为 800M 到 8B。早期预览的候补名单也已经开放。

    —— Stability.ai

  • 美亚柏科推出“天擎”公共安全大模型和一体机

    美亚柏科:已推出美亚“天擎”公共安全大模型和一体机产品

    美亚柏科在机构调研时表示,公司已经推出美亚“天擎”公共安全大模型和一体机产品,具备丰富的公共安全行业知识,拥有强大的执法意图识别、情报智能预警、案件智能研判、智能公文写作和法规智能助手等能力,可用于公共安全事件研判、分析、指挥调度等不同场景。

    公司持续关注人工智能安全、数据安全等领域出台的相关法规、政策,将积极面对变化和挑战,保持对新兴技术的关注,运用已有的技术沉淀、行业Know-How,结合市场需要,适时布局相关的产品和服务。

    编注:美亚柏科是一家电子数据取证以及网络安全公司。

    —— 东方财富网

  • 北大推出代码大模型CodeShell-7B

    北大推出“最强编程助手”:代码大模型 CodeShell-7B 开源

    10 月 19 日消息,北京大学软件工程国家工程研究中心知识计算实验室联合四川天府银行 AI 实验室,今天正式开源旗下 70 亿参数的代码大模型 CodeShell,号称“同等规模最强代码基座”。

    官方已经在 GitHub 开源了模型、相关配套方案及 IDE 插件,支持商用。有兴趣的可以在此前往。

    项目详情中介绍,CodeShell-7B 基于 5000 亿 Tokens 进行了冷启动训练,上下文窗口长度为 8192,架构设计上融合了 StarCoder 和 Llama 两者的核心特性。

    官方声称,CodeShell 的原始训练数据基于自家爬取的 Github 数据、Stack 和 StarCoder 数据集,以及少量“高质量的中英文数据”,这些预训练数据均经过了“数据判重、数据过滤规则、数据质量模型一系列流水线”。

    —— IT之家

  • 阅文集团推出国内首个网文大模型

    阅文集团推出国内首个网文大模型“阅文妙笔”,号称成为作者的“金手指”

    在 7 月 19 日举行的阅文创作大会上,国内首个网文大模型“阅文妙笔”正式亮相。阅文集团 CEO 兼总裁侯晓楠表示,阅文妙笔是“最懂网文”的大模型,将以 AIGC 为创作生态和 IP 生态“全面赋能”。

    其称,AIGC 开启了新的浪潮,文创领域将是 AI 应用的主阵地之一。此外,侯晓楠指出“AIGC 将为作家带来新的创作模式,也将创造新的价值” 。与此同时,他也声称“AI 不会替代创作者,而是成为作者的‘金手指’。AI 是 IP 产业未来 5 年内最重要的功能”。

    —— IT之家

  • 科大讯飞回应讯飞星火大模型被指套壳 ChatGPT

    科大讯飞回应讯飞星火大模型被指套壳 ChatGPT:既不符合事实也不符合逻辑

    今日科大讯飞披露投资者关系活动记录表时称,网上有谣言说讯飞星火大模型“套壳 OpenAI 的 ChatGPT”既不符合事实,也不符合逻辑。

    科大讯飞表示,如果是套壳 ChatGPT,就不可能出现讯飞星火大模型的响应速度比 ChatGPT 还快;更不会出现讯飞星火大模型在文本生成、知识问答、数学能力等方面的结果均优于 ChatGPT 的情况。

    —— IThome

  • Google IO将公布PaLM 2大模型

    Google IO 将公布 PaLM 2 大模型

    Google 将在年度开发者大会 Google I/O 上宣布它的新版通用大语言模型 PaLM 2。

    PaLM 是 Google 在 2022 年 4 月宣布的大模型,有 5400 亿参数,Google AI 和 DeepMind 后在此基础上开发了一个用医学数据集微调的版本 Med-PaLM,它是首个在美国医师资格考试中获得及格分的 AI 模型。

    在 5 月 10 日周三举行的开发者大会上 Google 宣布的 PaLM 2 将是该公司最先进的大模型,其内部代号为“Unified Language Model(统一语言模型)”,包含逾百种语言,能执行范围广泛编程和数学测试,以及创意写作测试和分析。

    —— CNBC