微闻

标签：基准测试

Meta发布新AI模型Maverick引发基准测试透明度争议

Meta发布新AI模型Maverick引发基准测试争议

近日，Meta公司推出了一款名为Maverick的新旗舰AI模型，并在LM Arena测试中取得第二名的成绩。然而，这一成绩的取得背后存在一些值得注意的问题。根据Techcrunch报道，Meta在LM Arena上部署的Maverick版本并非其向开发者广泛提供的标准版本，而是一个专门针对对话性优化的实验性聊天版本。这种做法引发了多位AI研究人员的关注和讨论。

研究人员指出，Meta在其官方公告中明确说明参与LM Arena测试的Maverick版本是”实验性聊天版本”。然而，这一信息容易被外界忽视或误解，导致开发者对模型的实际表现产生误判。此外，Llama官方网站上的一张图表也显示，Meta在LM Arena测试中使用的是经过特定优化的”Maverick对话版”，而非通用版本。

这种通过针对某个基准测试进行专门优化后发布”普通”版本的做法，使得开发者难以准确预测模型在实际应用场景中的表现。这一行为不仅可能误导开发者对Maverick的实际能力做出错误判断，也可能影响整个AI行业对模型性能评估的信任。

Meta的这一做法引发了关于AI模型发布和基准测试透明度的广泛讨论。如何确保模型发布信息的准确性和完整性，避免误导性宣传，是当前AI领域需要共同关注的重要问题。

2025年4月7日
20 年来首次出现基准测试结果中平均 CPU 性能年度下降

20 年来首次出现基准测试结果中平均 CPU 性能年度下降

基准测试软件开发商 PassMark 每两周以线图形式发布全球所有 Windows PC 测试的平均结果，图表始终显示处理器性能逐年稳步增长。然而，自 2004 年该公司开始跟踪该数据以来，台式机和笔记本电脑的平均 CPU 分数首次下降，笔记本电脑的分数同比下降了 3.4%。而且，过去三年顶级台式机芯片和笔记本电脑 CPU 的 PassMark 分数几乎没有提升，似乎基本上已经达到了性能瓶颈。这可能是因为人们正在转向更便宜、功耗更低、性能更弱的机器。或者也许 Windows 11 的性能得分低于 Windows 10，已有游戏证实了该现象的存在。

—— Tom’s Hardware

2025年2月12日
Geekbench AI 性能基准测试工具发布

Geekbench AI 性能基准测试工具发布

流行的基准测试实用程序 Geekbench 推出了新的跨平台工具，用于评估设备在人工智能繁重工作负载下的性能。Geekbench AI 测量设备的 CPU、GPU 和 NPU，以确定其处理机器学习应用程序的能力。为了探索不同的硬件如何响应不同的 AI 相关任务，该工具根据准确性和速度来评估性能，并支持不同的框架，包括 ONNX、CoreML、TensorFlow Lite 和 OpenVINO。Geekbench AI 提供三种评分：全精度、半精度和量化。

—— The Verge、下载测试工具

2024年12月5日

标签： 基准测试

Meta发布新AI模型Maverick引发基准测试透明度争议

20 年来首次出现基准测试结果中平均 CPU 性能年度下降

Geekbench AI 性能基准测试工具发布

标签：基准测试