微闻

标签: 基准测试

  • Meta发布新AI模型Maverick引发基准测试透明度争议

    Meta发布新AI模型Maverick引发基准测试透明度争议

    Meta发布新AI模型Maverick引发基准测试争议

    近日,Meta公司推出了一款名为Maverick的新旗舰AI模型,并在LM Arena测试中取得第二名的成绩。然而,这一成绩的取得背后存在一些值得注意的问题。根据Techcrunch报道,Meta在LM Arena上部署的Maverick版本并非其向开发者广泛提供的标准版本,而是一个专门针对对话性优化的实验性聊天版本。这种做法引发了多位AI研究人员的关注和讨论。

    研究人员指出,Meta在其官方公告中明确说明参与LM Arena测试的Maverick版本是”实验性聊天版本”。然而,这一信息容易被外界忽视或误解,导致开发者对模型的实际表现产生误判。此外,Llama官方网站上的一张图表也显示,Meta在LM Arena测试中使用的是经过特定优化的”Maverick对话版”,而非通用版本。

    这种通过针对某个基准测试进行专门优化后发布”普通”版本的做法,使得开发者难以准确预测模型在实际应用场景中的表现。这一行为不仅可能误导开发者对Maverick的实际能力做出错误判断,也可能影响整个AI行业对模型性能评估的信任。

    Meta的这一做法引发了关于AI模型发布和基准测试透明度的广泛讨论。如何确保模型发布信息的准确性和完整性,避免误导性宣传,是当前AI领域需要共同关注的重要问题。

  • 20 年来首次出现基准测试结果中平均 CPU 性能年度下降

    20 年来首次出现基准测试结果中平均 CPU 性能年度下降

    基准测试软件开发商 PassMark 每两周以线图形式发布全球所有 Windows PC 测试的平均结果,图表始终显示处理器性能逐年稳步增长。然而,自 2004 年该公司开始跟踪该数据以来,台式机和笔记本电脑的平均 CPU 分数首次下降,笔记本电脑的分 数同比下降了 3.4%。而且,过去三年顶级台式机芯片和笔记本电脑 CPU 的 PassMark 分数几乎没有提升,似乎基本上已经达到了性能瓶颈。这可能是因为人们正在转向更便宜、功耗更低、性能更弱的机器。或者也许 Windows 11 的性能得分低于 Windows 10,已有游戏证实了该现象的存在。

    —— Tom’s Hardware

  • Geekbench AI 性能基准测试工具发布

    Geekbench AI 性能基准测试工具发布

    流行的基准测试实用程序 Geekbench 推出了新的跨平台工具,用于评估设备在人工智能繁重工作负载下的性能。Geekbench AI 测量设备的 CPU、GPU 和 NPU,以确定其处理机器学习应用程序的能力。为了探索不同的硬件如何响应不同的 AI 相关任务,该工具根据准确性和速度来评估性能,并支持不同的框架,包括 ONNX、CoreML、TensorFlow Lite 和 OpenVINO。Geekbench AI 提供三种评分:全精度、半精度和量化。

    —— The Verge、下载测试工具