标签: 经典问题

  • 马斯克的 Grok 3 仍未能回答经典用来刁难大模型的问题

    马斯克的 Grok 3 答不对9.11和9.9哪个大

    北京时间2月18日,马斯克与 xAI 团队,在直播中正式发布了 Grok 最新版本 Grok3。从现场展示的数据来看,Grok3 在数学、科学与编程的基准测试上已经超越了目前所有的主流模型。然而测试最新的 Beta 版 Grok3,并提出了那个经典的用来刁难大模型的问题:「9.11 与 9.9 哪个大?」遗憾的是,在不加任何定语以及标注的情况下,号称目前最聪明的 Grok3,仍然无法正确回答这个问题。在海外也有很多类似问题的测试,例如「比萨斜塔上两个球哪个先落下」这些基础物理/数学问题,Grok3 也被发现仍然无法应对。

    —— 极客公园