ChatGPT 的编程问题回答正确率较低

作者：

在

ChatGPT 的编程问题正确率比抛硬币还低

普渡大学的一项研究显示，OpenAI 的聊天机器人 ChatGPT 在回答软件编程问题时，有一半以上的时间会回答错误。尽管如此，该机器人的说服力足以骗过三分之一的参与者。

普渡大学团队分析了 ChatGPT 对 517 个 Stack Overflow 问题的回答，以评估 ChatGPT 回答的正确性、一致性、全面性和简洁性。美国学者还对答案进行了语言和情感分析，并就模型生成的结果询问了十几名志愿参与者。

“我们的分析表明，52% 的 ChatGPT 答案是错误的，77% 是冗长的，”该团队的论文总结道。“尽管如此，ChatGPT 答案仍有 39.34% 的时间因其全面性和清晰的语言风格而受到青睐。”

“在研究过程中，我们观察到，只有当 ChatGPT 答案中的错误很明显时，用户才能识别出错误，”论文中说到。“然而，当错误不容易验证或需要外部 IDE 或文档时，用户往往无法识别错误或低估答案的错误程度。”

论文称，即使答案存在明显错误，12 名参与者中仍有两人将答案标记为首选。

—— Theregister 、论文

更多文章