ChatGPT 的编程问题正确率比抛硬币还低
普渡大学的一项研究显示,OpenAI 的聊天机器人 ChatGPT 在回答软件编程问题时,有一半以上的时间会回答错误。尽管如此,该机器人的说服力足以骗过三分之一的参与者。
普渡大学团队分析了 ChatGPT 对 517 个 Stack Overflow 问题的回答,以评估 ChatGPT 回答的正确性、一致性、全面性和简洁性。美国学者还对答案进行了语言和情感分析,并就模型生成的结果询问了十几名志愿参与者。
“我们的分析表明,52% 的 ChatGPT 答案是错误的,77% 是冗长的,”该团队的论文总结道。“尽管如此,ChatGPT 答案仍有 39.34% 的时间因其全面性和清晰的语言风格而受到青睐。”
“在研究过程中,我们观察到,只有当 ChatGPT 答案中的错误很明显时,用户才能识别出错误,”论文中说到。“然而,当错误不容易验证或需要外部 IDE 或文档时,用户往往无法识别错误或低估答案的错误程度。”
论文称,即使答案存在明显错误,12 名参与者中仍有两人将答案标记为首选。
—— Theregister 、 论文
发表回复