弱智吧如何成为AI优化数据集

弱智吧上大分?弱智吧友 AI 比小红书、豆瓣、知乎更聪明!

当今的 AI 模型以学习英语为主,为了使它们更好地与中国用户保持一致,中科院的研究员创建了 COIG-CQIA 数据集。该数据集收集了中文互联网上的高质量语料,包括知乎高赞回答、豆瓣影评、小红书帖子互动、弱智吧高赞贴、IT 社区问答和各种专业百科网站。

在这些数据的熏陶下,模型 Yi-34B 展现出了惊人的反差,“最弱智的 AI”不仅是最聪明的还是最文明的,它以“全学科全班级第一”的姿态遥遥领先于其他平台,并且在安全测试集上同样稳居最高分。

研究员认为这可能和弱智吧的内容风格有关,这些帖子经常包含双关语、多义词、因果颠倒和同音词,正是【既然监狱里全是罪犯,为什么不去监狱里抓人?】这类反直觉脑筋急转弯增强了模型的逻辑推理能力。

—— arXiv

更多文章

评论

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注