标签: 训练数据

  • GPT-4o中文语料训练数据被赌博诈骗和色情内容污染

    GPT-4o的中文语料训练数据被赌博诈骗和色情内容污染

    OpenAI 发布 GPT-4o 后不久,一些中文用户开始注意到这个最新版本的聊天机器人似乎有些不对劲,它用来解析文本的词块充满了垃圾内容和色情短语。人类以单词为单位进行阅读,而 LLM 则以词块(Token)为单位进行阅读,词块是句子中的不同单位,具有一致且重要的含义。模型编码的词块越多,“读取 ”句子的速度就越快,消耗的计算能力就越少,从而降低了响应的成本。

    多名研究过 GPT-4o 使用的新词块库的研究人员表示,中文里最长的词块几乎都是用于色情、赌博和诈骗的垃圾词。甚至更短的词块,例如三个字长的中文单词,也在很大程度上反映了这些主题。

    “问题很明显,用于训练[分词器]的语料库不干净。英文词块看起来不错,但中文词块就不行了,”普林斯顿大学的蔡天乐说。语言模型在收集训练数据时抓取垃圾信息的情况并不罕见,但通常会在使用数据之前花费大量精力来清理数据。 “他们可能没有对中文进行适当的数据清理,”他说。

    —— 麻省理工科技评论 (节选)

  • OpenAI 首席技术官谈判 Sora 训练数据

    OpenAI CTO 表示她不知道 Sora 的训练数据来自哪里

    人工智能公司 OpenAI 的首席技术官米拉·穆拉蒂本周与《华尔街日报》的乔安娜·斯特恩坐下来讨论了该公司即将推出的视频生成人工智能 Sora。10分钟的采访进行到一半时,斯特恩直截了当地问穆拉蒂新模型的训练数据是从哪里收集的。但穆拉蒂目光闪烁以模糊的公司语言回答了这个问题。“我们使用了公开数据和许可数据,”穆拉蒂回答了这个极其简单的问题。斯特恩用更具体的来源示例反驳道:“那么,YouTube 上的视频?”“你知道,如果它们是公开可用的——公开可用,”首席技术官回答道,“但我不确定。我对此没有信心。”随后,斯特恩询问了 OpenAI 与 Shutterstock 的数据训练合作情况,询问是否被纳入了 Sora 的训练材料中。“关于使用数据的细节,我是不会详细说的,”穆拉蒂继续说道。“但我们用的数据肯定是公开的,或者许可使用的。”

    —— 华尔街日报

  • 微软人工智能训练数据意外暴露

    微软人工智能研究人员在 GitHub 上发布开源训练数据时,意外暴露了数十 TB 的敏感数据,包括私钥和密码

    在与 TechCrunch 分享的研究中,云安全初创公司 Wiz表示,作为其对云端数据意外暴露问题的持续研究的一部分,他们发现了一个属于微软人工智能研究部门的 GitHub 存储库。

    该 GitHub 存储库提供了用于图像识别的开源代码和 AI 模型,访问者被指示从 Azure 存储 URL 下载模型。然而,Wiz 发现该 URL 被配置为授予整个存储帐户的权限,从而错误地暴露了其他私人数据。

    这些数据包括 38 TB 的敏感信息,其中包括两名 Microsoft 员工个人计算机的个人备份。这些数据还包含其他敏感个人数据,包括 Microsoft 服务的密码、密钥以及来自数百名 Microsoft 员工的 30,000 多条内部 Microsoft Teams 消息。

    据 Wiz 称,该 URL 自 2020 年起就暴露了这些数据,该 URL 也被错误配置为允许“完全控制”而不是“只读”权限,这意味着任何知道在哪里查看的人都可能删除、替换和注入恶意内容内容进入其中。

    Wiz 指出,存储帐户并未直接公开。相反,Microsoft AI 开发人员在 URL 中包含了过于宽松的共享访问签名 (SAS) 令牌。SAS 令牌是 Azure 使用的一种机制,允许用户创建可共享链接,授予对 Azure 存储帐户数据的访问权限。

    Wiz 表示,它于 6 月 22 日与微软分享了调查结果,两天后,即 6 月 24 日,微软撤销了 SAS 令牌。微软表示,它于 8 月 16 日完成了对潜在组织影响的调查。

    —— TechCrunch