标签: 数据处理

  • Gemini 数据分析能力不足

    Gemini 数据分析能力并不像宣称的那么好

    谷歌 AI 模型 Gemini 1.5 Pro 和 1.5 Flash 据称能够凭借其“长上下文”完成以前不可能完成的任务,例如总结数百页的文档或搜索电影镜头中的场景。但新的研究表明,这些模型实际上在这些方面并不是很擅长。两项独立研究调查了 Gemini 模型和其他模型如何很好地理解大量数据。两项研究都发现 Gemini 1.5 Pro 和 1.5 Flash 很难正确回答有关大型数据集的问题;在一系列基于文档测试中,这些模型给出正确答案的概率只有40%到50%。

    马萨诸塞大学阿默斯特分校博士后、其中一项研究的合著者 Marzena Karpinska 说:“虽然像 Gemini 1.5 Pro 这样的模型在技术上可以处理长篇上下文,但我们已经看到许多案例表明,这些模型实际上并不‘理解’内容。”

    —— Techcrunch

  • 苹果计划在虚拟黑匣子中处理人工智能数据

    苹果人工智能服务器将使用“机密计算”技术来处理数据 保护用户隐私

    据四名参与该项目的前苹果员工称,苹果公司计划在虚拟黑匣子中处理来自人工智能应用程序的数据,使其员工无法访问这些数据。过去三年来,该公司一直在开展一个秘密项目,内部称为“苹果数据中心芯片”(ACDC),该项目将允许进行此类黑匣子处理。其方法在概念上类似于“机密计算”,这是一个行业术语,意味着即使在处理数据时,数据也是保密的。借助“机密计算”方法,苹果公司将能够在云端处理人工智能相关数据,同时即使在数据泄露的情况下,黑客也很难解密访问数据。这还将减轻苹果公司在政府或执法部门要求时必须交出其服务器中的个人数据的负担。

    —— The Information

  • Gmail中的新矢量算法

    Gmail中部署的新矢量算法将大幅度提高垃圾和钓鱼邮件的识别率

    Google最近在 Google Colab 上开源了一个名为 RETVec 的新型多语言文本矢量化器,这个矢量化器已经部署在 Gmail 上,用来提升垃圾邮件和钓鱼邮件的识别率,同时降低误报率。

    为什么要训练这样一种模型呢?因为 Gmail 每天收发的邮件都在千万级别,如果包含各类垃圾邮件的话可能有几十亿,而垃圾邮件制造者会对Google的检测系统进行规避,例如使用同形字。

    根据Google自己的统计,将 RETVec 应用到 Gmail 后,垃圾邮件检测率比基准提高 38%、误报率降低 19.4%、张量处理单元 (TPU) 使用率降低了 83%。

    —— cnBeta

  • 应用程序数据处理活动加强风险监测

    国家网信办:开展应用程序数据处理活动应加强风险监测,不得危害国家安全、公共利益

    国家互联网信息办公室发布《移动互联网应用程序信息服务管理规定(征求意见稿)》。

    其中提到,开展应用程序数据处理活动,应当履行数据安全保护义务,建立健全全流程数据安全管理制度,采取保障数据安全技术措施和其他安全措施,加强风险监测,不得危害国家安全、公共利益,不得损害个人、组织的合法权益。

    查看意见稿全文(Archive互联网档案馆快照)