微闻

标签: 数据分析

  • DeepSeek模型与审查有关

    DeepSeek 的模型回避与中国有关敏感话题

    中国 AI 聊天机器人 DeepSeek 近期登顶应用商店排行榜,其是中国对冲基金幻方量化的子公司,该模型性价比令人印象深刻。然而,越来越多的报告记录了该 AI 聊天机器人不愿讨论某些事情,包括天安门与台湾等敏感话题。这一点甚至在开源模式下也得到体现,引发了对审查和其他影响的担忧。

    安全公司 PromptFoo 新报告发现 DeepSeek 的 R1 推理模型拒绝回答1360个敏感话题“提示”中的约85%,而该模型的预设回答充斥着“过度的民族主义语气”。未被拒绝的约15%提示通常不够针对中国。敏感提示的完整数据集已发布在 Hugging Face 上。研究人员还指出,DeepSeek 很容易被越狱,这表明该公司以生硬的方式实施了中国审查制度。

    —— TechCrunch

  • GitHub虚假Star数量有多大?

    研究发现 GitHub 上有310万余个虚假 Stars

    研究人员开发并使用了“StarScout”工具来分析来自“GHArchive”的 20TB 数据,以查找虚假的 Stars。GHArchive 包含2019年7月至2024年10月期间超过 60 亿个 GitHub 事件的元数据,其中包括 3.1 亿个存储库上的 6050 万个用户操作和 6.1 亿个 Stars。StarScout 可检测在 GitHub 上活动极少的用户,例如关注单个存储库、具有机器人或临时帐户活动模式的用户,以及协同行动的帐户组。

    他们的方法基于 CopyCatch 算法,该算法旨在检测社交网络中的欺诈模式。通过应用低活动和锁步签名算法处理数据以识别存储库中的可疑 Stars 后,研究小组在 22915 个存储库中发现了由 132 万个账户给出了 453 万个疑似虚假 Stars。研究人员通过仅考虑在一个月内 Stars 活动出现显着异常高峰的存储库,以及假 Stars 数量占 Stars 总数的 10% 以上的存储库,过滤掉了潜在的误报。这样一来,结果就减少到 27.8 万个账户向 15,835 个存储库给出的 310 万个假 Stars。

    —— BleepingComputer

  • 苹果音乐推出2024年度回顾

    苹果音乐推出2024年度回顾 可应用内查看

    Apple Music 的年度听歌报告回归,这一次可以直接在应用内查看和分享。如果用户的 iPhone 运行的是 iOS 18.1 或更高版本,可以直接从主页、新内容和搜索标签中查看。否则只能像以前一样通过 Apple Replay 网站查看年度统计数据。苹果为 Replay 2024 增加了一些新见解,包括你是否进入了特定流派或艺术家的前500名或1000名听众名单。此外,还将显示连续使用 Apple Music 的最长时间,以及2024年每个月的顶级艺术家、专辑和歌曲。您还可以查看连续几个月收听的最喜欢的艺术家的作品,以及找出开始收听年度最佳歌曲、艺人或专辑的日期。

    —— TheVerge

  • 纽约时报软件开发者和数据分析师罢工

    纽约时报600位技术员工在选举日前宣布罢工

    代表约600位《纽约时报》软件开发者和数据分析师等员工的“纽约时报科技工会”于周一早些时候开始罢工,此时正值选举日新闻报道高峰期。劳资双方谈判一直持续到周日晚些时候,目前的主要焦点在于员工是否可以在合同中获得“正当理由”条款,这意味着员工只能因不当行为或其他类似原因被解雇;加薪和薪酬公平;以及重返办公室的政策。

    《纽约时报》管理层在周日发给员工的电子邮件中表示,他们已提出每年加薪 2.5%,晋升至少加薪 5%,并给予 1,000 美元的签字奖金。该公司还表示,至少到 2025 年 6 月,公司将维持目前每周两天在办公室工作的要求,同时允许员工每年三周完全远程工作。

    —— 纽约时报

  • Gemini 数据分析能力不足

    Gemini 数据分析能力并不像宣称的那么好

    谷歌 AI 模型 Gemini 1.5 Pro 和 1.5 Flash 据称能够凭借其“长上下文”完成以前不可能完成的任务,例如总结数百页的文档或搜索电影镜头中的场景。但新的研究表明,这些模型实际上在这些方面并不是很擅长。两项独立研究调查了 Gemini 模型和其他模型如何很好地理解大量数据。两项研究都发现 Gemini 1.5 Pro 和 1.5 Flash 很难正确回答有关大型数据集的问题;在一系列基于文档测试中,这些模型给出正确答案的概率只有40%到50%。

    马萨诸塞大学阿默斯特分校博士后、其中一项研究的合著者 Marzena Karpinska 说:“虽然像 Gemini 1.5 Pro 这样的模型在技术上可以处理长篇上下文,但我们已经看到许多案例表明,这些模型实际上并不‘理解’内容。”

    —— Techcrunch

  • 思科收购Splunk

    思科完成对 Splunk 的280亿美元收购,大手笔押注人工智能

    当地时间周一,思科系统完成了对网络安全和分析公司 Splunk 的280亿美元全现金收购。这笔交易是思科历史上规模最大的一笔交易,比预期提前了几个月完成。思科首席执行官罗卓克和前 Splunk 首席执行官 Gary Steele (现为思科执行副总裁) 在接受采访时表示,人工智能将深深融入合并后的公司,他们认为目前的商业人工智能浪潮没有放缓或逆转的迹象。合并后的公司将利用人工智能帮助客户在来自不同供应商平台的智能之间建立相关性,以便他们可以采取更具预测性的网络安全方法。

    —— 华尔街日报

  • Sensor Tower收购Data.ai

    应用分析公司 Sensor Tower 收购竞争对手 Data.ai。

    领先的应用分析公司 Sensor Tower 正在收购竞争对手 Data.ai,此举旨在巩固移动智能行业,打造一家能够主导该行业并为应用经济提供极具竞争力的洞察的强大企业。两家公司都帮助企业和开发人员深入了解移动应用程序的表现,提供下载量、活跃用户、应用内收入、特定人群吸引力和竞争基准的估算。Sensor Tower 没有披露收购有关的财务信息。

    —— TechCrunch

  • BOT 流量来源分布

    BOT 流量来源分布

    CloudFlare 年报:全球网络 BOT 流量三分之一来自美国,超 11% 来自AWS

    在全球范围内,近 12% 的机器人流量来自 Amazon Web Services,超过 7% 来自 Google。其中一些也来自消费者 ISP,其中美国宽带提供商康卡斯特 (Comcast) 的机器人流量占全球机器人流量的 1.5% 以上。

    不成比例的机器人流量来自美国,占全球机器人流量的近三分之一,是德国的四倍,而德国仅占 8%。在美国,亚马逊在机器人流量中所占的总份额仅略高于谷歌。

    —— CloudFlare

  • YouTube开始在分享链接中添加跟踪参数

    YouTube开始在分享链接中添加跟踪参数

    YouTube 跟进国内视频网站开始在分享链接中添加跟踪参数

    YouTube 视频分享链接现在将在末尾包含一个 SI 源 ID,如果你在其他非谷歌平台上共享链接,则该 ID 是你帐号独有的。

    所以请务必删除从“si=”开始的所有内容,否则很容易追踪到你的谷歌账号。跟踪参数的加入最早可以追溯到今年九月中旬。

    —— Hacker News

  • YT Music 推出 2023 年度回顾

    YT Music 推出 2023 年度回顾

    YouTube Music 推出 2023 年度回顾

    继 Apple Music 和 Spotify 之后,YT Music 的 2023 年度回顾也将推出。

    在 Android 或 iOS 上,点击右上角的个人资料头像,然后打开“您的 Recap”。点击“揭晓你的 Recap ”即可获取完整故事

    YTM 首先记录你在 2023 年听了多少分钟的音乐和不同艺术家的音乐。你可以获得排名前五的音乐家的更多详细信息,包括时长、歌曲、“最长的连续收听时间”。

    —— 9to5google