GitHub虚假Star数量有多大?

研究发现 GitHub 上有310万余个虚假 Stars

研究人员开发并使用了“StarScout”工具来分析来自“GHArchive”的 20TB 数据,以查找虚假的 Stars。GHArchive 包含2019年7月至2024年10月期间超过 60 亿个 GitHub 事件的元数据,其中包括 3.1 亿个存储库上的 6050 万个用户操作和 6.1 亿个 Stars。StarScout 可检测在 GitHub 上活动极少的用户,例如关注单个存储库、具有机器人或临时帐户活动模式的用户,以及协同行动的帐户组。

他们的方法基于 CopyCatch 算法,该算法旨在检测社交网络中的欺诈模式。通过应用低活动和锁步签名算法处理数据以识别存储库中的可疑 Stars 后,研究小组在 22915 个存储库中发现了由 132 万个账户给出了 453 万个疑似虚假 Stars。研究人员通过仅考虑在一个月内 Stars 活动出现显着异常高峰的存储库,以及假 Stars 数量占 Stars 总数的 10% 以上的存储库,过滤掉了潜在的误报。这样一来,结果就减少到 27.8 万个账户向 15,835 个存储库给出的 310 万个假 Stars。

—— BleepingComputer

更多文章

评论

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注