标签: 数据采集

  • 字节跳动推出了激进的网络爬虫和抓取机器人

    字节跳动推出了新的网络爬虫,激进抓取网络数据

    短视频应用 TikTok 的中国母公司字节跳动在4月份发布了自己的网络爬虫或抓取机器人,名为 Bytespider。尽管 TikTok 有可能在未来几个月内在美国被禁,但字节跳动仍在积极抓取用户数据。数据显示,在过去六周内,Bytespider 的抓取活动每周都会出现大幅增长,每日请求量已经达到 GPTbot 的25倍。

    研究显示,字节跳动的机器人已迅速成为互联网上最激进的抓取工具。它抓取数据的速度是其他大公司的数倍,例如谷歌、Meta、亚马逊、OpenAI 和 Anthropic,这些公司使用自己的抓取机器人来帮助创建和改进大模型。研究显示,Bytespider 机器人并不尊重 robots.txt 文件,虽然该文件不具有任何法律约束力,但它表示抓取机器人不能获取该网站的数据。

    —— 财富

  • Twitter要求研究人员删除其采集的数据,除非支付 42,000 美元

    Twitter 要求研究人员删除采集的所有数据,除非支付 42,000 美元

    学术研究人员已被设定为本月底的最后期限,以删除他们根据研究Twitter 的历史合同获得的数据,除非他们支付一份每月 42,000 美元的新合同。

    多年来,Twitter 一直提供对一项名为decahose的学术访问服务,可以从 Twitter 的所有推文中抽取 10% 的随机样本,该服务始终在线。通过 Twitter API访问的 decahose 是一种专门供学术界使用的工具,旨在让他们监控社交媒体平台上的对话是如何发生的。

    研究人员使用这些数据来跟踪 Twitter 上的一整天,分析虚假信息和错误信息的传播,并跟踪极端主义的兴起以及它如何渗透到线下生活中。

    但最近几周,该公司一直在联系研究人员,要求他们每月支付 42,000 美元,以访问发布到该平台的所有推文的 0.3%——研究人员此前曾表示,这是完全无法负担的。以前的数据访问合同设定为每月几百美元。

    一封电子邮件表示不签署新合同的研究人员“将需要删除您系统中存储和缓存的所有 Twitter 数据”。研究人员将被要求提交“展示删除证据”的屏幕截图。他们在协议到期后有 30 天的时间来完成该过程。

    —— iNews