标签: 网络爬虫

  • 字节跳动推出了激进的网络爬虫和抓取机器人

    字节跳动推出了新的网络爬虫,激进抓取网络数据

    短视频应用 TikTok 的中国母公司字节跳动在4月份发布了自己的网络爬虫或抓取机器人,名为 Bytespider。尽管 TikTok 有可能在未来几个月内在美国被禁,但字节跳动仍在积极抓取用户数据。数据显示,在过去六周内,Bytespider 的抓取活动每周都会出现大幅增长,每日请求量已经达到 GPTbot 的25倍。

    研究显示,字节跳动的机器人已迅速成为互联网上最激进的抓取工具。它抓取数据的速度是其他大公司的数倍,例如谷歌、Meta、亚马逊、OpenAI 和 Anthropic,这些公司使用自己的抓取机器人来帮助创建和改进大模型。研究显示,Bytespider 机器人并不尊重 robots.txt 文件,虽然该文件不具有任何法律约束力,但它表示抓取机器人不能获取该网站的数据。

    —— 财富

  • 《纽约时报》封杀 OpenAI 的网络爬虫

    《纽约时报》封杀 OpenAI 的网络爬虫

    《纽约时报》屏蔽了 OpenAI 的网络爬虫,这意味着 OpenAI 无法使用该出版物的内容来训练其人工智能模型。

    如果你查看《纽约时报》的 robots.txt 页面,就会发现《纽约时报》禁止使用 OpenAI 本月早些时候推出的爬虫 GPTBot。根据互联网档案馆的 Wayback Machine,纽约时报似乎早在 8 月 17 日就屏蔽了该爬虫。

    这一变化是在《纽约时报》本月初更新其服务条款以禁止使用其内容来训练人工智能模型之后发生的。据报道,《纽约时报》还在考虑对 OpenAI侵犯知识产权的行为采取法律行动。

    此前莎拉·西尔弗曼和另外两位作家在 7 月份就 OpenAI 使用 Books3 训练 ChatGPT 而起诉该公司,Books3 是一个用于训练 ChatGPT 的数据集,可能包含数千部受版权保护的作品,还有一位程序员兼律师马修·巴特里克指控该公司的数据抓取行为构成软件盗版侵权。

    —— The Verge

  • OpenAI允许阻止其网络爬虫

    OpenAI 现允许网站阻止其网络爬虫抓取数据,避免数据被用于训练 AI 模型

    OpenAI 在其博客文章中表示,网站运营者可以通过在其网站的 Robots.txt 文件中禁止 GPTBot 的访问,或者通过屏蔽其 IP 地址,来阻止 GPTBot 从其网站上抓取数据。

    GPTBot是OpenAI的网络爬虫,可以通过以下用户代理和字符串来识别。
    User agent token: GPTBot
    Full user-agent string:
    Mozilla/5.0 AppleWebKit/537.36 (KHTML, like Gecko; compatible; GPTBot/1.0; +https://openai.com/gptbot)

    禁止 GPTBot
    User-agent: GPTBot
    Disallow: /

    自定义 GPTBot 访问
    User-agent: GPTBot
    Allow: /directory-1/
    Disallow: /directory-2/

    IP 出口范围
    40.83.2.64/28

    —— OpenAI