微闻

标签: 网络爬虫

  • Cloudflare AI Labyrinth 抗击恶意网络爬虫

    Cloudflare AI Labyrinth 抗击恶意网络爬虫

    Cloudflare 推出 AI Labyrinth 工具 以对抗恶意网络爬虫
    Cloudflare 最新推出的 AI Labyrinth 是一项免费且可选的工具,旨在应对未经授权抓取网站数据用于人工智能训练的恶意网络爬虫。该工具通过检测”不适当机器人行为”后,引导爬虫进入由人工智能生成的诱饵页面,这些页面设计精妙,能够有效减缓、混淆并消耗恶意行为者的资源。

    AI Labyrinth 的独特之处在于它并未直接阻止网络爬虫,而是巧妙地利用与网站实际数据无关的人工智能生成内容来应对。这种机制类似于”下一代蜜罐”,专门吸引人工智能驱动的爬虫不断深入跟踪虚假页面链接,而普通人类用户则不会受到此类影响。

    Cloudflare 强调,该工具不仅能够保护网站免受恶意爬虫侵害,还能帮助网站管理员更清晰地了解其内容是否被暴露给AI爬虫。这种创新性的防护方式为网站提供了更高的安全性和可见性,同时无需复杂的配置即可在 Cloudflare 的免费和付费 CDN 服务中使用。

    通过这种方式,Cloudflare 不仅提升了网络安全防护水平,也为对抗日益猖獗的 AI 网络爬虫行为提供了一种新的解决方案。

  • 字节跳动推出了激进的网络爬虫和抓取机器人

    字节跳动推出了新的网络爬虫,激进抓取网络数据

    短视频应用 TikTok 的中国母公司字节跳动在4月份发布了自己的网络爬虫或抓取机器人,名为 Bytespider。尽管 TikTok 有可能在未来几个月内在美国被禁,但字节跳动仍在积极抓取用户数据。数据显示,在过去六周内,Bytespider 的抓取活动每周都会出现大幅增长,每日请求量已经达到 GPTbot 的25倍。

    研究显示,字节跳动的机器人已迅速成为互联网上最激进的抓取工具。它抓取数据的速度是其他大公司的数倍,例如谷歌、Meta、亚马逊、OpenAI 和 Anthropic,这些公司使用自己的抓取机器人来帮助创建和改进大模型。研究显示,Bytespider 机器人并不尊重 robots.txt 文件,虽然该文件不具有任何法律约束力,但它表示抓取机器人不能获取该网站的数据。

    —— 财富

  • 《纽约时报》封杀 OpenAI 的网络爬虫

    《纽约时报》封杀 OpenAI 的网络爬虫

    《纽约时报》屏蔽了 OpenAI 的网络爬虫,这意味着 OpenAI 无法使用该出版物的内容来训练其人工智能模型。

    如果你查看《纽约时报》的 robots.txt 页面,就会发现《纽约时报》禁止使用 OpenAI 本月早些时候推出的爬虫 GPTBot。根据互联网档案馆的 Wayback Machine,纽约时报似乎早在 8 月 17 日就屏蔽了该爬虫。

    这一变化是在《纽约时报》本月初更新其服务条款以禁止使用其内容来训练人工智能模型之后发生的。据报道,《纽约时报》还在考虑对 OpenAI侵犯知识产权的行为采取法律行动。

    此前莎拉·西尔弗曼和另外两位作家在 7 月份就 OpenAI 使用 Books3 训练 ChatGPT 而起诉该公司,Books3 是一个用于训练 ChatGPT 的数据集,可能包含数千部受版权保护的作品,还有一位程序员兼律师马修·巴特里克指控该公司的数据抓取行为构成软件盗版侵权。

    —— The Verge

  • OpenAI允许阻止其网络爬虫

    OpenAI 现允许网站阻止其网络爬虫抓取数据,避免数据被用于训练 AI 模型

    OpenAI 在其博客文章中表示,网站运营者可以通过在其网站的 Robots.txt 文件中禁止 GPTBot 的访问,或者通过屏蔽其 IP 地址,来阻止 GPTBot 从其网站上抓取数据。

    GPTBot是OpenAI的网络爬虫,可以通过以下用户代理和字符串来识别。
    User agent token: GPTBot
    Full user-agent string:
    Mozilla/5.0 AppleWebKit/537.36 (KHTML, like Gecko; compatible; GPTBot/1.0; +https://openai.com/gptbot)

    禁止 GPTBot
    User-agent: GPTBot
    Disallow: /

    自定义 GPTBot 访问
    User-agent: GPTBot
    Allow: /directory-1/
    Disallow: /directory-2/

    IP 出口范围
    40.83.2.64/28

    —— OpenAI