人工智能机器人受害者的新救星:Cloudflare 的新工具让网站为数据抓取收费

2024-09-24 01:16:03 UTC
人工智能机器人受害者的新救星:Cloudflare 的新工具让网站为数据抓取收费

Cloudflare的工具使网站能够对人工智能机器人的访问进行把关,并对内容使用进行收费,希望以此打击未经授权的搜刮行为。

总部位于旧金山的云服务公司Cloudflare周一推出了一套新的人工智能工具,旨在让网站有能力阻止人工智能爬虫未经授权的搜刮行为,或者向它们收取数据访问费用。

"Cloudflare副总裁萨姆-雷亚(Sam Rhea)告诉Decrypt:"我们今天预览的是,网站所有者和互联网出版物能够说'这是我期望从我的网站获得的价值'。"如果你是一名人工乐虎国际手机版下载专家,你想扫描这些内容或针对这些内容进行训练,或将其作为搜索结果的一部分,这就是我期望为此获得的价值。"

免费的 Cloudflare Bot Management 平台不仅可以让网站阻止人工智能机器人,还可以向他们批准的机器人收取一定的费用,从而为免费享用其内容的平台获得收入。

人工智能审计工具还能让用户看到其内容是如何被访问的。

正如雷亚所解释的,恶意机器人会试图让网站崩溃,或在试图访问网站的人类客户之前插队,而人工智能爬虫则不同,它们的目的不是伤害或窃取,而是扫描公共内容以训练大型语言模型。

雷亚说,有时这些机器人会将信息归因于源头,似是而非地发送有价值的流量。"但在其他时候,它们会获取素材,将其放入搅拌机中,然后在没有任何引用的情况下,将其作为通用来源的一部分进行分享。在我看来,这很危险。

雷亚说,就为网站提供安全和性能优化服务的 Cloudflare 公司而言,没有任何一个平台主导着网站搜刮活动,并补充说,在任何特定时间,搜刮活动都因被搜刮内容的类型而异。

生成式人工智能模型需要大量数据才能运行,并试图提供快速准确的答案,以及创建图像、视频和音乐。AI scrapers 是一个不断发展的行业,包括 LAION、Defined.AI、Aleph Alpha 和 Replicate 等公司,它们为 AI 开发人员提供预先收集的文本、语音和图像数据集。根据市场研究公司 Research Nester 的预测,到 2036 年,网络搜刮软件行业的规模将达到 24.5 亿美元。

去年,Stability AI 公司前音频主管埃德-纽顿-雷克斯(Ed Newton-Rex)因人工智能平台声称摄取网站数据属于 "合理使用 "而辞职。

"'合理使用'在设计时并没有考虑到生成式人工智能--在我看来,以这种方式训练生成式人工智能模型是错误的,"他说。"价值数十亿美元的公司在未经许可的情况下,在创作者的作品上训练生成式人工智能模型,这些模型随后被用来创作新的内容,在很多情况下可以与原创作品竞争。"

纽顿-雷亚还说:"我不明白,在一个为创意艺术设定了经济学,让创作者依赖版权的社会里,这怎么可能被接受。"

雷亚说,小型人工智能开发者似乎愿意付费接收选定的网站内容。

他说:"从我们与基础模型提供商和该领域新进入者的对话来看,高质量数据的海洋正变得越来越难找,"他指出,科学和数学内容的需求尤其大。

编辑:Josh Quittner 和 Sebastian Sinclair

Source: decrypt.co

Related News

More News

© 2025 DeFi.io