没有授权也阻止不了，多家公司绕过网络标准抓取出版商网站内容

依孜科技创新 2024-08-13 603 0 马达加斯加1

IT之家6月24日消息，没有授权也阻止不了，多家公司绕过网络标准抓取出版商网站内容据路透社上周六报道，专注于“内容许可”领域的初创公司TollBit近日向新闻出版商发出警告称，多家人工智能公司正在规避出版商用来阻止抓取内容的常见网络标准，并将抓取的内容用于训练生成式AI系统。

这一消息是在AI搜索初创公司Perplexity与媒体《福布斯》之间就同一网络标准公开争执的背景下发出的。当前，科技和媒体公司之间正在就生成式AI时代的内容价值展开更广泛的辩论。

Tollbit将自己定位为内容匮乏的AI公司与愿意与他们达成重大许可协议的出版商之间的“媒人”。

IT之家注：《福布斯》曾指责Perplexity在AI生成的摘要中剽窃其报道内容，然而前者并未标注消息来源，也没有获得《福布斯》的许可。

另外，《连线》（Wired）杂志上周也发表了一篇调查报道并指出，Perpexity可能绕过了（新闻出版商设置的）“机器人排除协议（RobotsExclusionProtocol）”或其他阻止网络爬虫的程序。

图源Pexels

自称代表2000多家美国出版商的贸易组织“新闻媒体联盟”也对这一行为表示担忧——AI公司对出版商设置的“禁止抓取”机制或“robots.txt”等工具置若罔闻。该组织主席DanielleCoffey表示，“如果AI公司无法停止大规模抓取的话，我们就无法通过有价值的内容获利，也无法为记者们支付报酬。”

Tollbit表示，Perplexity并不是唯一无视出版商网站“禁止抓取”机制的违规者。根据其分析，“大量”AI平台绕过了这一机制，而该机制为AI平台抓取自家内容设置了一份“白名单”——指示其网站哪些部分可以被抓取。

“这意味着，来自多个来源（而不仅仅是一家公司）的AI平台正在选择绕过robots.txt协议来从网站中检索内容，”TollBit写道，“我们获取的出版商日志越多，这种模式出现的次数就越多。”

包括《纽约时报》在内的一些出版商已就这些侵权行为起诉AI公司。其他出版商则与人工智能公司签署了许可协议，AI公司们也愿意为内容付费，尽管双方往往对材料的价值存在分歧。许多AI开发者认为，他们免费获取内容并未违反任何法律。

免责声明：本网站部分内容由用户自行上传，若侵犯了您的权益，请联系我们处理，谢谢！联系QQ：2760375052