Cloudflare bloquea los bots de IA de forma predeterminada y lanza un modelo de pago por rastreo

Cloudflare, que presta servicio a aproximadamente el 20% de los sitios web, anunció el martes que bloqueará de forma predeterminada el acceso de los bots de IA que realizan el raspado web a dichos sitios.

A menos que un sitio web desactive explícitamente esta opción, un rastreador de IA deberá obtener permiso del sitio web para raspar su contenido. Los propietarios de sitios web pueden elegir si desean que los rastreadores de IA accedan a su contenido y cómo las empresas de IA pueden usarlo, explicó Cloudflare en un comunicado.

Las empresas de IA ahora pueden indicar claramente su propósito (si sus rastreadores se utilizan para entrenamiento, inferencia o búsqueda) para ayudar a los propietarios de sitios web a decidir qué rastreadores permitir.

Cloudflare explicó que durante décadas, internet ha funcionado con un simple intercambio: los motores de búsqueda indexan el contenido y redirigen a los usuarios a los sitios web originales, generando tráfico e ingresos publicitarios para sitios web de todos los tamaños. Este ciclo recompensa a los creadores que producen contenido de alta calidad con una compensación financiera y un número creciente de seguidores, a la vez que ayuda a los usuarios a descubrir información nueva y relevante.

Ese modelo ya no funciona, continuó. Los rastreadores de IA recopilan contenido como texto, artículos e imágenes para generar respuestas, sin dirigir a los visitantes a la fuente original, lo que priva a los creadores de contenido de ingresos y de la satisfacción de saber que alguien está viendo su contenido. Si desaparece el incentivo para crear contenido original y de alta calidad, la sociedad pierde y el futuro de internet está en riesgo.

«Si internet va a sobrevivir a la era de la IA, necesitamos dar a los editores el control que merecen y construir un nuevo modelo económico que funcione para todos: creadores, consumidores, los futuros fundadores de IA y el futuro de la propia web», declaró Matthew Prince, cofundador y director ejecutivo de Cloudflare.

«El contenido original es lo que convierte a internet en uno de los mayores inventos del siglo pasado, y es esencial que los creadores sigan creándolo», continuó. «Los rastreadores de IA han estado extrayendo contenido sin límites. Nuestro objetivo es devolver el poder a los creadores y, al mismo tiempo, ayudar a las empresas de IA a innovar. Se trata de salvaguardar el futuro de una internet libre y dinámica con un nuevo modelo que funcione para todos».

Modelo de Pago por Rastreo para el Acceso a la IA.

Además de bloquear el scraping de bots de IA por defecto, Cloudflare también anunció el Pago por Rastreo, que permite a los propietarios de sitios web elegir, individualmente, que los rastreadores de IA rasquen su sitio a una tarifa fija: un micropago por cada rastreo.

«El objetivo principal de Cloudflare es ayudar a los propietarios y editores de sitios web a decidir qué rastreadores pueden acceder a su contenido y crear las condiciones para el desarrollo de un mercado», declaró Will Allen, Director de Control de IA, Privacidad y Productos Multimedia de Cloudflare.

«Con el desarrollo del Pago por Rastreo», añadió, «Cloudflare está experimentando con una forma de ayudar a los creadores de contenido a recibir una compensación por sus contribuciones a la economía de la IA. El Pago por Rastreo permitirá a los creadores controlar el acceso y recibir una compensación, lo que garantiza que las empresas de IA puedan utilizar el contenido de calidad correctamente, con permiso y compensación».

“Personalmente, me gusta la idea de un modelo de pago por rastreo”, comentó Jason Dion, director de producto y fundador de Akylade, proveedor de certificaciones de ciberseguridad, en Altamonte Springs, Florida. “Es similar a usar una API y pagar por lo que se utiliza”.

“Al igual que ChatGPT cobra a los usuarios fracciones de centavo por token, se podría utilizar un modelo similar para compensar a los sitios web que optan por el scraping de su contenido”, explicó.

“Gestionar la compensación para los creadores en un mundo aumentado por IA es un tema delicado”, añadió Allie Mellen, analista sénior de Forrester Research, una empresa nacional de investigación de mercados con sede en Cambridge, Massachusetts.

“Esta es una posible solución; sin embargo, no está claro cómo los proveedores de IA gestionarán este coste o si buscarán scraping de contenido en otros lugares”, declaró. “También podría resultar en que a algunos sitios web muy confiables se les ofrezca una compensación por rastreo, mientras que otros se estanquen”.

Sin embargo, Andy Jung, asesor asociado de TechFreedom, un grupo de defensa de la tecnología en Washington, D.C., argumentó que las empresas de IA podrían conformarse con el sistema de Pago por Rastreo sin mucha resistencia para asegurarse de no ser acusadas de “piratear” contenido, como ocurrió con Anthropic en el caso Bartz contra Anthropic.

“Las empresas de IA podrían aceptar pagar por rastrear sitios web solo para evitar que los propietarios de sitios web comparen el rastreo gratuito con la piratería, lo que genera dudas sobre los datos que las empresas de IA utilizan para entrenar sus modelos”, declaró.

Posiblemente un gran acuerdo.

Greg Sterling, cofundador de Near Media, una firma de investigación de mercado con sede en San Francisco, argumentó que la decisión de Cloudflare es “potencialmente un gran acuerdo”, ya que la compañía gestiona aproximadamente el 20% de internet y un tercio de los sitios web de mayor perfil.

“Es un esfuerzo por recuperar el poder y dar a los editores control sobre si la IA utiliza su contenido y cómo lo hace, y busca compensarlos en un momento de disminución del tráfico y los clics, lo que pone en riesgo sus modelos de negocio”, declaró, “pero es posible que, en última instancia, no tenga un impacto significativo en la IA”.

“Queda por ver cuántos sitios web optan por utilizar esto”, concluyó. Existe un posible problema de FOMO (miedo a perderse algo) o dilema del prisionero que beneficia a las empresas de IA: «Si no estoy presente, mi competencia sí lo estará».

«Sin embargo, sigue siendo un paso importante que podría cambiar los términos del debate y la dinámica de poder entre los editores de contenido y las plataformas de IA», añadió.

En el comunicado de Cloudflare, se enumeraron más de 50 empresas que apoyan un modelo basado en permisos para el rastreo web con IA, entre ellas Adweek, The Associated Press, The Atlantic, BuzzFeed, Condé Nast, Fortune, Gannett Media, O’Reilly Media, Pinterest, Reddit, Sky News Group, Snopes, Time, Universal Music Group y Ziff Davis.

Mark N. Vena, presidente y analista principal de SmartTech Research en Las Vegas, sostuvo que el rastreo web de IA basado en permisos podría ser un obstáculo importante para las empresas de IA, especialmente para aquellas que dependen del scraping de cantidades masivas de datos web para entrenar sus modelos.

«Si grandes franjas de internet se vuelven inaccesibles para los bots de la noche a la mañana, se limita la diversidad y la frescura de los datos de entrenamiento», declaró. «Las grandes empresas podrían optar por más acuerdos de licencia, pero las startups más pequeñas podrían verse en apuros».

Rob Enderle, presidente y analista principal de Enderle Group, una firma de servicios de asesoría en Bend, Oregón, señaló que la estrategia de permisos de Cloudflare afectará significativamente tanto a los actores establecidos como a los nuevos del mercado. «Para las IA existentes que ya cuentan con sus conjuntos de entrenamiento, esto reducirá su capacidad para mantenerse al día», declaró. «Para las IA nuevas, esto podría reducir sus conjuntos de entrenamiento iniciales, lo que reducirá el rendimiento del resultado».

“También parece que están siendo creativos para abordar la pérdida de ingresos por IA y lo que muchos consideran un robo de datos”, añadió. “Este esfuerzo aún es incipiente y preveo que evolucionará significativamente con el paso de los años, pero es un comienzo impresionante”.

Equilibrando la innovación en IA con el control de contenido.

Matt Mittelsteadt, investigador de políticas tecnológicas del Cato Institute, un centro de estudios de Washington, D.C., señaló que podría haber beneficios de seguridad para los sitios web que utilizan el sistema basado en permisos de Cloudflare.

“Un enfoque basado en permisos es una mejora respecto al modelo actual del Viejo Oeste”, declaró. “Tal como está, el scraping sin permisos ha puesto a prueba la capacidad de los proveedores de contenido para mantener el control sobre su propiedad digital. Sin embargo, pronto los permisos cobrarán aún más importancia”.

“Si los agentes de IA se convierten en una realidad”, afirmó, “será crucial construir una infraestructura que pueda gestionar, controlar y autenticar bots si los sitios web desean minimizar los riesgos de seguridad de bots maliciosos o defectuosos, o garantizar las preferencias de ancho de banda para los usuarios humanos”.

Daniel Castro, vicepresidente de la Fundación de Innovación y Tecnología de la Información, una organización de investigación y políticas públicas con sede en Washington, D.C., argumentó que la decisión de Cloudflare de bloquear de manera predeterminada los bots de IA para que no rastreen sitios web podría tener un impacto significativo en el ecosistema de IA.

“Muchas empresas de IA buscan activamente acceso a información confiable y de alta calidad para entrenar y refinar sus modelos; a veces pagan por ello, pero a menudo dependen de datos públicos”, declaró. “Al bloquear estos rastreadores por defecto, Cloudflare corre el riesgo de limitar el acceso a esa información pública, especialmente para las empresas que son transparentes en sus prácticas y respetan las preferencias del sitio web”.

“Si bien los propietarios de sitios web tienen todo el derecho a controlar el acceso a su contenido, restringir el acceso generalizado a los datos web podría, en última instancia, disminuir la precisión y la calidad de los sistemas de IA”, continuó. “Con el tiempo, esto podría perjudicar a los usuarios que dependen de las herramientas de IA para resumir, interpretar o analizar información en línea. Mientras tanto, actores menos escrupulosos pueden simplemente eludir las restricciones etiquetando incorrectamente a los rastreadores o obteniendo los datos de agregadores externos”.

Castro añadió que el modelo de pago por rastreo es un intento interesante de abordar la tensión entre la demanda de IA y el control de los editores. Aun así, los micropagos por rastreos individuales podrían no ser viables a gran escala. “El valor de los datos de entrenamiento reside en su amplitud, no en una fuente específica, por lo que este modelo podría beneficiar principalmente a los intermediarios de pago, en lugar de a los propietarios de sitios web o a los desarrolladores de IA”, explicó.

“En definitiva, estas medidas ponen de relieve un desafío más amplio: equilibrar la innovación con el control”, afirmó. “Si nos inclinamos demasiado hacia la restricción del acceso, podríamos socavar la web abierta y el potencial de la IA para servir al interés público”.

También podría gustarte

Yangwang U9 Xtreme es el auto eléctrico de producción más rápido del mundo: 496,22 km/h

La esfera de influencia: cómo Lenovo trajo la visión de vuelta al CES

Los bufetes de abogados lidian con la lógica jurídica alucinada y la IA en la sombra