Reddit a Perplexity, ¡Quiten sus sucias manos de nuestros foros!

La red social continúa su campaña legal contra quienes usan su contenido sin licencia.

Reddit presentó el miércoles una demanda contra Perplexity AI y tres de sus presuntos distribuidores de datos por tráfico de información extraída ilegalmente.

La demanda, presentada en el Distrito Sur de Nueva York, alega que Oxylabs UAB, AWM Proxy y SerpApi eludieron ilegalmente las defensas de Reddit y Google para recopilar contenido de Reddit y resultados de búsqueda relacionados. También afirma que Perplexity optó por comprar los datos robados en lugar de licenciarlos a Reddit.

Ben Lee, director jurídico de Reddit, declaró en un comunicado por correo electrónico que las empresas de IA están desesperadas por obtener contenido de calidad generado por personas reales y que esa necesidad está impulsando una economía de lavado de datos a escala industrial.

«Los raspadores eluden las protecciones tecnológicas para robar datos y luego venderlos a clientes ávidos de material de capacitación», declaró Lee. «Reddit es un objetivo prioritario porque es una de las colecciones de conversaciones humanas más grandes y dinámicas jamás creadas».

Lee afirmó que Oxylabs UAB, una empresa de extracción de datos con sede en Lituania, AWM Proxy, una antigua botnet rusa, y SerpApi, que anuncia acceso en tiempo real a resultados de búsqueda de Google extraídos, representan ejemplos paradigmáticos de este tipo de comportamiento ilegal.

«Al no poder extraer datos de Reddit directamente, ocultan su identidad, su ubicación y camuflan sus web scrapers para robar contenido de Reddit de la Búsqueda de Google», declaró Lee. «Perplexity es un cliente dispuesto de al menos uno de estos web scrapers, que prefiere comprar datos robados en lugar de firmar un acuerdo legal con Reddit».

La denuncia de Reddit compara a estos tres proveedores con «aspirantes a ladrones de bancos que, sabiendo que no pueden acceder a la bóveda del banco, asaltan el camión blindado que transporta el dinero». Haciendo eco de la descripción de Perplexity por parte de Matthew Prince, director ejecutivo de Cloudflare, la demanda de Reddit describe a Perplexity como «más parecido a un ‘hacker norcoreano'» que hará lo que sea necesario para obtener los datos necesarios para alimentar su motor de respuestas de IA, además de pagar una licencia.

Google no participa en la demanda, pero ha intentado evitar el scraping automatizado de sus resultados de búsqueda.

La red social sostiene que los demandados han violado la Ley de Derechos de Autor del Milenio Digital de EE.UU. al eludir sus defensas tecnológicas contra el acceso automatizado a sus servidores. Y acusa específicamente a SerpApi y Oxylabs de violar la prohibición de la DMCA sobre el tráfico de productos o servicios de elusión tecnológica. Otras acusaciones incluyen competencia desleal, enriquecimiento ilícito y conspiración civil.

Reddit solicita una orden judicial para detener el scraping no deseado de su contenido y una indemnización por daños y perjuicios.

En junio, Reddit presentó una demanda similar contra Anthropic tras no lograr convencer a la empresa de IA de firmar un acuerdo de licencia de contenido como lo hizo OpenAI.

Oxylabs, que se anuncia como «la mayor red ética de proxy y soluciones avanzadas de scraping que impulsan la industria de la IA y más allá», no respondió de inmediato a una solicitud de comentarios.

«No parece que hayamos recibido ninguna comunicación ni servicio de Reddit al respecto», declaró Ryan Schafer, director de éxito de atención al cliente de SerpApi, en un correo electrónico. «Discrepamos firmemente de las acusaciones de Reddit y tenemos la intención de defendernos enérgicamente ante los tribunales. No tenemos más comentarios por el momento».

Un portavoz de Perplexity declaró a The Register: «Perplexity aún no ha recibido la demanda, pero siempre lucharemos con firmeza por el derecho de los usuarios a acceder libre y justamente al conocimiento público. Nuestro enfoque se mantiene íntegro y responsable, ya que proporcionamos respuestas objetivas con IA precisa, y no toleraremos amenazas contra la transparencia y el interés público».

Reddit no es el único que intenta defenderse del scraping de su contenido y su uso para entrenar modelos de IA sin consentimiento. Una demanda presentada el mes pasado en nombre de dos autores acusa a Apple de «utilizar Books3, un conjunto de datos de libros pirateados con derechos de autor» para entrenar sus modelos de lenguaje OpenELM. La demanda contra Apple afirma que el AppleBot de la compañía lleva nueve años extrayendo datos web y que ahora se utilizan para mejorar los modelos de Apple Intelligence.

Otro caso, Millette contra OpenAI (2024), sostiene que OpenAI extrajo ilegalmente vídeos de YouTube para mejorar sus modelos. The New York Times Co. contra Microsoft Corp., OpenAI (2023), presenta acusaciones similares respecto al supuesto uso de su contenido informativo por parte de Microsoft y OpenAI.

En agosto, la red de distribución de contenido Cloudflare denunció a Perplexity por ejecutar bots de extracción web que ignoran las directivas de no extracción de datos de los sitios web.

También podría gustarte

Firefly Aerospace eleva el rango de salida a bolsa que valoraría la compañía en más de 6 mil millones de dólares

Memoria total: Le Chat de Mistral AI ahora puede recordar tus conversaciones

Rivian fue salvado por el software en 2025