Como casi todas las demás empresas tecnológicas existentes, Adobe se ha apoyado fuertemente en la IA en los últimos años. La empresa de software ha lanzado varios servicios de IA diferentes desde 2023, incluido Firefly, su suite de generación de medios impulsada por IA. Ahora, sin embargo, la adopción total de la tecnología por parte de la compañía puede haber causado problemas, ya que una nueva demanda afirma que utilizó libros pirateados para entrenar a uno de sus modelos de IA.
Una demanda colectiva propuesta presentada en nombre de Elizabeth Lyon, una autora de Oregón, afirma que Adobe utilizó versiones pirateadas de numerosos libros, incluido el suyo, para entrenar el programa SlimLM de la empresa.
Adobe describe SlimLM como una pequeña serie de modelos de lenguaje que puede optimizarse para tareas de asistencia con documentos en dispositivos móviles. Indica que SlimLM se preentrenó con SlimPajama-627B, un conjunto de datos de código abierto, multicorpus y deduplicado, publicado por Cerebras en junio de 2023. Lyon, autora de varias guías para la escritura de no ficción, afirma que algunas de sus obras se incluyeron en un conjunto de datos de preentrenamiento utilizado por Adobe.
La demanda de Lyon, publicada originalmente por Reuters, afirma que sus escritos se incluyeron en un subconjunto procesado de un conjunto de datos manipulado que constituyó la base del programa de Adobe: «El conjunto de datos SlimPajama se creó copiando y manipulando el conjunto de datos RedPajama (incluida la copia de Books3)», afirma la demanda. «Por lo tanto, al ser una copia derivada del conjunto de datos RedPajama, SlimPajama contiene el conjunto de datos Books3, incluidas las obras protegidas por derechos de autor del demandante y los miembros del grupo».
“Books3”, una enorme colección de 191.000 libros utilizados para entrenar sistemas GenAI, ha sido una fuente constante de problemas legales para la comunidad tecnológica. RedPajama también ha sido citado en varios litigios. En septiembre, una demanda contra Apple alegó que la compañía había utilizado material con derechos de autor para entrenar su modelo Apple Intelligence. El litigio mencionó el conjunto de datos y acusó a la compañía tecnológica de copiar obras protegidas “sin consentimiento y sin crédito ni compensación”. En octubre, una demanda similar contra Salesforce también alegaba que la compañía había utilizado RedPajama con fines de entrenamiento.
Desafortunadamente para la industria tecnológica, este tipo de demandas se han vuelto bastante comunes. Los algoritmos de IA se entrenan con conjuntos de datos masivos y, en algunos casos, estos conjuntos de datos supuestamente han incluido material pirateado. En septiembre, Anthropic acordó pagar 1.500 millones de dólares a varios autores que la demandaron, acusándola de usar versiones pirateadas de su trabajo para entrenar a su chatbot, Claude. El caso se demostró un posible punto de inflexión en las numerosas batallas legales en curso sobre el material protegido por derechos de autor en los datos de entrenamiento de IA.

