Durante una semana este verano, Taylor y su compañera de piso usaron cámaras GoPro sujetas a la frente mientras pintaban, esculpían y hacían las tareas del hogar. Entrenaban un modelo de visión artificial, sincronizando cuidadosamente sus grabaciones para que el sistema pudiera captar múltiples ángulos del mismo comportamiento. Era un trabajo difícil en muchos sentidos, pero les pagaban bien, y le permitía a Taylor pasar la mayor parte del día creando arte.
“Nos despertábamos, hacíamos nuestra rutina habitual, nos poníamos las cámaras en la cabeza y sincronizamos las horas”, me contó. “Luego preparábamos el desayuno y lavábamos los platos. Después, cada una se iba a trabajar en el arte”.
Las contrataron para producir cinco horas de grabación sincronizada al día, pero Taylor pronto aprendió que necesitaba dedicar siete horas al día al trabajo, para tener tiempo suficiente para los descansos y la recuperación física.
“Te daba dolor de cabeza”, dijo. “Te lo quitabas y solo quedaba un cuadrado rojo en la frente”.
Taylor, quien pidió no revelar su apellido, trabajaba como freelance de datos para Turing, una empresa de IA. El objetivo de Turing no era enseñar a la IA a crear pinturas al óleo, sino adquirir habilidades más abstractas en torno a la resolución secuencial de problemas y el razonamiento visual. A diferencia de un modelo de lenguaje extenso, el modelo de visión de Turing se entrenaría completamente en video, y la mayor parte de esta información sería recopilada directamente por Turing.
Además de artistas como Taylor, Turing contrata chefs, obreros de la construcción y electricistas, es decir, cualquier persona que trabaje con las manos. Sudarshan Sivaraman, director de IA general de Turing, declaró que la recopilación manual es la única manera de obtener un conjunto de datos lo suficientemente variado.
«Lo estamos haciendo para muchos tipos diferentes de trabajo manual, de modo que tengamos una diversidad de datos en la fase de preentrenamiento», explicó Sivaraman. «Después de capturar toda esta información, los modelos podrán comprender cómo se realiza una tarea determinada». El trabajo de Turing en modelos de visión forma parte de un cambio creciente en la forma en que las empresas de IA gestionan los datos. Donde antes los conjuntos de entrenamiento se extraían libremente de la web o se recopilaban de anotadores mal pagados, ahora las empresas pagan grandes cantidades por datos cuidadosamente seleccionados.
Con el poder puro de la IA ya consolidado, las empresas consideran los datos de entrenamiento propietarios como una ventaja competitiva. Y en lugar de subcontratar la tarea, a menudo la asumen ellas mismas.
La empresa de correo electrónico Fyxer, que utiliza modelos de IA para clasificar correos electrónicos y redactar respuestas, es un ejemplo.
Tras algunos experimentos iniciales, su fundador, Richard Hollingsworth, descubrió que el mejor enfoque era utilizar una serie de modelos pequeños con datos de entrenamiento muy específicos. A diferencia de Turing, Fyxer se basa en el modelo base de otra empresa, pero la idea subyacente es la misma.
«Nos dimos cuenta de que la calidad de los datos, no la cantidad, es lo que realmente define el rendimiento», me explicó Hollingsworth.
En la práctica, esto implicó algunas decisiones de personal poco convencionales. En los inicios de Fyxer, los ingenieros y gerentes a veces se veían superados en número por cuatro a uno por los asistentes ejecutivos necesarios para entrenar el modelo, afirma Hollingsworth.
“Contratamos a muchos asistentes ejecutivos con experiencia, ya que necesitábamos capacitarlos sobre los fundamentos de si se debía responder a un correo electrónico”, declaró. “Es un problema muy humano. Encontrar personas competentes es muy difícil”.
El ritmo de recopilación de datos nunca disminuyó, pero con el tiempo Hollingsworth se volvió más precavido con los conjuntos de datos, prefiriendo conjuntos más pequeños y mejor seleccionados para el postentrenamiento. En sus palabras, “la calidad de los datos, no la cantidad, es lo que realmente define el rendimiento”.
Esto es especialmente cierto cuando se utilizan datos sintéticos, lo que amplía tanto el alcance de los posibles escenarios de entrenamiento como el impacto de cualquier fallo en el conjunto de datos original. En cuanto a la visión, Turing estima que entre el 75% y el 80% de sus datos son sintéticos, extrapolados de los vídeos originales de GoPro. Pero eso hace que sea aún más importante mantener la alta calidad del conjunto de datos original.
“Si los datos de preentrenamiento no son de buena calidad, cualquier cosa que se haga con los datos sintéticos tampoco será de buena calidad”, afirma Sivaraman.
Más allá de las preocupaciones por la calidad, existe una poderosa lógica competitiva detrás de mantener la recopilación de datos internamente. Para Fyxer, el arduo trabajo de recopilación de datos es una de las mejores defensas que la empresa tiene frente a la competencia. En opinión de Hollingsworth, cualquiera puede integrar un modelo de código abierto en su producto, pero no todos pueden encontrar anotadores expertos que lo entrenen para convertirlo en un producto funcional.
“Creemos que la mejor manera de hacerlo es a través de los datos”, declaró, “mediante la creación de modelos personalizados y un entrenamiento de datos de alta calidad y dirigido por personas”.

