En este momento estás viendo DeepSeek arroja luz sobre la recopilación de datos para el entrenamiento de IA y advierte sobre riesgos de alucinación
El logotipo de DeepSeek en un smartphone.

DeepSeek arroja luz sobre la recopilación de datos para el entrenamiento de IA y advierte sobre riesgos de alucinación

  • Autor de la entrada:
  • Categoría de la entrada:China
  • Última modificación de la entrada:octubre 12, 2025

DeepSeek afirma que los datos en la etapa de preentrenamiento se recopilan principalmente de información pública en línea y datos de terceros autorizados.

La startup china de inteligencia artificial DeepSeek ha revelado cómo filtra los datos para entrenar sus modelos, alertando sobre riesgos de alucinación y abuso.

En un documento publicado el lunes, la startup con sede en Hangzhou afirmó que siempre ha priorizado la seguridad de la IA y decidió divulgar esta información para facilitar el uso de sus modelos, en un momento en que Beijing está intensificando la supervisión del sector.

La empresa afirmó que los datos de la etapa de preentrenamiento se recopilaron principalmente de información pública en línea, así como de datos de terceros autorizados, y que DeepSeek no tenía intención de recopilar datos personales.

DeepSeek afirmó que aplicó filtros automatizados para eliminar datos sin procesar que contenían incitación al odio, pornografía, violencia, spam y contenido potencialmente infractor. Asimismo, aplicó detección algorítmica con revisión humana para identificar sesgos estadísticos inherentes en conjuntos de datos a gran escala y mitigar el impacto en los valores del modelo.

La empresa, fundada por el informático Liang Wenfeng, afirmó su compromiso de reducir las alucinaciones de sus modelos mediante investigación y técnicas como la generación aumentada por recuperación, pero añadió que seguía siendo un problema inevitable.

“La IA aún se encuentra en sus primeras etapas y la tecnología aún es inmadura… en esta etapa, no podemos garantizar que nuestros modelos no produzcan alucinaciones”, declaró, recordando a los usuarios que busquen asesoramiento profesional cuando sea necesario y enfatizando que sus modelos predicen, en lugar de recuperar, respuestas basadas en las indicaciones del usuario. Empresas de IA como OpenAI y DeepSeek han sido criticadas por las alucinaciones de sus chatbots, que generan resultados incorrectos o engañosos. A medida que los modelos de IA subyacentes se vuelven más potentes, han surgido preocupaciones sobre la posibilidad de psicosis inducida por la IA y otros problemas derivados de la dependencia excesiva de los chatbots.