Texcode Labs
Inteligencia Artificial IA

Datasets de entrenamiento: evolución y problemas de escala

Composición documentada de corpus de entrenamiento y efectos en comportamiento del modelo

Dra. Isabel Moreno
07/27/25
2 min
125 vistas
Datasets de entrenamiento: evolución y problemas de escala

Los LLM son tan buenos como sus datos de entrenamiento. La calidad y composición importan más que la cantidad bruta.

2018: BookCorpus y Wikipedia

BERT entrenó con 3.3 mil millones de tokens. Fuentes curadas manualmente. Alta calidad pero volumen limitado. Sesgos hacia contenido enciclopédico formal.

2019: WebText

GPT-2 usó contenido de Reddit con upvotes altos. 8 millones de documentos, 40 GB texto. Sesgo hacia demografía de Reddit: predominantemente masculina, occidental, técnica.

2020: Common Crawl filtrado

GPT-3 entrenó con 570 GB de texto. Incluye Common Crawl, libros, Wikipedia. Filtrado por calidad pero contamina benchmarks: datos de test aparecen en entrenamiento.

2022-2024: Datasets masivos problemáticos

PaLM: 780 mil millones de tokens. Llama: 1.4 trillones. Incluyen código, conversaciones, contenido multilingüe. Problemas: toxicidad, desinformación, violaciones copyright.

Consecuencias técnicas

Modelos memorizan contenido verbatim. Amplifican sesgos estadísticos del dataset. Auditorías muestran problemas persistentes en generaciones.

Configuración de cookies

Usamos cookies para mejorar tu experiencia. Puedes elegir qué tipos de cookies aceptar.

Necesarias para el funcionamiento del sitio.

Nos ayudan a entender cómo usas el sitio.

Para mostrarte contenido relevante.

Mejoran la funcionalidad del sitio.