Prácticas Educativas Digitales / Agentes TIC en acción
Ingeniería inversa de datos: Caso Kaggle ML & DS Survey. Parte 1
Palabras clave: Ingeniería inversa, IAG, Kaggle, Survey.
12 de noviembre de 2025
Objetivo
Aplicar estrategias de extracción y segmentación de datos con apoyo de herramientas digitales y de IAG para reconstruir un producto mediante la técnica de ingeniería inversa.
Datos
Materia: Bases de Datos Avanzadas (optativa)
Plantel: Facultad de Telemática.
Programa Educativo: Licenciatura
Docente: Dr. José Román Herrera Morales y Dr. Jorge Rafael Gutiérrez Pulido
La práctica ha sido aplicada en febrero de 2025 en la materia de Bases de Datos Avanzadas en dos grupos de cuarto y sexto semestre de Ingeniería de Software, y también, fue aplicada en el mismo período con estudiantado de la Maestría en Tecnologías de Internet.
Consiste en el análisis inverso de un proyecto de analítica de datos profesional, utilizando como caso de estudio el “State of Machine Learning and Data Science Survey 2021” de Kaggle, una encuesta anual que captura el estado global del ecosistema de ciencia de datos con más de 25,000 respuestas de profesionales en más de 150 países. Toma relevancia dado que permite contextualizar al estudiantado sobre el panorama actual de los egresados de su área.
Para realizar la práctica el docente introduce al estudiantado en el tema, explicando la plataforma de Kaggle y su relevancia en la ciencia de datos, la metodología de ingeniería inversa y el uso de herramientas digitales para aplicar la segmentación de datos. Posteriormente, el estudiantado selecciona el reporte correspondiente a la encuesta de Kaggle y a partir de ello deberán aplicar técnicas de segmentación de datos para elaborar 4 archivos CSV derivados del análisis del dataset que entregarán en Classroom.
La práctica emplea una metodología de ingeniería inversa la cual parte del resultado o producto, en este caso del reporte visual de insights elaborado por el mismo Kaggle, y a partir de este el estudiantado identificará el proceso necesario para recrearlo analizando el dataset oficial y generando subconjuntos de datos estructurados mediante la segmentación de archivos CSV, utilizando datos públicos disponibles en Kaggle y herramientas de IA generativa para planificación estratégica.
A través de esta actividad práctica y guiada en clase, el estudiantado desarrolla competencias en análisis exploratorio de datos (EDA), comprensión de estructuras complejas de encuestas codificadas, identificación de correspondencias entre preguntas de negocio y columnas de datos, y generación de subconjuntos de datos mediante técnicas de segmentación y filtrado. La práctica promueve el pensamiento analítico inverso a partir de visualizaciones finales para deducir las transformaciones de datos necesarias.
Además, integra el uso reflexivo de herramientas de IAG como apoyo para contextualizar el problema y proponer estrategias de solución. También, en la evaluación se utiliza un cuestionario en Google Forms que permite valorar tanto la comprensión del proceso de análisis de datos como la reflexión crítica sobre las tareas fundamentales en proyectos de analítica, ETL (Extracción, Transformación y Carga) y modelado de datos, preparando al estudiantado para enfrentar desafíos reales en ciencia de datos e inteligencia de negocios.
Esta práctica puede adecuarse en otras áreas y asignaturas ya que trata de la segmentación de datos disponibles en datasets abiertas y que pueden ser de utilidad en procesos de investigación o para obtener información específica. Además, se comparte el material y recursos necesarios para comprender y replicar, adecuando a otros contextos, la práctica.
Esta PED se fundamenta en la metodología de aprendizaje basado en casos y la pedagogía de ingeniería inversa (reverse engineering pedagogy), donde el estudiantado parte de un producto final completo para deducir y comprender el proceso de construcción necesario (Linn & Clancy, 1992). Al utilizar el Kaggle ML & DS Survey 2021, un benchmark reconocido mundialmente en la industria de ciencia de datos con más de 25,000 respuestas reales, se garantiza autenticidad y relevancia profesional inmediata. Esta aproximación invierte el flujo tradicional de enseñanza (teoría → práctica → producto) para iniciar con el análisis crítico de un artefacto profesional ya elaborado, promoviendo el desarrollo de habilidades analíticas y de pensamiento crítico esenciales en ciencia de datos y análisis de información.
El diseño pedagógico incorpora el aprendizaje guiado y andamiaje progresivo (scaffolding) al delimitar conscientemente el alcance de la práctica únicamente al paso inicial de análisis exploratorio del archivo CSV (Wood, Bruner & Ross, 1976). Esta decisión permite profundizar en competencias fundamentales de análisis de estructuras de datos complejas, comprensión de metadatos y esquemas, identificación de correspondencias entre preguntas de negocio y columnas técnicas, y generación de subconjuntos de datos mediante segmentación. El uso estratégico de IA generativa para planificación sin ejecución directa desarrolla metacognición sobre estrategias de solución, enseñando al estudiantado a descomponer problemas complejos antes de implementar soluciones técnicas.
También, se incluyen elementos de la metodología de aula invertida, los cuales consisten en que el estudiantado consulte los materiales previo a la sesión para que durante la clase pueda comprender con mayor facilidad los conceptos y realizar los ejercicios para analizar la información del dataset.
Desde la perspectiva técnica, esta práctica es fundamental porque el análisis exploratorio de datos (EDA) constituye la base de cualquier proyecto exitoso de analítica, business intelligence o ciencia de datos. Trabajar con un dataset real de 410 columnas y 25,000 registros expone al estudiantado a la complejidad genuina de datos empresariales: respuestas codificadas, estructuras no normalizadas, tipos de datos mixtos, y respuestas múltiples que requieren comprensión profunda antes de cualquier transformación.
La habilidad de identificar qué columnas contienen la información necesaria para responder preguntas específicas de negocio (nacionalidades, salarios, adopción tecnológica) es una competencia crítica que precede al modelado de bases de datos, diseño de pipelines ETL y construcción de dashboards.
Un valor adicional de este caso es que la información contenida en esta Survey tiene que ver con el perfil profesional de las y los estudiantes y con el campo profesional que estarían desempeñando una vez que egresen de su formación. Así, se contribuye preparando a las y los futuros profesionales para enfrentar proyectos reales donde los datos raramente llegan en estructuras ideales y requieren análisis minucioso, limpieza y transformación antes de generar valor empresarial.
A continuación, se encuentra un glosario en el que puede conocer más términos que ayuden en la comprensión del contenido de esta práctica: GLOSARIO
REFERENCIAS:
Linn, M. C., & Clancy, M. J. (1992). The case for case studies of programming problems. Communications of the ACM, 35(3), 121-132. https://doi.org/10.1145/131295.131301
Wood, D., Bruner, J. S., & Ross, G. (1976). The role of tutoring in problem solving. Journal of Child Psychology and Psychiatry, 17(2), 89-100. https://doi.org/10.1111/j.1469-7610.1976.tb00381.x
- ChatGPT: Herramienta de IAG dialógica que permite solicitar información o contenido visual de manera inmediata para un fin específico como buscar fuentes de información, traducir textos o crear imágenes en un estilo específico. La plataforma es parte de Open AI y cuenta con una versión gratuita y de paga.
- Claude.ai: Herramienta de IAG de conversación para hacer peticiones de contenido o preguntas de cualquier tema, está diseñada para hacer análisis, tratar con documentos extensos y resultados estructurados. Claude.ai tiene función gratuita y de paga.
- DeepSeek: Herramienta IAG que logra procesar datos extensos para generar información al usuario o hacer recomendaciones dependiendo de lo que se le solicite. Logra generar códigos con rapidez. Tiene versión gratuita y de paga.
- Gemini: Asistente de IA en google en línea gratuita que sirve para generar ideas, escribir, planificar, exponer preguntas entre otras, en esta práctica es funcional para que las y los estudiantes se apoyen en ella en cuanto a la planificación estratégica.
- Perplexity: Chatbot de IAG que funciona para recopilar datos que desee el usuario. La plataforma brinda respuestas precisas y adecuadas al contexto que se solicite. Tiene funciones gratuitas y de paga.
- Portal Kaggle: Plataforma global de ciencia de datos y machine learning que alberga competencias, datasets públicos y comunidad de profesionales. Se utilizó específicamente para acceder al “Kaggle Machine Learning & Data Science Survey 2021” incluyendo el reporte visual de insights y los archivos del dataset. El portal proporcionó acceso al dataset completo, el codebook con preguntas y opciones de respuesta, y un esquema de columnas con códigos.
- Google Sheets: Herramienta de google con hojas de cálculo que permite trabajar en conjunto, esta aplicación se utiliza cuando el profesor y el estudiantado necesita trabajar en un documento al mismo tiempo, de esta manera pueden trabajar en línea.
- Microsoft Excel: El docente realizó demostración práctica guiada con Excel mostrando técnicas de filtrado, selección de columnas, extracción de subconjuntos de datos y exportación en formato CSV.
-
- Python con Pandas (opcional): Algunos equipos con mayor experiencia técnica utilizaron scripts de Python con la librería Pandas para automatizar la segmentación del dataset, aplicando técnicas programáticas de filtrado de columnas, extracción de subconjuntos y exportación a CSV. Esta aproximación permitió mayor eficiencia en el procesamiento del archivo de gran tamaño.
- Notepad++: Editor de textos y códigos gratuito para windows que tiene como funciones el resaltado de sintaxis, el guardado automático y la gestión de múltiples archivos con pestañas, también tiene soporte de varios lenguajes de programación.
- Visual Studio Code: Es un editor de códigos en programadores con mayor alcance, es decir que cuenta con extensiones de mayor alcance que permite el lenguaje de cualquier tipo de programación.
- Google Classroom: Plataforma principal para publicar los requerimientos detallados de la práctica, compartir recursos descargables (dataset CSV, reporte de insights PDF, archivos de metadatos), establecer fecha límite de entrega (mismo día de sesión práctica), gestionar entregas de los 4 archivos CSV por equipo, y facilitar comunicación asíncrona con el estudiantado.
- Google Drive: Sistema de almacenamiento para alojar y compartir archivos del caso: dataset completo CSV (~60 MB), reporte visual de insights, documentos de metadatos (codebook y schema), presentación con diapositivas de contextualización, y ejemplos de archivos CSV derivados correctamente estructurados para retroalimentación.
La implementación de esta práctica educativa digital se realizó por primera vez en febrero de 2025 en dos grupos de Ingeniería de Software de diferente nivel académico (21 estudiantes de 4to semestre y 13 de 6to semestre, 34 total) y se obtuvieron resultados favorables en el desarrollo de competencias de análisis exploratorio de datos (EDA) y comprensión de estructuras complejas de información debido a que el estudiantado logró analizar el producto final de un reporte de datos disponible en Kaggle y logran interpretar cómo se llevó a cabo este resultado así como segmentar información particular.
El 100% de los equipos entregó los 4 archivos CSV requeridos: archivo ligero (A1) preservando estructura original con primeras 100 filas, y tres archivos segmentados por temática (B1-nacionalidades, B2-salarios, B3-tecnología de bases de datos). Del total de entregas, aproximadamente 85% cumplió correctamente con las especificaciones técnicas (formato CSV apropiado, columnas identificadas correctamente, integridad de datos preservada),
De igual forma, a partir de los proyectos entregables se identificó las áreas a profundizar, siendo la identificación precisa de columnas correspondientes a las gráficas objetivo y la verificación de registros durante el proceso de segmentación para que estén completos los puntos que se abordarán.
Los resultados del cuestionario “Reflexión 01 – El Survey de Kaggle” aplicado mediante Google Forms revelaron aspectos significativos sobre la comprensión del proceso de análisis de datos. Las 5 preguntas de opción múltiple mostraron comprensión satisfactoria en la mayoría de conceptos evaluados: el estudiantado identificó correctamente los insumos utilizados (reporte PDF + archivo CSV), reconoció que las empresas habitualmente comparten información mediante archivos CSV o bases de datos relacionales, y comprendió que el archivo original del survey tiene una cantidad considerable de columnas (más de 400). Respecto a tratamientos especiales necesarios para procesar diferencias en tipos de respuestas (opción única vs múltiple), y sobre la jerarquía de tareas en proyectos de analítica (ETL, modelado, queries SQL, visualización), se observaron respuestas más distribuidas indicando áreas donde el estudiantado requiere mayor profundización conceptual y práctica adicional.
Los comentarios cualitativos en la pregunta abierta del cuestionario proporcionaron insights valiosos sobre la experiencia de aprendizaje. El estudiantado expresó apreciación por trabajar con un dataset real de la industria, señalando algunos comentarios como: “les ayudó como una breve inicialización hacia la clase, la importancia del manejo de datos y también sirvió para darse una idea de lo amplio que puede llegar ser la recopilación de datos, y la importancia de que exista una buena administración de preguntas y sus datos”, la utilidad práctica: “lo más interesante de la actividad fue modificar el archivo, no me imaginaba que fuera tan sencillo el poder manipular los datos de esa manera y me dejó con ganas de aprender más sobre como con herramientas como python también se pueden llevar a cabo análisis complejos con la información presentada” y “es una buena forma de evaluar, ayuda con el aprendizaje y un examen escrito, muy buena idea clase”.
Estos hallazgos evidencian que la práctica logró no solo el desarrollo de competencias técnicas en análisis y segmentación de datos, sino también la comprensión de la importancia del trabajo colaborativo, la documentación de metadatos, y la complejidad inherente a proyectos reales de analítica donde los datos requieren análisis minucioso antes de su interpretación para generar valor.
A continuación, se comparten los enlaces a las herramientas y las plataformas utilizadas para el trabajo de la práctica:
- ChatGPT: https://chat.openai.com/
- Claude.ai: https://claude.ai/
- DeepSeek: https://deepseek.ai/
- Gemini: https://www.google.com/aclk?sa=L&ai=DChsSEwir4cWzoseQAxVKM0QIHa3YJm4YACICCAEQABoCZHo&ae=2&co=1&ase=2&gclid=CjwKCAjw04HIBhB8EiwA8jGNbWkD81mei3hgQm2I_IevMYsW6L2JJ7UixHDwQYRb-2rL43C3DvtOABoCXPQQAvD_BwE&cid=CAASNuRoqP24gidjIdUbVAEjalcHu0Y5OVVg7we4WxCaXUEE7FGswWH38L6Qyq2NqxEdvRigiuQWKQ&cce=2&category=acrcp_v1_71&sig=AOD64_0VEbUAbBKtS4Q_5QdI1XJyzjJNjw&q&nis=4&adurl&ved=2ahUKEwi9iMCzoseQAxXJK0QIHRMzMLIQ0Qx6BAgLEAE
- Google Classroom: https://classroom.google.com/
- Google Drive: https://drive.google.com/
- Google Forms: https://forms.google.com/
- Google Sheets: https://sheets.google.com/
- Kaggle: https://www.kaggle.com/
- Notepad++: https://notepad-plus-plus.org/
- Perplexity: https://www.perplexity.ai/
- Python: https://www.python.org/
- Python con Pandas: https://pandas.pydata.org/
- Visual Studio Code: https://code.visualstudio.com/
- Microsoft Excel: https://excel.cloud.microsoft/es-mx/
Material de Kaggle:
- En el siguiente enlace se puede acceder al sitio web del Survey: https://www.kaggle.com/competitions/kaggle-survey-2021/
- En el siguiente enlace se puede descargar el DataSet: https://www.kaggle.com/competitions/kaggle-survey-2021/data
- En el siguiente enlace se puede consultar el informe de Insights: https://www.kaggle.com/kaggle-survey-2021
En el siguiente enlace se encuentra una carpeta creada por el docente, en la cual incluye los recursos de trabajo necesarios para la práctica: https://drive.google.com/drive/folders/161_DpnptVjtcHd3KiLl_wF3CzXNHlfne
En el siguiente enlace se encuentran orientaciones sobre lo que es un archivo CSV y para qué sirven: https://www.geeknetic.es/Archivo-CSV/que-es-y-para-que-sirve
En el siguiente enlace se encuentra un glosario con términos que pueden ayudar a comprender mejor la información de la práctica: https://docs.google.com/document/d/1XlP1v4yyaYFC9PbQHVyP-k5SnxYL43om/edit?usp=sharing&ouid=111429601968604743660&rtpof=true&sd=true
