Programa Semestral de Análisis de Datos con R para Ciencias de la Salud
Formación especializada para investigadores en salud
Descripción general
Este programa semestral está diseñado específicamente para investigadores y estudiantes de doctorado en ciencias de la salud. Durante 14 semanas, los participantes desarrollarán habilidades de análisis de datos con R, desde los fundamentos básicos hasta técnicas avanzadas, todo aplicado a contextos reales de investigación en salud.
El programa combina el aprendizaje práctico con datos reales del ámbito de la salud, utilizando notebooks interactivos con Quarto para garantizar la reproducibilidad de los análisis.
Metodología de enseñanza
El programa se basa en las siguientes mejores prácticas educativas:
- Enfoque práctico computacional: Se da un papel protagónico a las herramientas computacionales desde el inicio, con los estudiantes escribiendo código con frecuencia durante el curso.
- Aprendizaje basado en problemas reales: Se utilizan datos y problemas concretos de salud para conectar los métodos estadísticos con aplicaciones relevantes.
- Enfoque activo y hands-on: Los estudiantes usan sus propios equipos y siguen las demostraciones ejecutando código en R ellos mismos.
- Uso de notebooks interactivos (Quarto): Permite mezclar texto explicativo, código y resultados en un solo documento, fomentando la reproducibilidad.
- Estandarización del entorno: Se garantiza que todos los estudiantes usen versiones homogéneas de R/RStudio y de los paquetes necesarios.
- Estrategias de aprendizaje activo: Se incluyen dinámicas donde los estudiantes generan conocimiento, como la predicción de resultados de código.
- Progresión gradual: El contenido se organiza de forma escalonada, iniciando con fundamentos sencillos y aumentando la complejidad paulatinamente.
- Atmósfera de apoyo: Se fomenta la confianza, subrayando que no se requieren conocimientos previos de programación.
- Proyectos aplicados: Se incluye un proyecto integrador donde los estudiantes aplican lo aprendido a un problema concreto en salud.
Estructura del programa
Semana 1: Introducción a R, RStudio y Quarto
Objetivos: Familiarizar a los estudiantes con el entorno de trabajo en RStudio y la creación de notebooks con Quarto. Ejecutar sus primeros comandos básicos en R y comprender la estructura general de un notebook reproducible.
Contenidos: - Presentación del curso y objetivos. Importancia del análisis de datos reproducible. - Instalación/configuración de R, RStudio y Quarto. - Introducción a RStudio: paneles, cómo ejecutar comandos. - Creación de un documento Quarto básico. - Filosofía literate programming. - Acceder al notebook de la Semana 1
Semana 2: Fundamentos de R – Tipos de datos y operaciones básicas
Objetivos: Conocer los tipos de datos básicos en R y las estructuras fundamentales. Aprender a crear y manipular estos objetos, y ejecutar operaciones aritméticas y lógicas simples.
Contenidos: - Conceptos básicos del lenguaje R: sintaxis. - Tipos atómicos de datos: numérico, carácter, lógico, factor. - Estructuras de datos: vectores, matrices, data frames, listas. - Creación e indexación de objetos. - Operaciones básicas y manejo de valores NA. - Buenas prácticas de nombrado y comentarios. - Acceder al notebook de la Semana 2
Semana 3: Importación y limpieza de datos
Objetivos: Aprender a importar datos externos a R, explorar su estructura y aplicar técnicas básicas de limpieza. Identificar y manejar valores perdidos o errores.
Contenidos: - Lectura de archivos de datos: funciones como read.csv() o read_csv(). - Inspección inicial del dataset: str(), head(), summary(). - Detección de problemas comunes en datos crudos. - Limpieza básica: reemplazar NA, unificar categorías, convertir tipos. - Concepto de data frame tidy. - Herramientas iniciales de dplyr: filter() y select(). - Acceder al notebook de la Semana 3
Semana 4: Manipulación de datos con el tidyverse (dplyr/tidyr)
Objetivos: Desarrollar habilidades para transformar y resumir datos usando dplyr y tidyr. Realizar operaciones comunes como filtrado, ordenamiento, creación de variables, resumen estadístico y combinación de tablas.
Contenidos: - Concepto de tidyverse y ventajas. - Funciones clave de dplyr: filter(), arrange(), mutate(), summarise(), group_by(). - Uso del operador pipe %>%. - Reestructuración de datos con tidyr: pivot_longer y pivot_wider. - Combinación de datasets con funciones de join. - Buenas prácticas en manipulación de datos.
Semana 5: Visualización de datos con ggplot2
Objetivos: Aprender a crear gráficos informativos usando ggplot2. Explorar distintos tipos de visualizaciones y personalizar gráficos para comunicar hallazgos.
Contenidos: - Fundamentos de la gramática de gráficos. - Creación de gráficos básicos: scatterplots, barras, histogramas, boxplots. - Personalización: títulos, etiquetas, escalas, temas. - Uso de faceting para comparar subgrupos. - Capas adicionales: líneas de tendencia, colores por categorías. - Consideraciones de visualización en salud. - Integración con Quarto.
Semana 6: Programación en R – Funciones y control de flujo
Objetivos: Adquirir destrezas de programación para automatizar tareas. Aprender a escribir funciones propias y usar estructuras de control.
Contenidos: - Sintaxis para definir funciones: argumentos, cuerpo, valor de retorno. - Ámbito de variables. - Estructuras de control: condicionales if/else, bucles for. - Funciones apply (apply, lapply, sapply) o purrr. - Buenas prácticas: documentación y modularidad.
Semana 7: Estadística descriptiva y exploratoria
Objetivos: Aplicar R para realizar un análisis exploratorio de datos (EDA) completo. Calcular estadísticos descriptivos, construir tablas resumen y examinar distribuciones.
Contenidos: - Medidas de tendencia central y dispersión. - Cálculo de descriptivos en R. - Tablas de frecuencia y proporciones. - Exploración de distribuciones con histogramas y boxplots. - Correlaciones simples. - Caso práctico EDA.
Semana 8: Pruebas de hipótesis y comparación de grupos
Objetivos: Introducir la estadística inferencial clásica en R. Realizar pruebas de hipótesis e interpretar resultados en contexto de salud.
Contenidos: - Hipótesis nula y alternativa, valor p, nivel de significancia. - Prueba t de Student: t.test(). - Prueba chi-cuadrado: chisq.test(). - Intervalos de confianza. - Implementación en R con ejemplos reales. - Interpretación adecuada de resultados.
Semana 9: Regresión lineal y modelos de predicción (parte I)
Objetivos: Introducir los modelos de regresión lineal en R. Ajustar modelos simples y múltiples, interpretar coeficientes y evaluar supuestos.
Contenidos: - Uso de lm() en R. - Interpretación de coeficientes. - Evaluación de ajuste: R-cuadrado, error estándar. - Supuestos del modelo lineal. - Predicción con el modelo ajustado. - Uso en investigación en salud.
Semana 10: Regresión logística y análisis de datos categóricos (parte II)
Objetivos: Enseñar el uso de regresión logística para desenlaces binarios. Ajustar modelos, interpretar odds ratios y evaluar desempeño.
Contenidos: - Ajuste de modelos logísticos con glm(..., family="binomial"). - Interpretación de coeficientes como odds ratios. - Evaluación del modelo: pseudo R², matriz de confusión. - Extensiones: modelos multinomiales, Poisson. - Conexión con estudios epidemiológicos.
Semana 11: Análisis de supervivencia (introducción)
Objetivos: Familiarizar a los estudiantes con el análisis de supervivencia y su implementación en R.
Contenidos: - Curvas de Kaplan-Meier con el paquete survival. - Test de log-rank para comparar curvas. - Modelo de Cox y hazard ratios. - Limitaciones y diagnósticos. - Importancia en estudios clínicos.
Semana 12: Caso práctico en salud pública
Objetivos: Aplicar de manera integrada las habilidades aprendidas en un escenario de salud pública.
Contenidos: - Análisis de un conjunto de datos de salud pública. - Trabajo guiado: exploración, limpieza, análisis inferencial, visualización. - Presentación de hallazgos. - Retroalimentación y discusión.
Semana 13: Caso práctico en investigación molecular
Objetivos: Demostrar la aplicabilidad de R en el análisis de datos moleculares/biomédicos.
Contenidos: - Análisis de datos de expresión génica o similar. - Herramientas de Bioconductor. - Análisis de expresión diferencial o clusterización. - Visualización de datos moleculares.
Semana 14: Reproducibilidad, reportes con Quarto y cierre del curso
Objetivos: Consolidar el conocimiento en reproducibilidad y comunicación de resultados.
Contenidos: - Elaboración de un informe reproducible completo. - Buenas prácticas de documentación. - Presentación de proyectos finales. - Recursos para continuar aprendiendo. - Reflexión sobre lo aprendido.
Requisitos
- Conocimientos previos: No se requiere experiencia previa en programación. Es recomendable tener conocimientos básicos de estadística.
- Software: Los participantes deben instalar R, RStudio y Quarto en sus computadoras antes de la primera sesión.
- Materiales: Los notebooks y datasets serán proporcionados a través de la plataforma de Agoralab.
Inscripción
Para más información sobre inscripciones y fechas específicas, contacta a través de nuestro formulario de contacto o escribe directamente a agoralab@saedcnt.com
Referencias y recursos adicionales
- R for Data Science - Hadley Wickham & Garrett Grolemund
- R para Ciencia de Datos - Traducción al español
- Getting Started with Quarto - Documentación oficial de Quarto
- Fundamentals of Data Visualization - Claus Wilke