Prefacio

Tras varios años de emplear parte del material que conforma esta obra como notas de clase del curso Introducción al Business Analytics de la Universidad Icesi, decidimos convertir estas notas en una obra autocontenida. Los capítulos y su arquitectura, son producto de los comentarios valiosos de los estudiantes de este curso y de los investigadores del Cienfi, con quienes estamos agradecidos.

Este libro presenta una introducción a los modelos estadísticos y de aprendizaje de máquina que permiten realizar la tarea de clústering. La discusión de los diferentes capítulos está dirigida a personas que empiezan su formación como científico de datos.

El libro está dividido en tres partes. La primera parte corresponde a una discusión de los conceptos fundamentales para entender la tarea de clústering. En el Capítulo 1 se discute las generalidades de la tarea de clústering y cómo ésta está relacionada con los tipos de analítica. En el Capítulo 2 se discuten los conceptos de medidas de similitud, los diferentes tipos de algoritmos para la formación de clústeres y la métricas para la selección del número de clústeres.

La segunda parte del libro corresponde al estudio de los algoritmos jerárquicos para la construcción de clústeres. En el Capítulo 3 se discute la intuición detrás de los modelos de clústering jerárquico aglomerativo conocidos también como modelos HAC (del inglés Hierarchical Agglomerative Clustering), AGNES (del inglés AGlomerative NESting) o aproximación bottom-up. Ese capítulo también discute el clústering jerárquico de división, también conocidos como algoritmos top-down o DIANA (del inglés DIvise ANAlysis). En el Capítulo 4 ese discute como implementar estos algoritmos en R.

La tercera parte del libro discute los algoritmos particionados basados en centroides. En el Capítulo 5 se presenta el modelo k-means y una modificación de este conocido como k-means++. En el Capítulo 6) se estudian el algoritmo k-medoids también es conocido como PAM (por su sigla en inglés del término Partitioning Around Medoids) y el modelo CLARA (por su sigla en inglés del término Clustering Large Applications).

La cuarta parte del libro está destinada a los algoritmos basados en densidad. El Capítulo 7 explica el algoritmo DBSCAN. En la quinta parte se estudian los métodos basados en la distribución, también conocidos como basados en modelos. Para este tipo de algoritmos se presenta el Modelo de Mezcla Gausiano (GMM) en el Capítulo 8. Y finalmente en la sexta parte del libro se discute uno de los métodos que combinan o modifican los anteriores como el fuzzy clustering, también conocido como FANNY(Ver Capítulo 9). De esta manera este libro, si bien introductorio, te podrá brindar una mirada amplia de los modelos y filosofias diferentes para la construcción de clústeres con datos de corte transversal.

Este libro supone un uso intermedio de R (R Core Team, 2023). Si crees que necesitas algún refuerzo en R, te recomendamos tres libros. Alonso & Ocampo (2022) presenta una breve introducción para iniciar a usar R. Ese primer libro discute cómo instalar R y RStudio y paquetes, cómo cargar diferentes bases de datos y cómo realizar operaciones aritméticas y lógicas con objetos. En Alonso & Ocampo (2022) también se discuten las clases esenciales de objetos sencillos y compuestos. No dudes en consultar ese primer libro si aún no has iniciado tu camino por el universo de R.

El segundo libro de la serie, Alonso (2022), presenta una breve introducción al paquete dplyr (Wickham et al., 2022) que permite manipular objetos que contengan datos. En ese libro se discute cómo filtrar observaciones, crear nuevas variables y combinar objetos con datos. Es recomendable tener un conocimiento de ese paquete antes de leer esta obra. Consulta ese segundo libro si aún no has tenido alguna experiencia manipulando objetos con datos con dplyr.

Finalmente, recomendamos Alonso & Largo (2023) en el que se presenta una introducción a la creación de visualizaciones con el paquete ggplot2 (Wickham, 2016). En esta obra emplearemos visualizaciones empleando este paquete. Así, este libro asume un manejo intermedio de R, y los paquetes dplyr y ggplot2.

Por otro lado, un manejo del modelo de regresión múltiple conceptualmente y en R es deseable. Alonso (2024) te puede brindar una introducción a la fundamentación formal del modelo de regresión y cómo estimar estos modelos y chequear sus supuestos en R. Si te interesa aprender de otras tareas de analítica puedes encontrar útiles otros libros de la serie. Por ejemplo, Alonso & Arboleda (2025) presenta una introducción a la tarea de encontrar reglas de asociación entre productos (análisis de canastas) y Alonso & Hoyos (2025b) presenta una introducción a la tarea de clasificación.

La presente obra recoge nuestra experiencia trabajando con R y los modelos de clasificación para resolver problemas con datos desde el Cienfi (Centro de Investigación en Economía y Finanzas) de la Universidad Icesi. En el Cienfi empleamos R para la transformación de datos en conclusiones que faciliten la toma de decisiones en organizaciones privadas y públicas.

¡Esperamos encuentres esta obra útil y la compartas con otros! Si tienes alguna sugerencia o comentario, no dudes en escribirnos. Esta es una obra en constante construcción.



Referencias

Alonso, J. C. (2022). Empezando a transformar bases de datos con R y dplyr. Universidad Icesi. https://doi.org/10.18046/EUI/bda.h.2
Alonso, J. C. (2024). Introducción al modelo clásico de regresión para científico de datos en R. Universidad Icesi. https://doi.org/10.18046/EUI/bda.h.4
Alonso, J. C., & Arboleda, A. M. (2025). Introducción al análisis de canastas de compra para analytics translators y científicos de datos (empleando R). Universidad Icesi.
Alonso, J. C., & Hoyos, C. C. (2025b). Una introducción a los modelos de clasificación empleando R. Universidad Icesi. https://doi.org/10.18046/EUI/bda.h.5
Alonso, J. C., & Largo, M. F. (2023). Empezando a visualizar datos con R y ggplot2. (2. ed.). Universidad Icesi. https://doi.org/10.18046/EUI/bda.h.3.2
Alonso, J. C., & Ocampo, M. P. (2022). Empezando a usaR: Una guía paso a paso. Universidad Icesi. https://doi.org/10.18046/EUI/bda.h.1
R Core Team. (2023). R: A language and environment for statistical computing. R Foundation for Statistical Computing. https://www.R-project.org/
Wickham, H. (2016). ggplot2: Elegant graphics for data analysis. Springer-Verlag New York. https://ggplot2.tidyverse.org
Wickham, H., François, R., Henry, L., & Müller, K. (2022). Dplyr: A grammar of data manipulation. https://CRAN.R-project.org/package=dplyr