Prefacio
Ya sea que seas un científico de datos experimentado o apenas estés empezando tu camino de formación, este libro te ayudará en empezar el estudio del fascinante mundo de la detección de anomalías. Te permitirá descubrir cómo los diferentes modelos y técnicas pueden ayudarte a revelar lo inesperado en los datos y brindar insights para la toma de decisiones más informadas y estratégicas basadas en datos.
Este libro surge de las notas de clase del curso Introducción al Business Analytics de la Universidad Icesi. Después de emplear por varios años parte del material que conforma esta obra, decidimos convertir estas notas en una obra autocontenida. Los contenidos de los capítulos y su arquitectura, son producto de los comentarios valiosos de los estudiantes de este curso y los investigadores del Cienfi, con quienes estamos agradecidos.
Este libro presenta una introducción a los modelos estadísticos y de aprendizaje de máquina que permiten realizar la tarea de identificación de anomalías en R (R Core Team, 2025). La detección de anomalías es una tarea útil en diferentes áreas del mundo de negocios para encontrar comportamientos atípicos. En este libro explicaremos esto con mayor detalle. Así mismo, en cada capítulo presentaremos aplicaciones en R (R Core Team, 2025) que te permitirán practicar lo aprendido. La discusión de los diferentes capítulos está dirigida a personas que están empezando su formación de científico de datos. Es decir, a personas que están construyendo su caja de herramientas que le permitan realizar tareas típicas de un científico de datos.
Con esta obra completamos una colección de 6 libros que introducen 6 de las tareas rutinarias de un científico de datos:
- Visualizar (Alonso, 2022)
- Clusterizar (Agrupar) (Alonso et al., 2025)
- Clasificar (Alonso & Hoyos, 2025)
- Encontrar reglas de asociación (Alonso & Arboleda, 2025)
- Estimar regresiones (Alonso, 2024)
Esperamos que esta obra pueda ayudarte en tu camino de formación en aprender técnicas del business analytics y cómo aplicarlas empleando R.
Esta obra recoge nuestra experiencia trabajando con R y detección de anomalías para resolver problemas con datos desde el Cienfi (Centro de Investigación en Economía y Finanzas) de la Universidad Icesi. En el Cienfi, empleamos R para la transformación de datos en conclusiones que faciliten la toma de decisiones en organizaciones privadas y públicas. Toda esta experiencia la queremos plasmar en esta obra para asegurar que nuevas generaciones de profesionales continúen fortaleciendo la comunidad de R alrededor del mundo.
Este libro supone un uso intermedio de R. Si crees que necesitas algún refuerzo en R, te recomendamos tres libros. Alonso & Ocampo (2022) presenta una breve introducción para iniciar a usar R. Ese primer libro discute cómo instalar R y RStudio y paquetes, cómo cargar diferentes bases de datos y cómo realizar operaciones aritméticas y lógicas con objetos. En ese libro también se discuten las clases esenciales de objetos sencillos y compuestos. No dudes en consultar ese primer libro si aún no has iniciado tu camino por el universo de R.
El segundo libro de la serie (Alonso, 2022) presenta una breve introducción al paquete para dplyr (Wickham et al., 2021) que permite manipular objetos que contengan datos. En ese libro se discute cómo filtrar observaciones, crear nuevas variables y combinar objetos con datos. Es recomendable tener un conocimiento de ese paquete antes de leer esta obra. Consulta ese segundo libro si aún no has tenido alguna experiencia manipulando objetos con datos con dplyr.
Finalmente, te recomendamos leer (Alonso & Largo, 2023) en el que se presenta una introducción a la creación de visualizaciones con el paquete ggplot2 (Wickham, 2016). En esta obra emplearemos visualizaciones construidas con este paquete. Así este libro asume un manejo intermedio de R, y los paquetes dplyr y ggplot2.
Por otro lado, es deseable que antes de leer este libro tengas conocimientos a nivel introductorio de modelos que permitan realizar la tarea de clasificación y la tarea de clústering. Una introducción a los modelos de clasificación en R la puedes encontrar en Alonso & Hoyos (2025) y una introducción a la construcción de conglomerados en R la puedes consultar en Alonso et al. (2025).
Este libro está organizado en tres grandes partes. La primera parte que corresponde al Capítulo 1 y presenta una introducción a la tarea de detección de anomalías y discute qué es una anomalía y los tipos de anomalía. La segunda parte, que va del Capítulo 2 al 6, se concentra en los métodos de origen en la estadística para detectar anomalías. En el Capítulo 2 se discute el uso de estadísticas descriptivas para encontrar anomalías en una sola variable (anomalías univariadas). Así mismo, en ese capítulo discutimos la labor del análisis exploratorio de los datos, también conocido por su sigla en inglés EDA (Exploratory Data Analysis), y cómo la detección de anomalías es parte de esa labor. En el Capítulo 3, a diferencia del Capítulo 2, se discuten pruebas estadísticas para encontrar outliers univariados. En este capítulo también introducimos el proceso conocido como Extracción, Transformación y Carga (ETL por el término en inglés Extract-Transform-Load) en el que también las técnicas para encontrar anomalías es importante.
El Capítulo 4 presenta pruebas estadísticas para encontrar observaciones anómalas multivariadas; es decir, observaciones que son anomalías no solamente teniendo en cuenta una sola variable. En el Capítulo 5 en el que discutimos cómo emplear la técnica de Componentes Principales (PCA por su sigla en inglés) para detectar anomalías multivariadas. Finalmente, la segunda parte del libro la cierra el Capítulo 6, capítulo en el que hacemos un pequeño alto en el camino para discutir qué es un fraude, cuáles son los tipos de fraude y las propiedades deseables de un buen modelo para detectar fraude. Así mismo, ahí presentamos la Ley de Benford que es una herramienta convencional y potente para detectar fraudes.
La tercera parte del libro presenta métodos de aprendizaje de máquina para la detección de anomalías multivariadas. En el Capítulo 7 se presenta una breve discusión al aprendizaje de máquina (Machine Learning) y su relación con el campo de la Inteligencia Artifical. En el Capítulo 8 se discuten métricas para detectar anomalías de origen en el aprendizaje de máquina como la distancia kNN y LOF. En el Capítulo 9 se discute el uso del modelo de clúatering DBSCAN para detectar anomalías. Finalmente, el Capítulo 10 presenta los modelos de Isolation Tree y Isolation Forest para detectar anomalías.
El libro concluye con una cuarta parte muy corta compuesta por el Capítulo 11 que presenta un cierre a esta obra y discute otros modelos para la detección de anomalías que no fueron cubiertas en este libro.
¡Esperamos encuentres esta obra útil y la compartas con otros futuros usuarios interesados! Si tienes alguna sugerencia del libro o corrección, no dudes en escribirnos. Esta es una obra en constante construcción.