Entendiendo los Valores Atípicos en tus Cálculos

04/10/2022

★★★★★Valoración: 4.36 (12891 votos)

En el vasto universo de los datos, donde cada número cuenta una historia, a menudo nos encontramos con valores atípicos: esos puntos de datos que parecen no encajar, que se desvían drásticamente de la norma. Estos "extraños" pueden ser fascinantes o problemáticos, y su correcta identificación y manejo son fundamentales para garantizar la validez y precisión de cualquier análisis estadístico o cálculo que realicemos. Ignorarlos puede llevar a conclusiones erróneas y decisiones mal informadas. Este artículo explorará en profundidad qué son estos valores atípicos, por qué son tan importantes, cómo detectarlos utilizando diversas técnicas y cómo decidir el mejor curso de acción una vez identificados, transformando lo que podría ser un obstáculo en una oportunidad para una comprensión más profunda de nuestros datos.

¿Qué técnica estadística marca valores como atípicos? — La técnica del Rango Intercuartil (RIC) es un método estadístico crucial para detectar valores atípicos, especialmente en conjuntos de datos con asimetría o valores extremos.

¿Qué son los Valores Atípicos y por qué son Importantes?

Los valores atípicos, también conocidos como outliers, son observaciones en un conjunto de datos que se encuentran a una distancia inusual de otras observaciones. Son puntos que se sitúan en los extremos de la distribución de los datos. Su presencia puede ser el resultado de una variación natural dentro de la población que estamos estudiando, o pueden ser el producto de errores de medición, fallos en la entrada de datos, mal funcionamiento de equipos o muestreos no representativos.

Es crucial entender que un valor atípico no siempre es sinónimo de un dato "sucio" o incorrecto. Algunos representan variaciones genuinas y significativas de la población, mientras que otros son simplemente ruido que distorsiona nuestra visión. La clave reside en discernir su origen para poder manejarlos adecuadamente.

La importancia de los valores atípicos radica en su capacidad para influir drásticamente en los resultados de nuestros análisis estadísticos. Pueden distorsionar medidas de tendencia central como la media, inflar la variabilidad (desviación estándar) y afectar la potencia de las pruebas de hipótesis. Por ejemplo, si calculamos el promedio de salarios en una empresa y un solo empleado tiene un salario extremadamente alto, ese único valor atípico puede hacer que el promedio parezca mucho mayor de lo que realmente es para la mayoría de los empleados. Una correcta identificación y gestión de estos valores es, por lo tanto, un pilar fundamental de la integridad de los datos.

Tipos de Valores Atípicos: ¿Son Verdaderos o Errores?

Como se mencionó, no todos los valores atípicos son iguales. Distinguir entre un valor atípico "verdadero" y uno que es el resultado de un error es a menudo un proceso subjetivo, pero vital.

Valores Atípicos Verdaderos: Estos representan variaciones naturales dentro de la muestra o población. Por ejemplo, en un estudio sobre las alturas de adultos, una persona excepcionalmente alta o baja podría ser un valor atípico, pero sigue siendo una altura real y válida. Retener estos valores es importante porque reflejan la verdadera diversidad de los datos. Eliminarlos podría sesgar el análisis y llevar a conclusiones incompletas o erróneas sobre la población. Son especialmente comunes en distribuciones asimétricas, donde muchos puntos de datos se dispersan lejos de la media en una dirección.
Otros Valores Atípicos (Errores): Estos surgen de problemas en la recolección, entrada o procesamiento de datos. Algunos ejemplos incluyen:
- Errores de medición: Un instrumento de medición defectuoso o una lectura incorrecta.
- Errores de entrada o procesamiento de datos: Un cero adicional, un punto decimal mal colocado, o un valor ingresado en la columna equivocada.
- Muestreo no representativo: Si por error se incluye en la muestra a un grupo de individuos que no pertenece a la población objetivo.
Un ejemplo clásico de un valor atípico por error podría ser el registro de la edad de una persona como 200 años. Este valor es físicamente imposible y claramente un error de entrada de datos. Estos valores son problemáticos porque son inexactos y pueden distorsionar los resultados de la investigación, llevando a conclusiones erróneas.

Métodos para la Detección de Valores Atípicos

Identificar los valores atípicos es el primer paso para decidir cómo manejarlos. Existen varias técnicas, desde las más sencillas y visuales hasta las más sofisticadas y estadísticas. La elección del método dependerá de la naturaleza de tus datos, el tamaño del conjunto y los recursos disponibles.

Método de Ordenación Simple: Esta es la forma más básica de identificar posibles valores atípicos en variables cuantitativas. Consiste en ordenar los datos de menor a mayor y luego escanear los extremos de la lista en busca de valores extremadamente bajos o extremadamente altos.
- Ventajas: Es rápido y fácil de implementar, ideal para una revisión inicial.
- Desventajas: Es muy subjetivo y no proporciona un criterio estadístico claro para definir un atípico.
- Ejemplo: Si tienes los siguientes valores: 180, 156, 9, 176, 163, 1827, 166, 171. Al ordenarlos: 9, 156, 163, 166, 171, 176, 180, 1872. A simple vista, 9 y 1872 parecen ser valores atípicos.
Visualizaciones (Diagramas de Caja o Box Plots): Los diagramas de caja (o box plots) son herramientas visuales extremadamente útiles para detectar valores atípicos. Este tipo de gráfico muestra la distribución de los datos, incluyendo el rango, la mediana y el rango intercuartílico (IQR). Los valores atípicos suelen representarse como puntos individuales o asteriscos que se encuentran fuera de los "bigotes" del diagrama.
- Ventajas: Proporciona una visión rápida y clara de la distribución de los datos y la ubicación de los atípicos. Es intuitivo.
- Desventajas: No siempre es preciso para conjuntos de datos muy grandes o complejos. La definición de "bigotes" puede variar ligeramente entre softwares.
Detección Estadística con Puntuaciones Z (Z-Score): Este método implica convertir cada punto de datos en una puntuación Z, que indica cuántas desviaciones estándar se encuentra un punto de datos de la media del conjunto.
- Fórmula: Z = (X - μ) / σ, donde X es el valor del dato, μ es la media del conjunto de datos y σ es la desviación estándar.
- Criterio: Como regla general, los valores con una puntuación Z mayor a 3 o menor a -3 se consideran a menudo valores atípicos. Esto se basa en la suposición de una distribución normal, donde aproximadamente el 99.7% de los datos caen dentro de ±3 desviaciones estándar de la media.
- Ventajas: Es un método cuantitativo y objetivo, fácil de entender.
- Desventajas: Es sensible a la media y la desviación estándar, que a su vez pueden ser afectadas por los propios valores atípicos. No es adecuado para distribuciones no normales o muy asimétricas.

Método del Rango Intercuartílico (IQR): El Rango Intercuartílico (IQR) es una medida de dispersión que indica el rango del 50% central de un conjunto de datos. Es robusto frente a valores atípicos extremos y es ampliamente utilizado para su detección.

Pasos para calcular valores atípicos con el IQR:
1. Ordenar los datos: Organiza todos los valores de tu conjunto de datos de menor a mayor.
2. Identificar el Primer Cuartil (Q1), la Mediana y el Tercer Cuartil (Q3):
  - Mediana (Q2): Es el valor central del conjunto de datos ordenado. Si el número de datos es par, es el promedio de los dos valores centrales.
  - Q1 (Primer Cuartil): Es la mediana de la primera mitad del conjunto de datos (excluyendo la mediana si el número total de datos es impar). Representa el percentil 25.
  - Q3 (Tercer Cuartil): Es la mediana de la segunda mitad del conjunto de datos (excluyendo la mediana si el número total de datos es impar). Representa el percentil 75.
3. Calcular el IQR: IQR = Q3 - Q1.
4. Calcular los Límites (Fences):
  - Límite Superior: Q3 + (1.5 * IQR)
  - Límite Inferior: Q1 - (1.5 * IQR)
5. Identificar Atípicos: Cualquier valor en el conjunto de datos que sea mayor que el Límite Superior o menor que el Límite Inferior se considera un valor atípico.
Ejemplo Detallado del Método IQR: Consideremos el siguiente conjunto de datos de 11 valores: 26, 37, 24, 28, 35, 22, 31, 53, 41, 64, 29.
Paso 1: Ordenar los datos de menor a mayor
22, 24, 26, 28, 29, 31, 35, 37, 41, 53, 64
Paso 2: Identificar la Mediana, Q1 y Q3
- Mediana: Con 11 valores, la mediana es el 6º valor ( (11+1)/2 = 6). La Mediana = 31.
  22, 24, 26, 28, 29, 31, 35, 37, 41, 53, 64
- Q1 (Primer Cuartil): Es la mediana de la primera mitad de los datos (excluyendo la mediana si n es impar). Los datos de la primera mitad son: 22, 24, 26, 28, 29. La mediana de estos 5 valores es el 3º valor. Q1 = 26.
  22, 24, 26, 28, 29, 31, 35, 37, 41, 53, 64
- Q3 (Tercer Cuartil): Es la mediana de la segunda mitad de los datos (excluyendo la mediana). Los datos de la segunda mitad son: 35, 37, 41, 53, 64. La mediana de estos 5 valores es el 3º valor. Q3 = 41.
  22, 24, 26, 28, 29, 31, 35, 37, 41, 53, 64
Paso 3: Calcular el IQR
IQR = Q3 - Q1
IQR = 41 - 26 = 15
Paso 4: Calcular el Límite Superior
Límite Superior = Q3 + (1.5 * IQR)
Límite Superior = 41 + (1.5 * 15) = 41 + 22.5 = 63.5
Paso 5: Calcular el Límite Inferior
Límite Inferior = Q1 - (1.5 * IQR)
Límite Inferior = 26 - (1.5 * 15) = 26 - 22.5 = 3.5
Paso 6: Usar los límites para identificar atípicos
Volvamos a los datos ordenados: 22, 24, 26, 28, 29, 31, 35, 37, 41, 53, 64.
- ¿Hay algún valor menor que el Límite Inferior (3.5)? No.
- ¿Hay algún valor mayor que el Límite Superior (63.5)? Sí, el valor 64.
Por lo tanto, el valor 64 es el único valor atípico en este conjunto de datos según el método del IQR.
- Ventajas del IQR: Es menos sensible a los valores extremos que la puntuación Z y no asume una distribución normal, lo que lo hace más robusto para datos sesgados.
- Desventajas: Puede no ser tan eficaz en la detección de atípicos en conjuntos de datos muy grandes o multidimensionales.

Cómo Lidiar con los Valores Atípicos

Una vez que has identificado los valores atípicos, la siguiente y más crítica decisión es qué hacer con ellos. Las opciones principales son retenerlos o eliminarlos del conjunto de datos. No hay una respuesta única y universal; la decisión debe basarse en el contexto de tus datos y el objetivo de tu análisis.

¿Qué son los valores atípicos y cómo se definen? — Los valores atípicos son valores extremos que difieren de la mayoría de los demás puntos de datos de un conjunto de datos. Pueden tener un gran impacto en los análisis estadísticos y distorsionar los resultados de cualquier prueba de hipótesis .

Para cada valor atípico, pregúntate:

¿Es este valor coherente con otras mediciones tomadas del mismo sujeto o proceso?
¿Es este punto de datos completamente imposible o podría razonablemente provenir de la población que estoy estudiando?
¿Cuál es la causa más probable del valor atípico? ¿Es una variación natural o un error?

En general, la aproximación más conservadora es retener los valores atípicos siempre que sea posible, especialmente si no hay una razón clara para considerarlos errores.

Retener Valores Atípicos: Es la opción preferible cuando no estás seguro de si son errores. Si tu muestra es grande, la influencia de un par de valores atípicos será menor en los resultados generales, ya que la tendencia central y la variabilidad de tus datos no se verán tan afectadas. Además, si los valores atípicos son verdaderos, retenerlos asegura que tu análisis refleje la verdadera variabilidad de la población. Si tu conjunto de datos contiene muchos valores atípicos o si la distribución es muy asimétrica, considera usar pruebas estadísticas no paramétricas, ya que son más robustas a la presencia de valores atípicos que las pruebas paramétricas tradicionales.
Eliminar Valores Atípicos: La eliminación de valores atípicos implica borrarlos de tu conjunto de datos antes de realizar los análisis. Esto solo debe hacerse si tienes razones legítimas y bien documentadas para creer que son errores o datos de mala calidad.
- Riesgos de la eliminación: Eliminar valores atípicos verdaderos puede llevar a un conjunto de datos sesgado y a conclusiones inexactas. Es difícil distinguir con certeza entre un atípico verdadero y un error.
- Cuándo considerar la eliminación: Solo si es un error obvio (ej. edad de 200 años) o si la fuente del error es conocida y documentada. Siempre documenta cada valor atípico eliminado y las razones para hacerlo, para que otros investigadores puedan entender y replicar tus procedimientos.
Una alternativa a la eliminación es la imputación o transformación. La imputación podría implicar reemplazar el valor atípico con un valor más razonable (ej. la mediana o un valor límite). Las transformaciones (como la logarítmica) pueden reducir el impacto de los valores atípicos al cambiar la escala de los datos, haciendo que la distribución sea más simétrica.

Tabla Comparativa de Métodos de Detección de Valores Atípicos

Método	Descripción	Ventajas	Desventajas
Ordenación Simple	Escaneo visual de datos ordenados.	Rápido, fácil para inspección inicial.	Subjetivo, no estadístico, no apto para grandes volúmenes.
Diagramas de Caja	Representación visual de cuartiles y extremos.	Intuitivo, buena visión de la distribución, robusto a la forma de la distribución.	No es preciso para todos los casos, la definición de "bigotes" puede variar.
Puntuación Z	Mide la distancia en desviaciones estándar desde la media.	Cuantitativo, objetivo, fácil de interpretar.	Sensible a atípicos (que afectan la media/desviación), asume normalidad.
Rango Intercuartílico (IQR)	Define límites basados en Q1, Q3 y el IQR.	Robusto a valores extremos, no asume normalidad, ampliamente aceptado.	Puede no ser el mejor para datos multidimensionales o muy grandes.
Análisis Multivariado	Identifica atípicos en relaciones entre múltiples variables.	Útil para datos complejos, detecta atípicos que no son obvios univariadamente.	Más complejo, requiere más conocimientos estadísticos, computacionalmente intensivo.
Machine Learning	Algoritmos que aprenden patrones y detectan desviaciones.	Adaptable, puede encontrar patrones sutiles en datos complejos.	Requiere grandes volúmenes de datos, puede ser una "caja negra", computacionalmente intensivo.

Preguntas Frecuentes (FAQ)

¿Qué técnica estadística marca valores como atípicos?

Existen varias técnicas estadísticas y analíticas para identificar valores atípicos, cada una con sus propias fortalezas y aplicaciones. Las más comunes y efectivas incluyen:

Método de la Puntuación Z: Calcula cuántas desviaciones estándar se encuentra un punto de datos de la media. Un umbral común para considerar un valor como atípico es una puntuación Z mayor a 3 o menor a -3.
Método del Rango Intercuartílico (IQR): Utiliza el IQR para establecer límites superiores e inferiores (Q3 + 1.5*IQR y Q1 - 1.5*IQR). Cualquier dato fuera de estos límites se considera atípico.
Análisis de Diagramas de Caja (Box Plot): Una representación visual que muestra la mediana, los cuartiles y los rangos. Los puntos individuales que se extienden más allá de los "bigotes" del gráfico suelen ser atípicos.
Análisis Multivariado (MVA): Para conjuntos de datos con múltiples variables, el MVA puede identificar atípicos que no serían evidentes al analizar las variables de forma individual, buscando patrones anómalos en las relaciones entre variables.
Métodos basados en Machine Learning: Algoritmos avanzados como DBSCAN (Density-Based Spatial Clustering of Applications with Noise) o Local Outlier Factor (LOF) pueden detectar anomalías en estructuras de datos complejas, identificando puntos de datos que tienen una densidad significativamente menor que sus vecinos.

¿Por qué es importante identificar los valores atípicos en mis cálculos?

Identificar los valores atípicos es crucial porque pueden distorsionar significativamente los resultados de cualquier análisis estadístico. Pueden:

Alterar la media y la desviación estándar, dando una imagen engañosa de la tendencia central y la variabilidad de tus datos.
Invalidar las suposiciones de ciertas pruebas estadísticas, lo que lleva a conclusiones incorrectas.
Afectar la creación de modelos predictivos, haciendo que sean menos precisos.
Ocultar o exagerar patrones reales en los datos, impidiendo una comprensión precisa de los fenómenos estudiados.

Un manejo adecuado de los valores atípicos asegura la integridad y fiabilidad de tus análisis.

¿Debo siempre eliminar los valores atípicos?

No, la eliminación de valores atípicos es una decisión que debe tomarse con precaución. Solo debes eliminarlos si tienes una razón clara y documentada para creer que son errores o datos inválidos (por ejemplo, errores de entrada, fallos de equipo). Si un valor atípico representa una variación real y natural en tus datos, eliminarlo podría sesgar tu análisis y llevar a conclusiones erróneas. En muchos casos, es preferible retenerlos o utilizar métodos estadísticos que sean más robustos a su presencia.

¿Cómo afectan los valores atípicos a la media y la mediana?

Los valores atípicos tienen un impacto mucho mayor en la media que en la mediana. La media es sensible a cada valor individual en el conjunto de datos, por lo que un valor extremadamente alto o bajo puede "tirar" la media hacia esa dirección. La mediana, al ser el punto medio de los datos ordenados, es una medida más robusta a los valores extremos y se ve mucho menos afectada por la presencia de valores atípicos.

¿Qué es un "verdadero" valor atípico?

Un "verdadero" valor atípico es aquel que, aunque se desvía significativamente del resto de los datos, representa una observación genuina y válida dentro de la población o proceso que se está midiendo. No es el resultado de un error de medición o de entrada de datos, sino una variación natural. Por ejemplo, en un conjunto de datos de velocidades de corredores, un atleta olímpico podría ser un valor atípico real debido a su excepcional rendimiento.

Conclusión:

Los valores atípicos son una parte inherente de casi cualquier conjunto de datos y su comprensión es crucial para la integridad y la precisión de cualquier análisis. Lejos de ser meros "errores", pueden ser indicadores de fenómenos interesantes o, si son errores, una fuente de distorsión significativa. Hemos explorado desde la definición fundamental de los valores atípicos hasta las diversas metodologías para su detección, como la ordenación simple, los diagramas de caja, las puntuaciones Z y el robusto método del rango intercuartílico. La elección del método y la decisión de retener o eliminar estos valores dependen en gran medida del contexto y del origen probable del atípico. Al abordar los valores atípicos con conocimiento y precaución, no solo mejoramos la calidad de nuestros análisis, sino que también obtenemos una visión más profunda y fiable de los datos, permitiéndonos tomar decisiones más informadas y acertadas en cualquier campo de estudio o aplicación.

Si quieres conocer otros artículos parecidos a Entendiendo los Valores Atípicos en tus Cálculos puedes visitar la categoría Estadística.