03/09/2023
En el vasto universo de la estadística, comprender la distribución de los datos es fundamental para extraer conclusiones significativas. Entre las diversas medidas de tendencia central, la mediana se erige como una herramienta poderosa y a menudo subestimada, ofreciendo una perspectiva única sobre el 'centro' de un conjunto de datos. A diferencia de la media, que puede verse fuertemente influenciada por valores extremos, la mediana proporciona una medida de posición que es resistente a los valores atípicos, lo que la convierte en una opción preferida en muchas situaciones prácticas.
Este artículo te guiará a través del concepto de la mediana, sus propiedades distintivas y, lo más importante, cómo calcularla de manera efectiva para diferentes tipos de series de datos, con un enfoque particular en los datos discretos. Dominar el cálculo de la mediana te permitirá analizar conjuntos de datos de forma más precisa y obtener una comprensión más profunda de la información que contienen.
- ¿Qué es la Mediana y Por Qué es Tan Crucial?
- Propiedades Fundamentales de la Mediana
- Cálculo de la Mediana para Series Individuales
- Cálculo de la Mediana para Series Discretas (Datos con Frecuencia)
- La Mediana en Distribuciones Continuas (Breve Mención)
- Preguntas Frecuentes sobre la Mediana
- ¿Cuál es la diferencia principal entre la media y la mediana?
- ¿Cuándo debería usar la mediana en lugar de la media?
- ¿Puede una distribución tener más de una mediana?
- ¿La mediana siempre es uno de los valores del conjunto de datos?
- ¿Cómo afecta la adición o eliminación de un valor a la mediana?
- ¿Se puede calcular la mediana para datos cualitativos?
- Conclusión
¿Qué es la Mediana y Por Qué es Tan Crucial?
La mediana se define como el valor que ocupa la posición central en un conjunto de observaciones cuando estas se han ordenado de forma ascendente o descendente. Imagina una línea de personas ordenadas por altura; la mediana sería la altura de la persona que está justo en el medio. Esta característica posicional la distingue de otras medidas de tendencia central.
Su importancia radica en que el cincuenta por ciento de las puntuaciones están por encima o por debajo de la mediana. Por esta razón, a menudo se la denomina el percentil 50 o un promedio posicional. La localización exacta de la mediana depende de si el conjunto de datos consta de un número par o impar de valores. El método para encontrar la mediana difiere ligeramente para un número par e impar de observaciones, lo cual exploraremos en detalle.
La robustez de la mediana frente a los valores extremos la hace invaluable en campos como la economía, la medicina o la sociología, donde los datos pueden presentar distribuciones asimétricas o contener valores atípicos que distorsionarían la media. Por ejemplo, al analizar los ingresos de una población, la mediana ofrece una imagen mucho más representativa del ingreso 'típico' que la media, la cual podría ser inflada por unos pocos individuos con ingresos extremadamente altos.
Propiedades Fundamentales de la Mediana
Para comprender plenamente el valor de la mediana, es esencial conocer sus propiedades distintivas:
- Independencia de Valores Extremos: La mediana no depende de todos los valores de los datos en un conjunto, solo de su posición central. Esto significa que los valores muy grandes o muy pequeños (valores atípicos) tienen un impacto mínimo en su valor.
- Determinada por su Posición: El valor de la mediana está fijado por su posición y no es directamente un reflejo del valor individual de cada dato, sino de su ordenamiento.
- Minimiza las Distancias Absolutas: La suma de las distancias absolutas entre la mediana y el resto de los valores en un conjunto de datos es menor que la suma de las distancias absolutas desde cualquier otro punto. Esta es una propiedad matemática importante que subraya su rol como 'centro'.
- Unicidad: Cada conjunto ordenado de datos tiene una única mediana. No hay ambigüedad en su determinación.
- No Manipulable Algebraicamente: A diferencia de la media, la mediana no puede ser manipulada algebraicamente de la misma manera (por ejemplo, no se puede pesar y combinar fácilmente entre diferentes conjuntos de datos).
- Estabilidad en Agrupaciones: En un procedimiento de agrupación de datos, la mediana tiende a ser más estable y menos susceptible a las variaciones que otras medidas.
- Aplicabilidad Limitada a Datos Cualitativos: La mediana no es aplicable a datos cualitativos nominales (por ejemplo, colores favoritos), ya que estos no pueden ser ordenados de manera significativa.
- Requiere Ordenamiento: Para su cálculo, los valores deben ser agrupados y ordenados. Sin un ordenamiento previo, la mediana no puede ser determinada.
- Adecuada para Escalas Específicas: La mediana puede determinarse para datos en escala de razón, intervalo y ordinal. Su naturaleza posicional la hace ideal para datos ordinales donde el orden importa, pero las diferencias entre valores no son necesariamente uniformes.
- Resistencia a la Asimetría y Outliers: Los valores atípicos y los datos con distribuciones asimétricas tienen un impacto significativamente menor en la mediana en comparación con la media.
- Mejor Medida en Distribuciones Asimétricas: Si la distribución de los datos es asimétrica (sesgada), la mediana es una medida de tendencia central más representativa y confiable que la media.
Cálculo de la Mediana para Series Individuales
Una serie individual se refiere a un conjunto de datos crudos o no agrupados. El método para encontrar la mediana en este caso es sencillo y depende del número total de observaciones (n).
Paso 1: Ordenar los Datos
El primer y más crucial paso es organizar los datos en orden ascendente o descendente. Sin este paso, cualquier cálculo posterior de la mediana será incorrecto.
Paso 2: Determinar la Posición de la Mediana
Caso 1: Muestra de Tamaño Impar (n es impar)
Si el número de observaciones (n) es impar, la mediana es el valor de la observación que se encuentra exactamente en la posición central. La fórmula para su localización es:
Mediana = Valor del ([n + 1] / 2) -ésimo elemento
Ejemplo Ilustrativo:
Consideremos el conjunto de datos: 10, 14, 11, 9, 8, 12, 6.
- Ordenar los datos: 6, 8, 9, 10, 11, 12, 14.
- Contar el número de observaciones (n): n = 7 (que es un número impar).
- Aplicar la fórmula para n impar:
Mediana = Valor del ([7 + 1] / 2) -ésimo término
Mediana = Valor del (8 / 2) -ésimo término
Mediana = Valor del 4º término
- Identificar el valor en la posición central: En la secuencia ordenada (6, 8, 9, 10, 11, 12, 14), el 4º término es 10.
Por lo tanto, la mediana es 10.
Otro Ejemplo:
Encuentra la mediana de 11, 15, 13, 27, 19, 24 y 20.
- Ordenar los datos: 11, 13, 15, 19, 20, 24, 27.
- Contar n: n = 7 (impar).
- Aplicar fórmula: Mediana = Valor del ([7 + 1] / 2) -ésimo término = 4º término.
- Identificar valor: El 4º término en la serie ordenada es 19.
Ahora, si 13 es reemplazado por 31, ¿cuál es la nueva mediana?
- Nueva serie ordenada: 11, 15, 19, 20, 24, 27, 31.
- n sigue siendo 7 (impar).
- Aplicar fórmula: Mediana = Valor del 4º término.
- Identificar valor: El 4º término en la nueva serie ordenada es 20.
Este ejemplo demuestra la estabilidad de la mediana; a pesar de un cambio significativo en uno de los valores, la mediana solo cambió de 19 a 20, mostrando su menor sensibilidad a los valores extremos.
Caso 2: Muestra de Tamaño Par (n es par)
Si el número de observaciones (n) es par, no hay un único valor central. En este caso, la mediana se calcula como el promedio de los dos valores centrales. La fórmula es:
Mediana = ½ [ Valor del (n / 2) -ésimo elemento + Valor del ([n / 2] + 1) -ésimo elemento ]
Ejemplo Ilustrativo:
Consideremos el conjunto de datos: 4, 6, 8, 10, 12, 14.
- Datos ya ordenados.
- Contar n: n = 6 (par).
- Aplicar la fórmula para n par:
Mediana = ½ [ Valor del (6 / 2) -ésimo término + Valor del ([6 / 2] + 1) -ésimo término ]
Mediana = ½ [ Valor del 3º término + Valor del 4º término ]
- Identificar los valores centrales: En la secuencia ordenada (4, 6, 8, 10, 12, 14), el 3º término es 8 y el 4º término es 10.
- Calcular el promedio:
Mediana = ½ [8 + 10]
Mediana = ½ [18]
Mediana = 9
Por lo tanto, la mediana es 9.
Cálculo de la Mediana para Series Discretas (Datos con Frecuencia)
Cuando los datos se presentan en una distribución de frecuencias discretas, donde cada valor tiene una frecuencia asociada (es decir, cuántas veces aparece ese valor), el proceso de cálculo de la mediana implica un paso adicional: la frecuencia acumulada. Los datos discretos son aquellos que pueden contarse y toman valores enteros o un conjunto finito de valores, como el número de hijos por familia o las puntuaciones en un examen.
Paso 1: Ordenar los Datos
Al igual que con las series individuales, el primer paso es asegurarse de que los datos estén ordenados en orden ascendente o descendente. Generalmente, se ordenan los valores de la variable (X) y sus frecuencias (f).
Paso 2: Calcular las Frecuencias Acumuladas
La frecuencia acumulada para una clase o valor dado es la suma de la frecuencia de esa clase y las frecuencias de todas las clases anteriores. Este paso es crucial porque nos permite determinar la posición de la mediana dentro del conjunto de datos agrupados.
Paso 3: Determinar la Posición de la Mediana
La mediana se encuentra en la posición del (n / 2) -ésimo término, donde 'n' representa la suma total de todas las frecuencias (es decir, el número total de observaciones).
Paso 4: Identificar la Mediana
Una vez que se ha calculado (n / 2), se busca en la columna de frecuencias acumuladas el primer valor que sea igual o mayor que (n / 2). El valor de la variable (X) correspondiente a esa frecuencia acumulada es la mediana.
Fórmula para Series Discretas:
Mediana = Valor de la variable (X) correspondiente a la primera frecuencia acumulada que sea igual o mayor que (n / 2)
Donde 'n' es la suma de todas las frecuencias (∑f).
Ejemplo Detallado:
Los siguientes datos muestran la distribución de la altura de los estudiantes:
| Altura (en cm) | Número de Estudiantes (Frecuencia, f) |
|---|---|
| 160 | 12 |
| 150 | 8 |
| 152 | 4 |
| 161 | 4 |
| 156 | 3 |
| 154 | 3 |
| 155 | 7 |
- Ordenar los datos y calcular la Frecuencia Acumulada:
Primero, organizamos los datos por altura en orden ascendente y luego calculamos la frecuencia acumulada (fa).
Altura (en cm) (X) Frecuencia (f) Frecuencia Acumulada (fa) 150 8 8 152 4 8 + 4 = 12 154 3 12 + 3 = 15 155 7 15 + 7 = 22 156 3 22 + 3 = 25 160 12 25 + 12 = 37 161 4 37 + 4 = 41 - Calcular n (suma total de frecuencias):
n = 8 + 4 + 3 + 7 + 3 + 12 + 4 = 41.
- Determinar la posición de la mediana:
Posición de la mediana = n / 2 = 41 / 2 = 20.5.
Dado que estamos buscando una posición en una lista discreta, buscaremos el 21º término (ya que 20.5 indica que la mediana está entre el 20º y el 21º, y en datos discretos la mediana es el valor cuya frecuencia acumulada 'incluye' esa posición).
- Identificar la mediana usando la frecuencia acumulada:
Buscamos en la columna de 'Frecuencia Acumulada' el primer valor que sea igual o mayor que 20.5. Observamos que:
- Hasta 154 cm, tenemos 15 estudiantes.
- Hasta 155 cm, tenemos 22 estudiantes.
Dado que 22 es el primer valor de frecuencia acumulada que es igual o mayor que 20.5 (o el 21º término), la mediana corresponde al valor de la altura (X) de esa fila.
Por lo tanto, la mediana de la distribución es 155 cm. Esto significa que la mitad de los estudiantes miden 155 cm o menos, y la otra mitad mide 155 cm o más.
La Mediana en Distribuciones Continuas (Breve Mención)
Aunque el enfoque principal de este artículo es la mediana en datos discretos e individuales, es importante mencionar brevemente que para datos agrupados en intervalos de clase (distribuciones continuas), la mediana se calcula utilizando una fórmula de interpolación. Esta fórmula considera el límite inferior de la clase mediana, la frecuencia de la clase mediana, la suma total de frecuencias, el ancho de la clase y la frecuencia acumulada de la clase que precede a la clase mediana. La fórmula es:
Mediana = L + [((N/2) - C) / f] * i
Donde:
L= Límite inferior de la clase medianaf= Frecuencia de la clase medianaN= Suma de todas las frecuenciasi= Ancho de la clase medianaC= Frecuencia acumulada de la clase que precede a la clase mediana
Este método es más complejo y se aplica cuando los datos representan un rango continuo de valores, como estaturas con decimales o tiempos exactos.
Preguntas Frecuentes sobre la Mediana
¿Cuál es la diferencia principal entre la media y la mediana?
La diferencia principal radica en su sensibilidad a los valores extremos. La media (promedio aritmético) se calcula sumando todos los valores y dividiendo por el número de observaciones, lo que la hace muy sensible a valores atípicos (outliers). Un solo valor extremadamente grande o pequeño puede distorsionar significativamente la media. En contraste, la mediana es el valor central de un conjunto de datos ordenado y es mucho más robusta frente a los valores atípicos, ya que solo se ve afectada por su posición, no por su magnitud extrema. Por lo tanto, la mediana es una mejor medida de tendencia central para datos asimétricos o con outliers.
¿Cuándo debería usar la mediana en lugar de la media?
Deberías usar la mediana en lugar de la media cuando tu conjunto de datos presenta una distribución asimétrica (sesgada) o cuando contiene valores atípicos significativos. Por ejemplo, al analizar ingresos, precios de viviendas o tiempos de reacción, donde unos pocos valores extremos pueden sesgar el promedio, la mediana proporciona una representación más precisa del 'valor típico' o 'central'. Si la distribución es simétrica y no hay valores atípicos, tanto la media como la mediana serán muy similares y ambas son buenas opciones.
¿Puede una distribución tener más de una mediana?
No, por definición, una distribución siempre tiene una única mediana. Aunque para un número par de observaciones la mediana se calcula como el promedio de los dos valores centrales, el resultado final es un valor único que representa el punto medio de los datos. Esta unicidad es una de las propiedades fundamentales de la mediana.
¿La mediana siempre es uno de los valores del conjunto de datos?
No necesariamente. Si el número de observaciones (n) es impar, la mediana será uno de los valores del conjunto de datos. Sin embargo, si n es par, la mediana se calcula como el promedio de los dos valores centrales. En este caso, la mediana puede ser un valor que no existe explícitamente en el conjunto de datos original, especialmente si los dos valores centrales son diferentes y su promedio no coincide con ninguno de ellos.
¿Cómo afecta la adición o eliminación de un valor a la mediana?
La adición o eliminación de un valor puede afectar la mediana de varias maneras, dependiendo de la posición y el valor del dato añadido/eliminado, y si el número total de observaciones cambia de impar a par o viceversa. Si se añade o elimina un valor que no cambia la posición central del conjunto ordenado, la mediana podría permanecer igual. Sin embargo, si el cambio altera la posición de los valores centrales, la mediana cambiará. En general, la mediana es menos sensible a los cambios individuales que la media, especialmente si los cambios ocurren en los extremos de la distribución.
¿Se puede calcular la mediana para datos cualitativos?
La mediana se puede calcular para datos cualitativos que son de naturaleza ordinal. Los datos ordinales son aquellos que pueden ser ordenados o clasificados en una secuencia significativa (por ejemplo, calificaciones de 'malo', 'regular', 'bueno' o niveles educativos como 'primaria', 'secundaria', 'universitaria'). Sin embargo, no se puede calcular la mediana para datos cualitativos nominales (por ejemplo, color de ojos, tipo de fruta), ya que no existe un orden inherente que permita identificar un 'centro'.
Conclusión
La mediana es una medida de tendencia central esencial en el análisis estadístico, particularmente cuando se trabaja con conjuntos de datos que pueden estar sesgados o contener valores atípicos. Su naturaleza posicional la hace resistente a las influencias extremas, proporcionando una representación más fiel del 'centro' de la distribución en muchas situaciones del mundo real.
Hemos explorado cómo calcular la mediana tanto para series individuales, distinguiendo entre conjuntos de datos con un número par o impar de observaciones, como para series discretas, donde la incorporación de la frecuencia acumulada es un paso clave. Comprender y aplicar correctamente estos métodos te permitirá interpretar tus datos con mayor precisión y tomar decisiones más informadas, independientemente del campo en el que te encuentres. La mediana no es solo un número; es una ventana a la verdadera distribución de tus datos.
Si quieres conocer otros artículos parecidos a La Mediana: Descifrando el Centro Oculto de tus Datos puedes visitar la categoría Estadística.
