¿Cómo calcular el desvio estándar de una muestra?

¿Cómo Calcular la Varianza de un Conjunto de Datos?

08/04/2022

Valoración: 4.76 (5930 votos)

En el fascinante mundo de la estadística y la probabilidad, la varianza emerge como una herramienta fundamental para comprender la dispersión o el grado de propagación de un conjunto de datos. Lejos de ser un concepto abstracto, la varianza nos ofrece una medida concreta de cuán lejos se encuentran los valores individuales de una serie de números respecto a su valor promedio, o media. Imagina que tienes un grupo de amigos y quieres saber qué tan similares son en altura; la varianza te daría una idea de cuán dispersas están sus estaturas alrededor de la altura promedio del grupo. Este artículo te guiará a través de la definición de varianza, sus fórmulas, propiedades y, lo más importante, cómo calcularla paso a paso con ejemplos prácticos.

¿Cuál es la fórmula para la varianza poblacional en palabras?
La fórmula de la varianza poblacional mide la distancia media al cuadrado de los puntos de datos respecto a la media poblacional. Para calcularla, se puede restar la media de cada punto de datos, elevar el resultado al cuadrado, sumar todos los valores al cuadrado y dividir entre el número total de observaciones de la población .
Índice de Contenido

¿Qué es la Varianza?

La varianza es una medida de dispersión que indica qué tan lejos están los puntos de datos de la media de un conjunto. En términos sencillos, cuantifica la medida en que un conjunto de datos (números) se dispersa de su valor medio (promedio). Es, en esencia, el valor esperado de la variación al cuadrado de una variable aleatoria con respecto a su valor medio.

Su valor es siempre igual al cuadrado de la desviación estándar, otra herramienta estadística central que mide la misma dispersión, pero en las unidades originales de los datos, lo que la hace más interpretable. La varianza se representa simbólicamente con diferentes notaciones:

  • σ² (sigma al cuadrado) para la varianza poblacional.
  • s² para la varianza muestral.
  • Var(X) cuando se refiere a la varianza de una variable aleatoria X.

Cuanto mayor sea el valor de la varianza, más dispersos estarán los datos con respecto a su media. Por el contrario, si el valor de la varianza es bajo o mínimo, significa que los datos están menos dispersos y se agrupan más cerca de la media. Por esta razón, se le conoce como una medida de la propagación de los datos desde la media.

Fórmulas Clave para el Cálculo de la Varianza

Para propósitos de cálculo, la fórmula fundamental de la varianza de una variable aleatoria X es:

Var(X) = E[(X – μ)²]

Donde:

  • X es la variable aleatoria.
  • μ (mu) es la media de la población de X, que es igual a E(X), el valor esperado de X.

Esta fórmula se lee como: la varianza es la expectativa de la desviación al cuadrado de un conjunto de datos aleatorios con respecto a su valor medio. A partir de esta definición, podemos derivar otra forma útil de la fórmula:

Var(X) = E[ (X - E(X))² ]

Expandiendo el término al cuadrado:

Var(X) = E[ X² - 2X E(X) + (E(X))² ]

Aplicando la propiedad de linealidad de la esperanza (E[aY + bZ] = aE[Y] + bE[Z]):

Var(X) = E(X²) - 2 E(X) E(X) + (E(X))²

Simplificando, obtenemos una fórmula alternativa muy práctica:

Var(X) = E(X²) - (E(X))²

En ocasiones, la covarianza de la variable aleatoria consigo misma se considera la varianza de esa variable:

Var(X) = Cov(X, X)

Varianza Poblacional vs. Varianza Muestral

Es crucial distinguir entre la varianza para una población completa y la varianza para una muestra extraída de esa población. Las fórmulas difieren ligeramente, especialmente en el denominador:

ConceptoFórmula de la Desviación EstándarFórmula de la Varianza (Desviación Estándar al Cuadrado)Símbolos Clave
Varianza Poblacionalσ = √[ Σ(X - μ)² / N ]σ² = Σ(X - μ)² / NX: Valor de observación
μ: Media poblacional
N: Número total de valores en la población
Varianza Muestrals = √[ Σ(x - x̄)² / (n - 1) ]s² = Σ(x - x̄)² / (n - 1)x: Valor de observación
: Media muestral
n: Número de observaciones en la muestra

La razón por la que se divide por n-1 para la varianza muestral (conocido como corrección de Bessel) es para obtener un estimador insesgado de la varianza poblacional, ya que la media muestral tiende a subestimar la dispersión real de la población.

Propiedades Clave de la Varianza

La varianza, Var(X), de una variable aleatoria X posee las siguientes propiedades importantes:

  • Varianza de una constante: La varianza de una constante C es cero, ya que no hay dispersión. Var(C) = 0.
  • Suma de una constante: Si se suma una constante a una variable, la varianza no cambia. Var(X + C) = Var(X), donde C es una constante. Esto tiene sentido, ya que sumar una constante simplemente desplaza el conjunto de datos, pero no altera su dispersión.
  • Multiplicación por una constante: Si se multiplica una variable por una constante, la varianza se multiplica por el cuadrado de esa constante. Var(CX) = C² ⋅ Var(X), donde C es una constante.
  • Combinación lineal: Combinando las propiedades anteriores, Var(aX + b) = a² ⋅ Var(X), donde a y b son constantes.
  • Suma de variables independientes: Si X₁, X₂, ..., Xn son n variables aleatorias independientes, entonces la varianza de su suma es la suma de sus varianzas. Var(X₁ + X₂ + ... + Xn) = Var(X₁) + Var(X₂) + ... + Var(Xn). Es importante destacar que esta propiedad solo es válida si las variables son independientes.

Varianza y Desviación Estándar: Una Relación Indisoluble

Como mencionamos, la desviación estándar es la raíz cuadrada positiva de la varianza. Mientras que la varianza se mide en unidades al cuadrado (por ejemplo, si los datos son en metros, la varianza estará en metros cuadrados), la desviación estándar se mide en las mismas unidades que los datos originales, lo que la hace más fácil de interpretar.

¿Cómo calculamos una varianza?
Halla la media del conjunto de datos dado. Calcula el promedio de un conjunto de valores . Ahora, resta la media de cada valor y elévalos al cuadrado . Halla el promedio de estos valores al cuadrado ; esto dará como resultado la varianza.
  • Los símbolos σ y s se utilizan para representar las desviaciones estándar poblacional y muestral, respectivamente.
  • La desviación estándar es una medida de cuánto se dispersan los datos. Su fórmula es sencilla: es la raíz cuadrada de la varianza para ese conjunto de datos.

En la práctica, a menudo se calcula la varianza primero y luego se obtiene la desviación estándar tomando su raíz cuadrada. La desviación estándar es preferida para la interpretación directa debido a sus unidades, pero la varianza es crucial en muchos cálculos estadísticos y pruebas de hipótesis.

Cómo Calcular la Varianza Paso a Paso

El cálculo de la varianza es un proceso metódico que se puede realizar siguiendo estos pasos claros:

  1. Encuentra la media (promedio) del conjunto de datos. Suma todos los valores y divide por el número total de valores.
  2. Resta la media de cada valor individual y eleva el resultado al cuadrado. Esto se hace para asegurarse de que las desviaciones negativas y positivas no se cancelen entre sí, y para dar más peso a las desviaciones mayores.
  3. Calcula la media de estos valores al cuadrado. Si estás calculando la varianza poblacional, divide la suma de los cuadrados por el número total de observaciones (N). Si estás calculando la varianza muestral, divide la suma de los cuadrados por el número de observaciones menos uno (n-1).

Veamos esto con una notación más formal. Si x₁, x₂, x₃, ..., xn son los valores dados:

Primero, la media ( para muestra, μ para población) es:

x̄ = (x₁ + x₂ + x₃ + ... + xn) / n

Luego, resta la media de cada valor y eleva al cuadrado:

(x₁ - x̄)², (x₂ - x̄)², (x₃ - x̄)², ..., (xn - x̄)²

Finalmente, calcula el promedio de estos valores al cuadrado para obtener la varianza:

Para la población: Var(X) = [ (x₁ - μ)² + (x₂ - μ)² + ... + (xn - μ)² ] / N

Para la muestra: Var(X) = [ (x₁ - x̄)² + (x₂ - x̄)² + ... + (xn - x̄)² ] / (n - 1)

Ejemplos Prácticos de Cálculo de Varianza

Ejemplo 1: Alturas de Personas

Supongamos que las alturas (en mm) de un pequeño grupo son: 610, 450, 160, 420, 310.

  1. Paso 1: Calcular la media.
    Media = (610 + 450 + 160 + 420 + 310) / 5 = 1950 / 5 = 390 mm.
  2. Paso 2: Restar la media de cada valor y elevar al cuadrado.
    • (610 - 390)² = 220² = 48400
    • (450 - 390)² = 60² = 3600
    • (160 - 390)² = (-230)² = 52900
    • (420 - 390)² = 30² = 900
    • (310 - 390)² = (-80)² = 6400
  3. Paso 3: Calcular el promedio de los valores al cuadrado (Varianza).
    Varianza = (48400 + 3600 + 52900 + 900 + 6400) / 5 = 112200 / 5 = 22440.

La varianza de estas alturas es 22440 mm².

Ejemplo 2: Varianza de un Conjunto de Números

Encuentra la varianza de los números: 3, 8, 6, 10, 12, 9, 11, 10, 12, 7.

  1. Paso 1: Calcular la media.
    Media = (3+8+6+10+12+9+11+10+12+7) / 10 = 88 / 10 = 8.8.
  2. Paso 2: Construir una tabla para las desviaciones y las desviaciones al cuadrado. Asumiendo que es una población dada, usamos la fórmula de varianza poblacional (dividir por N).
Valor (X)X - μ (X - 8.8)(X - μ)²
3-5.833.64
8-0.80.64
6-2.87.84
101.21.44
123.210.24
90.20.04
112.24.84
101.21.44
123.210.24
7-1.83.24
Total073.6
  1. Paso 3: Calcular la varianza.
    σ² = Suma de (X - μ)² / N = 73.6 / 10 = 7.36.

La varianza para este conjunto de números es 7.36.

¿Cuál es la varianza de la población y la desviación estándar de 6 12 20 24 28?
La varianza es 64 y la desviación típica es 8. Explicación: Para calcular la varianza y la desviación típica de la población para el conjunto de números (6, 12, 20, 24, 28), primero calcularemos la media de estos números. Halla la media: (6 + 12 + 20 + 24 + 28) / 5 = 90 / 5 = 18.

Ejemplo 3: Salarios de Empleados (Varianza Poblacional)

Una pequeña empresa con 6 empleados desea calcular la varianza de sus salarios: 30, 27, 20, 40, 32, 31 (en miles de dólares).

  1. Paso 1: Calcular la media (μ).
    μ = (30 + 27 + 20 + 40 + 32 + 31) / 6 = 180 / 6 = 30.
  2. Paso 2: Calcular (X - μ)² para cada salario.
    • (30-30)² = 0
    • (27-30)² = 9
    • (20-30)² = 100
    • (40-30)² = 100
    • (32-30)² = 4
    • (31-30)² = 1

    Suma de los cuadrados = 0 + 9 + 100 + 100 + 4 + 1 = 214.

  3. Paso 3: Calcular la varianza poblacional (σ²).
    σ² = 214 / 6 = 35.67 (aproximadamente).

La varianza poblacional de los salarios es 35.67.

Consideraciones Importantes y Desventajas

En estadística, la varianza es utilizada para entender cómo se correlacionan diferentes números dentro de un conjunto de datos, en lugar de usar métodos matemáticos más complejos como organizar los números en cuartiles. La varianza considera que todas las desviaciones de la media son iguales, independientemente de su dirección. Sin embargo, las desviaciones al cuadrado no pueden sumar cero, lo que siempre indica la presencia de alguna variabilidad en el conjunto de datos, a menos que todos los valores sean idénticos.

Una de las desventajas de encontrar la varianza es que otorga un peso combinado a los valores extremos, es decir, los números que están lejos de la media. Al elevar estos números al cuadrado, existe la posibilidad de que distorsionen el conjunto de datos. Este efecto de "inflado" de los valores atípicos es una razón por la que a veces se prefiere la desviación estándar, que "deshace" ese cuadrado volviendo a las unidades originales. Otra desventaja es que, en ocasiones, su cálculo puede ser complejo, especialmente para conjuntos de datos muy grandes o cuando se requiere una comprensión más profunda de la distribución.

¿Cuál es la fórmula para la variabilidad total?
Para determinar la variabilidad total en nuestro grupo de datos, simplemente sumamos la desviación de cada puntuación con respecto a la media . La desviación promedio de una puntuación se puede calcular dividiendo este total entre el número de puntuaciones.

Nota importante: Si todos los valores de datos en un conjunto son idénticos, su varianza será cero (0), lo que lógicamente indica que no hay dispersión alguna.

Preguntas Frecuentes (FAQ)

¿Cuál es la varianza del siguiente conjunto de datos: 2, 4, 6, 8, 10?

Para calcular la varianza de este conjunto de datos, seguimos los pasos:

  1. Paso 1: Calcular la media.
    Media = (2 + 4 + 6 + 8 + 10) / 5 = 30 / 5 = 6.
  2. Paso 2: Restar la media de cada valor y elevar al cuadrado.
    • (2 - 6)² = (-4)² = 16
    • (4 - 6)² = (-2)² = 4
    • (6 - 6)² = (0)² = 0
    • (8 - 6)² = (2)² = 4
    • (10 - 6)² = (4)² = 16
  3. Paso 3: Sumar los cuadrados y dividir por el número de datos (asumiendo población).
    Suma de los cuadrados = 16 + 4 + 0 + 4 + 16 = 40.
    Varianza = 40 / 5 = 8.

Por lo tanto, la varianza del conjunto de datos es 8.

¿Cuál es la varianza de la población y la desviación estándar de 6, 12, 20, 24, 28?

Para el conjunto de números (6, 12, 20, 24, 28):

  1. Paso 1: Hallar la media.
    Media (μ) = (6 + 12 + 20 + 24 + 28) / 5 = 90 / 5 = 18.
  2. Paso 2: Calcular las desviaciones al cuadrado.
    • (6 - 18)² = (-12)² = 144
    • (12 - 18)² = (-6)² = 36
    • (20 - 18)² = (2)² = 4
    • (24 - 18)² = (6)² = 36
    • (28 - 18)² = (10)² = 100
  3. Paso 3: Sumar los cuadrados y calcular la varianza poblacional.
    Suma de los cuadrados = 144 + 36 + 4 + 36 + 100 = 320.
    Varianza (σ²) = 320 / 5 = 64.
  4. Paso 4: Calcular la desviación estándar.
    Desviación estándar (σ) = √Varianza = √64 = 8.

La varianza es 64 y la desviación estándar es 8.

Comprender cómo calcular y, más importante aún, cómo interpretar la varianza es una habilidad invaluable en cualquier campo que involucre el análisis de datos. Desde la ciencia y la ingeniería hasta las finanzas y las ciencias sociales, la varianza proporciona una medida cuantitativa de la variabilidad, permitiéndonos tomar decisiones más informadas y comprender mejor la naturaleza de los fenómenos que estudiamos. Dominar este concepto es un paso crucial para convertirse en un analista de datos competente y perspicaz.

Si quieres conocer otros artículos parecidos a ¿Cómo Calcular la Varianza de un Conjunto de Datos? puedes visitar la categoría Estadística.

Subir