Varianza y Desviación Estándar en Excel: Guía Completa

12/07/2023

★★★★★Valoración: 4.98 (10567 votos)

Cuando analizamos un conjunto de datos, la media o el promedio nos dan una idea de su centro, es decir, un valor representativo alrededor del cual se agrupan los números. Sin embargo, este valor central por sí solo no nos dice nada sobre cuán dispersos o agrupados están esos números. Imagina dos máquinas que producen clavos con una longitud promedio de 10 pulgadas. A primera vista, ambas parecen eficientes. Pero, ¿qué pasa si una máquina produce clavos muy cercanos a esa longitud, mientras que la otra fabrica clavos que varían mucho, algunos muy cortos y otros muy largos? Aquí es donde entran en juego la varianza y la desviación estándar, herramientas estadísticas fundamentales que nos permiten medir la dispersión o variabilidad de los datos, ofreciendo una imagen mucho más completa de su comportamiento.

¿Cuál es la fórmula para la varianza y la desviación estándar en Excel? — La fórmula de Excel para calcular la varianza es " =var(RANGE)" La fórmula de Excel para calcular la desviación estándar es "=stdev(RANGE)"

Índice de Contenido

Entendiendo la Dispersión de los Datos
El Rango: Una Primera Aproximación
La Varianza: Cuantificando la Dispersión Promedio
La Desviación Estándar: La Medida de Dispersión Preferida
- Fórmulas de la Desviación Estándar
- Cálculo Manual de la Desviación Estándar
Cálculo de la Varianza y Desviación Estándar en Excel
- Fórmulas de Excel para Dispersión
El Coeficiente de Variación (CV): Una Medida Relativa de Dispersión
- Cómo calcular el CV en Excel
Preguntas Frecuentes (FAQ)
Conclusión

Entendiendo la Dispersión de los Datos

Para ilustrar la importancia de medir la dispersión, consideremos el ejemplo de las máquinas de clavos:

Máquina A: 6, 8, 8, 10, 10, 10, 10, 10, 12, 12, 14
Máquina B: 6, 6, 6, 8, 8, 10, 12, 12, 14, 14, 14

Si calculamos la media para ambas máquinas:

Media de la Máquina A: (6+8+8+10+10+10+10+10+12+12+14) / 11 = 110 / 11 = 10
Media de la Máquina B: (6+6+6+8+8+10+12+12+14+14+14) / 11 = 110 / 11 = 10

Ambas máquinas tienen una media de 10. No obstante, es evidente que la Máquina A produce clavos más consistentes, más cercanos a la longitud promedio. La Máquina B, por el contrario, muestra una mayor variabilidad. Para cuantificar esta diferencia, necesitamos medidas de dispersión.

El Rango: Una Primera Aproximación

La medida más sencilla de la dispersión de los datos es el rango. Se calcula simplemente restando el valor más bajo al valor más alto en un conjunto de datos.

Rango = Valor Máximo - Valor Mínimo

En nuestro ejemplo de las máquinas:

Rango para Máquina A: 14 - 6 = 8
Rango para Máquina B: 14 - 6 = 8

Como se puede observar, el rango para ambos conjuntos de datos es el mismo (8). Esto demuestra que, si bien el rango es útil, es una medida demasiado rudimentaria de la variabilidad, ya que solo considera los dos valores extremos y no la distribución de los datos intermedios.

La Varianza: Cuantificando la Dispersión Promedio

Para obtener una medida más precisa de cómo se distribuyen los datos alrededor de la media, introducimos la varianza. La idea es calcular la diferencia entre cada punto de dato y la media, promediar estas diferencias. Sin embargo, si simplemente sumamos las diferencias, las positivas y negativas se anularían. Para evitar esto, podríamos usar el valor absoluto de las diferencias, pero por razones teóricas y matemáticas (facilidad de derivación y propiedades estadísticas), se prefiere elevar al cuadrado cada diferencia.

La varianza se define como el promedio de las diferencias al cuadrado entre cada punto de dato y la media. Además, por otras razones teóricas relacionadas con la estimación de parámetros poblacionales a partir de muestras, cuando trabajamos con una muestra de datos (en lugar de la población completa), dividimos la suma de las diferencias al cuadrado por n - 1 (donde n es el tamaño de la muestra) en lugar de n. Esto se hace para obtener un estimador insesgado de la varianza poblacional.

Fórmulas de la Varianza

Existen dos símbolos y fórmulas para la varianza, dependiendo de si se calcula para una población o para una muestra:

Varianza Poblacional (σ²): Se utiliza cuando se tienen datos de toda la población.

σ² = Σ(xᵢ - μ)² / N

Donde:

σ² (sigma al cuadrado) es la varianza poblacional.
xᵢ es cada valor individual en la población.
μ (mu) es la media de la población.
N es el número total de elementos en la población.
Σ es la sumatoria.

Varianza Muestral (s²): Se utiliza cuando se tienen datos de una muestra extraída de una población.

s² = Σ(xᵢ - x̄)² / (n - 1)

Donde:

s² es la varianza muestral.
xᵢ es cada valor individual en la muestra.
x̄ (x barra) es la media de la muestra.
n es el número total de elementos en la muestra.
Σ es la sumatoria.

Cálculo Manual de la Varianza

Calcular la varianza "a mano" ayuda a comprender el concepto. Siguiendo los pasos:

Calcular la media de los datos (x̄).
Para cada punto de dato (x), encontrar la diferencia con la media (x - x̄).
Elevar al cuadrado cada una de esas diferencias (x - x̄)².
Sumar todos los cuadrados de las diferencias: Σ(x - x̄)².
Dividir la suma obtenida por (n - 1) para la varianza muestral o por N para la varianza poblacional.

Ejemplo: Varianza para Máquina A

Media (x̄) = 10

x	(x - x̄)	(x - x̄)²
6	(6 - 10) = -4	(-4)² = 16
8	(8 - 10) = -2	(-2)² = 4
8	(8 - 10) = -2	(-2)² = 4
10	(10 - 10) = 0	(0)² = 0
10	(10 - 10) = 0	(0)² = 0
10	(10 - 10) = 0	(0)² = 0
10	(10 - 10) = 0	(0)² = 0
10	(10 - 10) = 0	(0)² = 0
12	(12 - 10) = 2	(2)² = 4
12	(12 - 10) = 2	(2)² = 4
14	(14 - 10) = 4	(4)² = 16
Suma		48

Dado que tenemos 11 clavos (n=11), y es una muestra, dividimos por (n-1) = 10.

Varianza (Máquina A) = 48 / 10 = 4.8

Ejemplo: Varianza para Máquina B

Media (x̄) = 10

x	(x - x̄)	(x - x̄)²
6	(6 - 10) = -4	(-4)² = 16
6	(6 - 10) = -4	(-4)² = 16
6	(6 - 10) = -4	(-4)² = 16
8	(8 - 10) = -2	(-2)² = 4
8	(8 - 10) = -2	(-2)² = 4
10	(10 - 10) = 0	(0)² = 0
12	(12 - 10) = 2	(2)² = 4
12	(12 - 10) = 2	(2)² = 4
14	(14 - 10) = 4	(4)² = 16
14	(14 - 10) = 4	(4)² = 16
14	(14 - 10) = 4	(4)² = 16
Suma		112

Varianza (Máquina B) = 112 / 10 = 11.2

Como esperábamos, la varianza de la Máquina A (4.8) es significativamente menor que la de la Máquina B (11.2), confirmando que la Máquina A produce clavos con menor variabilidad alrededor de la media.

Una consideración importante es que la unidad de la varianza es el cuadrado de la unidad original de los datos. Por ejemplo, si los clavos se miden en pulgadas, la varianza se expresa en "pulgadas cuadradas", lo cual no es intuitivo para la interpretación. Esto nos lleva a la siguiente medida de dispersión.

Fórmula Abreviada para la Varianza

Existe una fórmula alternativa para calcular la varianza que puede ser más sencilla porque no requiere calcular la media primero. Esta fórmula se deriva algebraicamente de la definición principal:

s² = [Σ(x²) - (Σx)² / n] / (n - 1) (para la muestra)

σ² = [Σ(x²) - (Σx)² / N] / N (para la población)

Donde:

Σ(x²) es la suma de los cuadrados de cada valor de x.
(Σx)² es el cuadrado de la suma de todos los valores de x.

Ejemplo: Varianza para Máquina B usando la Fórmula Abreviada

x	x²
6	36
6	36
6	36
8	64
8	64
10	100
12	144
12	144
14	196
14	196
14	196
Σx = 110	Σx² = 1212

Aplicando la fórmula abreviada (para muestra, n=11):

s² = [1212 - (110)² / 11] / (11 - 1)

s² = [1212 - 12100 / 11] / 10

s² = [1212 - 1100] / 10

s² = 112 / 10 = 11.2

El resultado es el mismo, pero el proceso puede ser más directo al evitar el cálculo de la media intermedia para cada paso.

La Desviación Estándar: La Medida de Dispersión Preferida

Para resolver el problema de las unidades al cuadrado de la varianza, se introduce la desviación estándar. Esta es simplemente la raíz cuadrada de la varianza. Al tomar la raíz cuadrada, la desviación estándar vuelve a tener las mismas unidades que los datos originales, lo que facilita enormemente su interpretación.

Fórmulas de la Desviación Estándar

Al igual que con la varianza, hay dos símbolos y fórmulas para la desviación estándar:

Desviación Estándar Poblacional (σ): Raíz cuadrada de la varianza poblacional.

σ = √σ² = √[Σ(xᵢ - μ)² / N]

Desviación Estándar Muestral (s): Raíz cuadrada de la varianza muestral.

s = √s² = √[Σ(xᵢ - x̄)² / (n - 1)]

Una desviación estándar alta indica que los datos están muy dispersos con respecto a la media, mientras que una desviación estándar baja sugiere que los datos tienden a estar muy cerca de la media.

Cálculo Manual de la Desviación Estándar

Para calcular la desviación estándar, primero debes calcular la media, luego la varianza, y finalmente tomar la raíz cuadrada de la varianza.

Ejemplo: Desviación Estándar para el conjunto de datos 6, 7, 5, 3, 4

Calcular la media (x̄):
x̄ = (6 + 7 + 5 + 3 + 4) / 5 = 25 / 5 = 5
Calcular la varianza (s²):
n = 5. Usaremos (n-1) = 4 para la varianza muestral.
(6-5)² = 1² = 1
(7-5)² = 2² = 4
(5-5)² = 0² = 0
(3-5)² = (-2)² = 4
(4-5)² = (-1)² = 1
Suma de los cuadrados de las diferencias = 1 + 4 + 0 + 4 + 1 = 10
s² = 10 / 4 = 2.5
Calcular la desviación estándar (s):
s = √2.5 ≈ 1.581

Cálculo de la Varianza y Desviación Estándar en Excel

Excel es una herramienta potente que simplifica enormemente el cálculo de estas medidas. Proporciona funciones integradas para calcular la media, el rango, la varianza y la desviación estándar de manera rápida y eficiente.

Fórmulas de Excel para Dispersión

Asumiendo que tus datos se encuentran en un rango de celdas (por ejemplo, A1:A11):

Rango:

=MAX(rango_de_datos) - MIN(rango_de_datos)

Ejemplo: =MAX(A1:A11) - MIN(A1:A11)

Varianza Muestral (s²):

=VAR.S(rango_de_datos)

Esta función calcula la varianza basándose en una muestra, dividiendo por (n-1). En versiones antiguas de Excel, la función =VAR(rango_de_datos) a menudo se comportaba como VAR.S.

Ejemplo: =VAR.S(A1:A11)

Varianza Poblacional (σ²):

=VAR.P(rango_de_datos)

Esta función calcula la varianza basándose en toda la población, dividiendo por N.

Ejemplo: =VAR.P(A1:A11)

Desviación Estándar Muestral (s):

=DESVEST.S(rango_de_datos)

Esta función calcula la desviación estándar basándose en una muestra, tomando la raíz cuadrada de la varianza muestral. En versiones antiguas de Excel, la función =DESVEST(rango_de_datos) solía usarse para la desviación estándar muestral.

Ejemplo: =DESVEST.S(A1:A11)

Desviación Estándar Poblacional (σ):

=DESVEST.P(rango_de_datos)

Esta función calcula la desviación estándar basándose en toda la población, tomando la raíz cuadrada de la varianza poblacional.

Ejemplo: =DESVEST.P(A1:A11)

Al utilizar estas funciones, Excel se encarga de todos los cálculos complejos, permitiéndote obtener los resultados al instante. Es importante seleccionar la función correcta (muestral o poblacional) según la naturaleza de tus datos para asegurar la precisión estadística.

El Coeficiente de Variación (CV): Una Medida Relativa de Dispersión

Mientras que la desviación estándar nos da una medida absoluta de la dispersión en las unidades originales de los datos, el Coeficiente de Variación (CV) proporciona una medida relativa de la variabilidad. Esto es particularmente útil cuando se desea comparar la dispersión de dos conjuntos de datos que tienen medias muy diferentes o que están en unidades de medida distintas.

La fórmula del Coeficiente de Variación es:

CV = (Desviación Estándar / Media) * 100%

El resultado se expresa generalmente como un porcentaje, lo que indica la magnitud de la desviación estándar en relación con la media.

Cómo calcular el CV en Excel

Para calcular el CV en Excel, primero necesitas tener la desviación estándar y la media de tus datos. Una vez que las tienes, puedes aplicar la fórmula directamente:

Calcula la media de tu conjunto de datos usando =PROMEDIO(rango_de_datos).
Calcula la desviación estándar de tu conjunto de datos (por ejemplo, muestral) usando =DESVEST.S(rango_de_datos) o poblacional con =DESVEST.P(rango_de_datos).
Divide el resultado de la desviación estándar por el resultado de la media y multiplica por 100 para obtener el porcentaje.

Si la desviación estándar está en la celda B1 y la media en la celda B2, la fórmula para el CV sería:

=(B1/B2)*100

Un CV bajo indica que los datos tienen poca variabilidad en relación con su media, lo que significa que son más consistentes. Un CV alto, por el contrario, sugiere una mayor variabilidad relativa. Esto es invaluable, por ejemplo, al comparar la volatilidad de dos inversiones diferentes o la consistencia de dos procesos de fabricación distintos.

Preguntas Frecuentes (FAQ)

¿Por qué se divide por (n-1) para la varianza y desviación estándar muestral?

Se divide por (n-1) en lugar de n para obtener un estimador insesgado de la varianza y la desviación estándar de la población. Esto significa que, en promedio, el valor calculado a partir de la muestra será una estimación más precisa del verdadero valor poblacional. Si se dividiera por n, la varianza muestral tendería a subestimar la varianza poblacional, especialmente en muestras pequeñas.

¿Cuándo debo usar las fórmulas de población versus las de muestra en Excel?

Debes usar las fórmulas de población (VAR.P, DESVEST.P) cuando tienes acceso a todos los elementos de la población que te interesa estudiar. Por ejemplo, si estás analizando las edades de todos los estudiantes de una clase específica y esa clase es tu población de interés. Por otro lado, si estás trabajando con un subconjunto de datos (una muestra) extraído de una población más grande, y tu objetivo es inferir algo sobre esa población más grande, debes usar las funciones de muestra (VAR.S, DESVEST.S). Este es el escenario más común en la investigación y el análisis de datos.

¿Qué significa una desviación estándar alta o baja?

Una desviación estándar alta indica que los puntos de datos están muy dispersos y alejados de la media. Esto sugiere una gran variabilidad o falta de consistencia en los datos. Por ejemplo, en el caso de la Máquina B, la alta desviación estándar significa que los clavos producidos varían considerablemente en longitud.
Una desviación estándar baja indica que los puntos de datos tienden a estar muy cerca de la media. Esto sugiere que los datos son consistentes y tienen poca variabilidad. En el ejemplo de la Máquina A, la baja desviación estándar implica que los clavos son bastante uniformes en su longitud.

¿Puede la desviación estándar ser negativa?

No, la desviación estándar nunca puede ser negativa. Por definición, es la raíz cuadrada de la varianza, y la varianza, al ser la suma de cuadrados (que siempre son no negativos) dividida por un número positivo, siempre es un valor no negativo. Por lo tanto, su raíz cuadrada real también será siempre no negativa (cero o un número positivo). Una desviación estándar de cero indica que todos los valores en el conjunto de datos son idénticos.

¿Cuál es la diferencia entre varianza y desviación estándar en términos de interpretación?

La varianza es útil en cálculos estadísticos y teóricos, pero su unidad al cuadrado la hace difícil de interpretar directamente en el contexto original de los datos. La desviación estándar, al estar en las mismas unidades que los datos originales, es mucho más intuitiva para comprender la escala de dispersión. Por ejemplo, si la media de los salarios es de $50,000 y la desviación estándar es de $5,000, esto significa que la mayoría de los salarios se encuentran dentro de un rango de $5,000 por encima o por debajo de la media.

Conclusión

Comprender la varianza y la desviación estándar es crucial para cualquier análisis de datos significativo. Mientras que la media nos da una idea del valor central, estas medidas de dispersión nos revelan la consistencia y la variabilidad inherente a nuestros datos. Ya sea que las calcules manualmente para entender su lógica o utilices las eficientes funciones de Excel para manejar grandes conjuntos de datos, dominar estas herramientas te permitirá tomar decisiones más informadas y obtener una visión más profunda del comportamiento de tus números.

Si quieres conocer otros artículos parecidos a Varianza y Desviación Estándar en Excel: Guía Completa puedes visitar la categoría Estadística.