02/06/2024
En el vasto universo de los datos, comprender su comportamiento es fundamental para tomar decisiones informadas, predecir tendencias y evaluar riesgos. Cuando trabajamos con datos discretos, es decir, aquellos que solo pueden tomar valores específicos y contables (como el número de veces que ocurre un evento), dos medidas estadísticas cobran una importancia vital: el valor esperado (o media) y la desviación estándar. Mientras que el valor esperado nos da una idea del promedio a largo plazo de un evento, la desviación estándar es la medida que nos revela cuán dispersos o variados son esos datos. Imagina que estás analizando los resultados de un juego de azar o el comportamiento de un fenómeno natural; sin la desviación estándar, solo conocerías el promedio, pero no la volatilidad o la consistencia de los resultados. Este artículo te sumergirá en el fascinante proceso de calcular la desviación estándar para variables aleatorias discretas, proporcionándote las herramientas y el conocimiento para desentrañar la verdadera naturaleza de tus datos.

La capacidad de cuantificar la variabilidad de un conjunto de datos discretos es una habilidad indispensable en campos tan diversos como las finanzas, la investigación científica, la ingeniería y el análisis de riesgos. Un valor esperado idéntico en dos escenarios diferentes puede ocultar realidades muy distintas en términos de incertidumbre. Por ejemplo, dos inversiones podrían tener el mismo rendimiento esperado, pero una podría tener una desviación estándar mucho mayor, lo que indica un riesgo significativamente más alto. Acompáñanos en este recorrido detallado, donde desglosaremos cada paso del cálculo, desde la determinación del valor esperado hasta la aplicación de las fórmulas de varianza y desviación estándar, ilustrando con ejemplos claros y prácticos.
El Valor Esperado: El Promedio a Largo Plazo
Antes de sumergirnos en la desviación estándar, es crucial entender su predecesor: el valor esperado, también conocido como la media o promedio a largo plazo. Para una variable aleatoria discreta X, el valor esperado, simbolizado como E(X) o μ (mu), representa lo que esperaríamos obtener en promedio si repetimos un experimento un número muy grande de veces. No es un valor que necesariamente ocurra en una sola observación, sino una tendencia a largo plazo.
La fórmula para calcular el valor esperado de una variable aleatoria discreta X es simple pero poderosa: E(X) = μ = Σ x P(x). Aquí, 'x' representa cada valor posible que la variable aleatoria X puede tomar, P(x) es la probabilidad correspondiente de que X tome ese valor 'x', y 'Σ' (sigma) denota la suma de todos los productos de 'x' por P(x). Es importante notar que μ se usa porque es un parámetro, lo que significa que representa la media de una población completa, no solo de una muestra.
Ejemplo Práctico: Días de Juego de un Equipo de Fútbol
Consideremos el siguiente escenario: Un equipo de fútbol masculino juega cero, uno o dos días a la semana. La probabilidad de que jueguen cero días es de 0.2, la probabilidad de que jueguen un día es de 0.5, y la probabilidad de que jueguen dos días es de 0.3. Para encontrar el promedio a largo plazo o valor esperado (μ) del número de días por semana que el equipo juega, definimos X como el número de días que el equipo juega por semana. X puede tomar los valores 0, 1, 2. Construimos una tabla de distribución de probabilidad (PDF) y añadimos una columna para el producto x*P(x):
| x (Días de juego) | P(x) (Probabilidad) | x*P(x) |
|---|---|---|
| 0 | 0.2 | 0 * 0.2 = 0 |
| 1 | 0.5 | 1 * 0.5 = 0.5 |
| 2 | 0.3 | 2 * 0.3 = 0.6 |
Para obtener el valor esperado, simplemente sumamos los valores de la última columna:
E(X) = μ = Σ x P(x) = 0 + 0.5 + 0.6 = 1.1
El valor esperado/media es 1.1. Esto significa que, en promedio, el equipo de fútbol esperaría jugar 1.1 días por semana. Este número, 1.1, es el promedio a largo plazo o valor esperado si el equipo juega semana tras semana, repetidamente.
La Ley de los Grandes Números: Prediciendo el Largo Plazo
El concepto de valor esperado se refuerza con la Ley de los Grandes Números. Esta ley fundamental de la probabilidad establece que, a medida que el número de ensayos en un experimento probabilístico aumenta, la diferencia entre la probabilidad teórica de un evento y su frecuencia relativa (o probabilidad experimental) se acerca a cero. En otras palabras, cuanto más veces repitamos un experimento, más se parecerán nuestros resultados observados a lo que la teoría predice.
Un ejemplo clásico es el experimento de Karl Pearson, quien lanzó una moneda justa 24,000 veces. Obtuvo 12,012 caras, lo que da una frecuencia relativa de 12,012/24,000 = 0.5005. Este valor está muy cerca de la probabilidad teórica de 0.5. Esto ilustra que, si bien en el corto plazo los resultados pueden variar, en el largo plazo, las probabilidades teóricas se manifiestan.
La Varianza y la Desviación Estándar: Midiendo la Dispersión
Así como los datos brutos, las distribuciones de probabilidad también poseen su propia varianza y desviación estándar. Estos son parámetros que resumen información sobre la población de la distribución. La varianza de una distribución de probabilidad se simboliza como σ² (sigma al cuadrado), y la desviación estándar como σ (sigma).
Para calcular la varianza σ² de una distribución de probabilidad discreta, seguimos los siguientes pasos: por cada valor de la variable aleatoria, encontramos su desviación respecto al valor esperado (μ), elevamos esa desviación al cuadrado, multiplicamos el resultado por la probabilidad correspondiente P(x), y finalmente sumamos todos esos productos. La fórmula es:
σ² = Σ (x - μ)² P(x)
Una vez que tenemos la varianza, encontrar la desviación estándar σ es sencillo: simplemente tomamos la raíz cuadrada de la varianza:
σ = √σ² = √Σ (x - μ)² P(x)
La desviación estándar es particularmente útil porque sus unidades son las mismas que las de la variable original, lo que facilita su interpretación. Un valor de desviación estándar alto indica que los datos están muy dispersos alrededor de la media, mientras que un valor bajo sugiere que los datos están más agrupados.
Ejemplo Detallado: Despertadas de Madres por Bebés
Una investigadora realizó un estudio sobre la frecuencia con la que un recién nacido despierta a su madre después de medianoche por semana. Seleccionó aleatoriamente a 50 nuevas madres y les preguntó cuántas veces fueron despertadas. Los resultados fueron:
- Dos madres fueron despertadas cero veces.
- Once madres fueron despertadas una vez.
- Veintitrés madres fueron despertadas dos veces.
- Nueve madres fueron despertadas tres veces.
- Cuatro madres fueron despertadas cuatro veces.
- Una madre fue despertada cinco veces.
Primero, definimos la variable aleatoria X como el número de veces que una madre es despertada por su bebé recién nacido después de medianoche por semana. X toma los valores 0, 1, 2, 3, 4, 5. Luego, construimos una tabla PDF usando la frecuencia relativa para P(x). Por ejemplo, la probabilidad de que una madre se despierte cero veces es 2/50, ya que dos de las 50 madres fueron despertadas cero veces.
| x | P(x) | xP(x) |
|---|---|---|
| 0 | 2/50 = 0.04 | 0 * 0.04 = 0 |
| 1 | 11/50 = 0.22 | 1 * 0.22 = 0.22 |
| 2 | 23/50 = 0.46 | 2 * 0.46 = 0.92 |
| 3 | 9/50 = 0.18 | 3 * 0.18 = 0.54 |
| 4 | 4/50 = 0.08 | 4 * 0.08 = 0.32 |
| 5 | 1/50 = 0.02 | 5 * 0.02 = 0.10 |
Sumamos la tercera columna para obtener el valor esperado (μ) de X:
E(X) = μ = Σ x P(x) = 0 + 0.22 + 0.92 + 0.54 + 0.32 + 0.10 = 2.1
En promedio, se espera que un recién nacido despierte a su madre 2.1 veces por semana después de medianoche.
Ahora, para calcular la desviación estándar σ, añadimos dos columnas más a nuestra tabla: (x-μ)² y (x-μ)² P(x).
| x | P(x) | xP(x) | (x-μ)² | (x-μ)² * P(x) |
|---|---|---|---|---|
| 0 | 0.04 | 0 | (0 - 2.1)² = 4.41 | 4.41 * 0.04 = 0.1764 |
| 1 | 0.22 | 0.22 | (1 - 2.1)² = 1.21 | 1.21 * 0.22 = 0.2662 |
| 2 | 0.46 | 0.92 | (2 - 2.1)² = 0.01 | 0.01 * 0.46 = 0.0046 |
| 3 | 0.18 | 0.54 | (3 - 2.1)² = 0.81 | 0.81 * 0.18 = 0.1458 |
| 4 | 0.08 | 0.32 | (4 - 2.1)² = 3.61 | 3.61 * 0.08 = 0.2888 |
| 5 | 0.02 | 0.10 | (5 - 2.1)² = 8.41 | 8.41 * 0.02 = 0.1682 |
Sumamos todos los productos de la última columna para obtener la varianza de X:
σ² = 0.1764 + 0.2662 + 0.0046 + 0.1458 + 0.2888 + 0.1682 = 1.05
Finalmente, para obtener la desviación estándar σ, tomamos la raíz cuadrada de la varianza:
σ = √1.05 ≈ 1.0247
Este valor de 1.0247 nos indica la dispersión promedio de las veces que las madres son despertadas respecto a la media de 2.1. Una desviación estándar de aproximadamente 1.0247 sugiere que las observaciones individuales tienden a desviarse de la media en esa cantidad.
Otro Ejemplo: Juego de Azar con Gran Premio
Supongamos que juegas un juego de azar donde se eligen cinco números del 0 al 9 con reemplazo. Pagas 2 dólares para jugar. Si aciertas los cinco números en orden, ganas 100,000 dólares (recuperas tus 2 dólares más los 100,000). ¿Cuál es tu ganancia esperada a largo plazo?
Definimos X como la cantidad de dinero que ganas. Si aciertas, tu ganancia es 100,000 dólares. Si no, pierdes 2 dólares (ganancia de -2). La probabilidad de elegir un número correcto es 1/10. Como son cinco números independientes elegidos con reemplazo, la probabilidad de ganar es (1/10)⁵ = 0.00001. La probabilidad de perder es 1 - 0.00001 = 0.99999.
| X (Ganancia) | P(x) | x*P(x) |
|---|---|---|
| -2 (Pérdida) | 0.99999 | (-2) * 0.99999 = -1.99998 |
| 100,000 (Ganancia) | 0.00001 | 100,000 * 0.00001 = 1 |
El valor esperado de la ganancia es:
E(X) = μ = Σ x P(x) = -1.99998 + 1 = -0.99998
Esto significa que, en promedio, esperarías perder aproximadamente 1 dólar por cada juego que juegues a largo plazo. Aunque puedes perder 2 dólares o ganar 100,000 en una sola jugada, el promedio a lo largo de muchas jugadas se inclina hacia una pérdida.
Ejemplo con un Dado Justo
Lanzamos un dado justo de seis caras dos veces. Sea X = el número de caras que muestran un número par. Calculamos la media μ y la desviación estándar σ de X. El espacio muestral de lanzar un dado dos veces tiene 36 resultados posibles.
Los números pares son 2, 4, 6. Las combinaciones que resultan en 0, 1 o 2 caras pares son:
- X=0 (cero caras pares): (1,1), (1,3), (1,5), (3,1), (3,3), (3,5), (5,1), (5,3), (5,5) - 9 resultados. P(x=0) = 9/36.
- X=1 (una cara par): (1,2), (1,4), (1,6), (2,1), (2,3), (2,5), (3,2), (3,4), (3,6), (4,1), (4,3), (4,5), (5,2), (5,4), (5,6), (6,1), (6,3), (6,5) - 18 resultados. P(x=1) = 18/36.
- X=2 (dos caras pares): (2,2), (2,4), (2,6), (4,2), (4,4), (4,6), (6,2), (6,4), (6,6) - 9 resultados. P(x=2) = 9/36.
| x | P(x) | xP(x) | (x-μ)² | (x-μ)² * P(x) |
|---|---|---|---|---|
| 0 | 9/36 | 0 * (9/36) = 0 | (0 - 1)² = 1 | 1 * (9/36) = 9/36 |
| 1 | 18/36 | 1 * (18/36) = 18/36 | (1 - 1)² = 0 | 0 * (18/36) = 0 |
| 2 | 9/36 | 2 * (9/36) = 18/36 | (2 - 1)² = 1 | 1 * (9/36) = 9/36 |
Primero, calculamos la media (μ) sumando la columna xP(x):
μ = 0 + 18/36 + 18/36 = 36/36 = 1
Luego, sumamos la columna (x-μ)² P(x) para obtener la varianza:
σ² = 9/36 + 0 + 9/36 = 18/36 = 0.5
Finalmente, la desviación estándar es la raíz cuadrada de la varianza:
σ = √0.5 ≈ 0.7071
Esto significa que, en promedio, esperaríamos obtener 1 cara par al lanzar dos dados, con una dispersión de aproximadamente 0.7071 caras pares alrededor de esa media.
Preguntas Frecuentes (FAQs)
¿Qué diferencia hay entre la desviación estándar de datos discretos y continuos?
La principal diferencia radica en la naturaleza de los datos y cómo se calcula la probabilidad. Para datos discretos, sumamos los productos de las desviaciones al cuadrado por las probabilidades específicas de cada valor (Σ (x - μ)² P(x)). Para datos continuos, donde la variable puede tomar cualquier valor dentro de un rango, se utiliza una integral en lugar de una suma, trabajando con funciones de densidad de probabilidad. Sin embargo, el concepto subyacente de medir la dispersión alrededor de la media es el mismo.
¿Por qué es importante calcular la desviación estándar?
La desviación estándar es crucial porque cuantifica la dispersión o variabilidad de un conjunto de datos. Nos dice qué tan lejos, en promedio, se encuentran los valores individuales de la media. Un valor bajo indica que los puntos de datos tienden a estar cerca de la media, mientras que un valor alto indica que los puntos de datos están distribuidos en un rango más amplio. Es fundamental para evaluar el riesgo en finanzas, la precisión en mediciones científicas, la consistencia en procesos de manufactura y la variabilidad en cualquier fenómeno.
¿Cuándo debo usar el valor esperado?
El valor esperado se utiliza cuando quieres conocer el promedio a largo plazo de una variable aleatoria. Es especialmente útil en juegos de azar para determinar la ganancia o pérdida promedio por jugada, en seguros para calcular las primas esperadas, o en cualquier situación donde necesitas predecir un resultado promedio a lo largo de un gran número de repeticiones de un evento.
¿La desviación estándar puede ser negativa?
No, la desviación estándar siempre es un valor no negativo. Esto se debe a que se calcula tomando la raíz cuadrada de la varianza, y la varianza, a su vez, se calcula a partir de desviaciones al cuadrado, que siempre son positivas o cero. Un valor de desviación estándar de cero significa que todos los datos son idénticos y no hay dispersión.
¿Qué significa un valor de desviación estándar alto o bajo?
Un valor de desviación estándar bajo indica que los puntos de datos tienden a estar muy cerca de la media, lo que sugiere una mayor consistencia y menor variabilidad. Por ejemplo, en un proceso de fabricación, una desviación estándar baja en las dimensiones de un producto indica alta calidad y uniformidad. Por otro lado, un valor alto de desviación estándar significa que los puntos de datos están muy dispersos con respecto a la media, lo que implica una mayor variabilidad e incertidumbre. En el contexto de inversiones, una desviación estándar alta puede indicar un mayor riesgo.
Conclusión
Calcular la desviación estándar de datos discretos es una habilidad fundamental en estadística que va más allá de un simple cálculo matemático. Es una herramienta esencial para comprender la variabilidad, evaluar el riesgo y tomar decisiones más informadas en una multitud de campos. Al dominar el cálculo del valor esperado y la desviación estándar, adquieres la capacidad de ver más allá del promedio, revelando la verdadera dispersión y el comportamiento de los datos a largo plazo. Esperamos que este artículo te haya proporcionado una comprensión clara y práctica de cómo realizar estos cálculos, empoderándote para analizar tus propios conjuntos de datos con mayor confianza y profundidad.
Si quieres conocer otros artículos parecidos a Calculando la Desviación Estándar de Datos Discretos puedes visitar la categoría Estadística.
