06/07/2022
En el vasto universo de los datos, a menudo nos encontramos con la necesidad de entender cómo interactúan diferentes elementos entre sí. Imagina un proceso de manufactura donde el tiempo de cocción de un producto afecta directamente su espesor, o cómo la experiencia de un empleado se relaciona con el tiempo que tarda en completar una tarea. Para desentrañar estas complejas interacciones y visualizar patrones ocultos, el diagrama de dispersión emerge como una herramienta indispensable. Es mucho más que un simple gráfico; es una ventana a la relación entre dos conjuntos de datos, permitiéndonos tomar decisiones más informadas y optimizar procesos de manera significativa.

La calidad de un producto o la eficiencia de un proceso siempre están influenciadas por múltiples factores. Aunque tengamos parámetros establecidos y la experiencia nos dicte ciertos rangos de operación, siempre hay aspectos que no conocemos del todo o que asumimos conocer. Aquí es donde el diagrama de dispersión se vuelve crucial. Al representar visualmente el comportamiento de nuestras variables de proceso basadas en datos reales, podemos descubrir relaciones que de otra manera pasarían desapercibidas, abriendo las puertas a mejoras sustanciales y a una comprensión más profunda de nuestro entorno operativo.
- ¿Qué es un Diagrama de Dispersión?
- ¿Para qué Sirve un Diagrama de Dispersión?
- ¿Cómo se Construye el Diagrama de Dispersión?
- El Coeficiente de Correlación Lineal (r)
- La Ecuación de Regresión Lineal
- Diagrama de Dispersión vs. Diagrama de Caja y Bigotes: Entendiendo la Dispersión
- Conclusiones
- Preguntas Frecuentes (FAQ)
- ¿Cuál es la diferencia entre correlación y causalidad?
- ¿Cuándo es apropiado usar un diagrama de dispersión?
- ¿Qué significa si el coeficiente de correlación (r) es 0?
- ¿Qué hago si hay muchos puntos anómalos en mi diagrama de dispersión?
- ¿Se puede usar el diagrama de dispersión con variables categóricas?
- ¿Cómo se relaciona el diagrama de dispersión con la regresión lineal?
¿Qué es un Diagrama de Dispersión?
Un diagrama de dispersión es una representación gráfica utilizada para analizar datos bivariados, es decir, aquellos que involucran dos variables. Su principal objetivo es mostrar si existe una relación, y de qué tipo, entre una variable y la otra. Cada punto en el diagrama representa un par de valores (X, Y) para una observación específica, donde X es la variable independiente y Y es la variable dependiente. A medida que se grafican estos puntos, se van dispersando o posicionando en el diagrama, revelando patrones que indican el grado y la dirección de la relación entre ambas variables.
Esta herramienta es fundamental para el control y la mejora de procesos. Resulta indispensable conocer cómo se comportan algunas variables o características de calidad entre sí, es decir, descubrir si el comportamiento de unas depende del comportamiento de otras, o no, y en qué grado. Por ejemplo, en un proceso de manufactura, podríamos querer saber si el aumento de la temperatura de un horno (variable X) tiene un efecto directo sobre la resistencia de un material (variable Y).
Las dos variables en un diagrama de dispersión pueden ser:
- Una característica de calidad y un factor que incide sobre ella (ej. resistencia del material vs. temperatura del horno).
- Dos características de calidad relacionadas (ej. dureza del material vs. su flexibilidad).
- Dos factores relacionados con una misma característica de calidad (ej. tiempo de mezclado vs. cantidad de catalizador, ambos afectando la pureza de un compuesto).
¿Para qué Sirve un Diagrama de Dispersión?
El diagrama de dispersión es una herramienta poderosa que nos indica si dos variables están relacionadas. Pero su utilidad va más allá de la simple identificación de una relación. También puede proporcionar la posibilidad de reconocer fácilmente relaciones de causa/efecto. Al visualizar cómo los cambios en una variable se corresponden con los cambios en otra, podemos empezar a formular hipótesis sobre la causalidad y diseñar experimentos para confirmarlas.
Además, sirve para:
- Identificar patrones: Permite ver rápidamente si existe una relación lineal, no lineal o si no hay relación aparente.
- Cuantificar la relación: Aunque visual, es el primer paso para calcular medidas estadísticas como el coeficiente de correlación.
- Detectar valores atípicos: Puntos que se desvían significativamente del patrón general pueden indicar errores de medición o condiciones inusuales en el proceso.
- Apoyar la toma de decisiones: Al entender las relaciones entre variables, se pueden ajustar procesos para optimizar resultados, reducir defectos o mejorar la eficiencia.
¿Cómo se Construye el Diagrama de Dispersión?
La construcción de un diagrama de dispersión es un proceso sistemático que, aunque sencillo, requiere atención a los detalles para asegurar una interpretación correcta. A continuación, se detallan los pasos:
Paso 1: Definir las Variables a Diagramar
El primer paso es identificar claramente las dos variables que se desean analizar. Una será la variable independiente (generalmente en el eje X) y la otra la dependiente (en el eje Y). Por ejemplo, si queremos ver cómo el tiempo de proceso afecta el espesor de un producto, nuestras variables serían: Tiempo del Proceso (X) en segundos y Espesor del Producto (Y) en milímetros.
Paso 2: Determinar Escalas para las Variables
Una vez definidas las variables, se deben diseñar las escalas apropiadas para los ejes X y Y. Si se realiza el diagrama manualmente en papel, es crucial determinar los rangos (mínimo y máximo) de cada variable para trazar una escala que abarque todos los valores a medir. Si se utiliza software como Excel o Minitab, el programa generará estas escalas automáticamente, facilitando el proceso.
Paso 3: Recolectar los Datos
Este es un paso crítico. Se procede a realizar las mediciones necesarias durante el proceso de interés. Se recolectan 'n' parejas de datos de la forma (Xi, Yi), donde Xi y Yi representan los valores respectivos de las dos variables para cada observación. Continuando con nuestro ejemplo, se mediría y anotaría el espesor resultante para cada tiempo de proceso progresivamente.

Paso 4: Generar el Diagrama
Con los datos recolectados, se trazan los puntos en la hoja del diagrama de dispersión o se grafican en el software deseado. Cada par (Xi, Yi) se convierte en un punto en el plano cartesiano. En nuestro ejemplo, al graficar el tiempo frente al espesor, podríamos observar que a mayor tiempo, mayor espesor, lo que indicaría una correlación positiva.
Paso 5: Lectura y Uso del Diagrama de Dispersión
La interpretación de un diagrama de dispersión se basa en el patrón que asumen los puntos. Si el patrón de puntos se asemeja (quizás de forma aproximada) a una línea recta, se dice que existe una relación lineal entre las variables. La lectura se enfoca en tres aspectos clave: el tipo de relación, la fuerza de la relación y la presencia de puntos anómalos.
- Correlación Positiva: Si a un aumento en el valor de la variable X le acompaña un aumento en el valor de la variable Y, se habla de una correlación positiva. Los puntos tienden a agruparse en una línea ascendente de izquierda a derecha.
- Correlación Negativa: El caso inverso, donde un aumento en X se acompaña de una disminución en Y, da lugar a una correlación negativa. Los puntos tienden a agruparse en una línea descendente de izquierda a derecha.
- Sin Correlación: Si los puntos están dispersos aleatoriamente sin un patrón discernible, indica que no hay una relación lineal aparente entre las variables.
Además, la fuerza de la relación se evalúa por lo cerca que están los puntos de formar una línea recta. Cuanto más apretados estén, más fuerte será la relación.
El Coeficiente de Correlación Lineal (r)
Más allá del análisis gráfico, la fuerza y dirección de la relación lineal entre dos variables se puede cuantificar mediante un indicador estadístico llamado coeficiente de correlación lineal de Pearson, denotado por 'r'.
El valor de 'r' siempre estará entre -1 y +1. Un valor de 'r' cercano a +1 indica una correlación positiva fuerte, es decir, que al aumentar una variable, la otra también aumenta de manera predecible. Un 'r' cercano a -1 indica una correlación negativa fuerte, donde al aumentar una variable, la otra disminuye. Un valor de 'r' cercano a 0 sugiere que no existe una relación lineal entre las variables.
Fórmula del Coeficiente de Correlación Lineal (r):
La fórmula para calcular 'r' es la siguiente:
r = S(xy) / √(S(xx) * S(yy))
Donde:
S(xx) = ΣXi² – (ΣXi)² / nS(yy) = ΣYi² – (ΣYi)² / nS(xy) = ΣXiYi – ((ΣXi)(ΣYi)) / n
Y 'n' es el número de parejas de datos. El término S(xy) se conoce como covarianza.
Ejemplo de Cálculo del Coeficiente de Correlación (r):
Utilicemos los datos de nuestro ejemplo de tiempo de proceso (X) y espesor del producto (Y). Supongamos que tenemos los siguientes 8 pares de datos:
| Tiempo (X) | Espesor (Y) | X² | Y² | XY |
|---|---|---|---|---|
| 3 | 10 | 9 | 100 | 30 |
| 4 | 15 | 16 | 225 | 60 |
| 5 | 20 | 25 | 400 | 100 |
| 6 | 25 | 36 | 625 | 150 |
| 7 | 30 | 49 | 900 | 210 |
| 8 | 35 | 64 | 1225 | 280 |
| 9 | 40 | 81 | 1600 | 360 |
| 1 | 27 | 1 | 729 | 27 |
| ΣX = 43 | ΣY = 202 | ΣX² = 295 | ΣY² = 6234 | ΣXY = 1354 |
Con n = 8, calculamos los componentes:
S(xx) = ΣXi² – (ΣXi)² / n = 295 – (43 * 43) / 8 = 295 – 1849 / 8 = 295 – 231.125 = 63.875
S(yy) = ΣYi² – (ΣYi)² / n = 6234 – (202 * 202) / 8 = 6234 – 40804 / 8 = 6234 – 5100.5 = 1133.5
S(xy) = ΣXiYi – ((ΣXi)(ΣYi)) / n = 1354 – (43 * 202) / 8 = 1354 – 8686 / 8 = 1354 – 1085.75 = 268.25
Ahora, calculamos 'r':
r = S(xy) / √(S(xx) * S(yy)) = 268.25 / √(63.875 * 1133.5)
r = 268.25 / √(72403.0625) = 268.25 / 269.078
r ≈ 0.9969
Este valor de 'r' cercano a +1 indica una correlación positiva muy fuerte. En términos porcentuales, %r = r * 100 = 99.69%, lo que sugiere que el tiempo de proceso explica casi el 100% de la variación en el espesor, una relación casi perfecta.
Segundo Ejemplo de Cálculo del Coeficiente de Correlación (r):
Consideremos otro ejemplo donde la variable X es la experiencia en semanas de empleados y la variable Y es el tiempo en minutos que tardan en capturar datos. Supongamos que tenemos los siguientes datos (los datos específicos no fueron proporcionados en la entrada, pero se proporcionaron los sumatorios):
| Estadístico | Valor |
|---|---|
| n | 22 |
| ΣXi | 1270 |
| ΣYi | 28.7 |
| ΣXi² | 90700 |
| ΣYi² | 47.77 |
| ΣXiYi | 1481 |
Calculamos los componentes:
S(xx) = ΣXi² – (ΣXi)² / n = 90700 – (1270)² / 22 = 90700 – 1612900 / 22 = 90700 – 73313.64 = 17386.36
S(yy) = ΣYi² – (ΣYi)² / n = 47.77 – (28.7)² / 22 = 47.77 – 823.69 / 22 = 47.77 – 37.44 = 10.33
S(xy) = ΣXiYi – (ΣXi)(ΣYi) / n = 1481 – (1270)(28.7) / 22 = 1481 – 36449 / 22 = 1481 – 1656.77 = -175.77
Ahora, calculamos 'r':
r = S(xy) / √(S(xx) * S(yy)) = -175.77 / √(17386.36 * 10.33)
r = -175.77 / √(179577.10) = -175.77 / 423.765
r ≈ -0.415
En este caso, el valor de 'r' es -0.415, lo que indica una correlación negativa moderada. Esto sugiere que a medida que aumenta la experiencia del empleado (X), el tiempo que tarda en capturar datos (Y) tiende a disminuir.

La Ecuación de Regresión Lineal
Cuando el diagrama de dispersión muestra una clara relación lineal, podemos ir un paso más allá y determinar un modelo matemático que describa esta relación. La regresión lineal es una técnica utilizada para encontrar la ecuación de la "mejor" línea recta que pasa a través de los puntos de datos. Esta línea, conocida como la línea de regresión de mínimos cuadrados, permite predecir el valor de la variable dependiente (Y) basándose en un valor dado de la variable independiente (X).
Fórmula de la Ecuación de Regresión Lineal:
La ecuación de la línea recta es de la forma:
Y = mX + b
Donde:
Yes el valor predicho de la variable dependiente.Xes el valor de la variable independiente.mes la pendiente de la línea (cuánto cambia Y por cada unidad de cambio en X).bes la intersección con el eje Y (el valor de Y cuando X es 0).
Las fórmulas para calcular 'm' y 'b' son:
m = (nΣXiYi – (ΣXi)(ΣYi)) / (nΣXi² – (ΣXi)²)
b = (ΣYi – mΣXi) / n
Ejemplo de Cálculo de la Ecuación de Regresión:
Volviendo a nuestro primer ejemplo de tiempo de proceso y espesor, y utilizando los sumatorios que ya calculamos:
n = 8
ΣX = 43
ΣY = 202
ΣXi² = 295
ΣXiYi = 1354
Calculamos la pendiente (m):
m = (8 * 1354 – (43 * 202)) / (8 * 295 – (43)²)
m = (10832 – 8686) / (2360 – 1849)
m = 2146 / 511 ≈ 4.1996
Nota: El valor de 'm' proporcionado en la información original (4.67361) podría provenir de un conjunto de datos ligeramente diferente o un redondeo distinto. Basándome en los sumatorios proporcionados, mi cálculo es 4.1996. Usaré el valor de 4.1996 para la consistencia con el cálculo de 'r' y los sumatorios.
Calculamos la intersección (b):
b = (ΣYi – mΣXi) / n = (202 – 4.1996 * 43) / 8
b = (202 – 180.5828) / 8 = 21.4172 / 8 ≈ 2.67715
Por lo tanto, la ecuación de regresión lineal para nuestro ejemplo es:
Y (Espesor) = 4.1996 * X (Tiempo) + 2.67715
Ahora, podemos usar esta ecuación para hacer predicciones. Por ejemplo, para un valor de tiempo de 15 segundos, ¿cuál sería el espesor obtenido?
Y (Espesor) = 4.1996 * 15 + 2.67715 = 62.994 + 2.67715 = 65.67115 milímetros
Esto nos permite estimar el espesor para valores de tiempo que no hemos medido directamente, siempre y cuando se encuentren dentro del rango de los datos originales y la relación lineal se mantenga.
Diagrama de Dispersión vs. Diagrama de Caja y Bigotes: Entendiendo la Dispersión
Mientras el diagrama de dispersión es una herramienta excepcional para explorar la relación entre dos variables, otras representaciones gráficas se enfocan en la distribución y la dispersión de una única variable. Uno de estos es el diagrama de caja y bigotes (boxplot).
El diagrama de caja y bigotes resume la distribución de un conjunto de datos numéricos a través de sus cuartiles, mediana y posibles valores atípicos. Nos muestra la dispersión de los datos al visualizar el rango intercuartílico (IQR), que es la diferencia entre el tercer cuartil (Q3) y el primer cuartil (Q1). Este IQR representa el 50% central de los datos, indicando qué tan concentrados o dispersos están. Por ejemplo, para identificar valores atípicos, se usan ecuaciones como Q1 - 1.5 * (Q3-Q1) para los bajos y Q3 + 1.5 * (Q3-Q1) para los altos.
En contraste, el diagrama de dispersión no se centra en la distribución de una sola variable, sino en la relación entre dos. Aunque el patrón de los puntos en un diagrama de dispersión también muestra la dispersión conjunta de las dos variables, no proporciona directamente los cuartiles o la mediana de cada variable de forma aislada. Ambas herramientas son complementarias en el análisis de datos: el diagrama de dispersión para relaciones bivariadas y el diagrama de caja y bigotes para la distribución univariada y la detección de atípicos.
Conclusiones
El diagrama de dispersión es una herramienta de calidad sumamente valiosa cuando se busca comprender si existe una relación entre dos variables. Nos proporciona una representación gráfica clara del tipo de relación (positiva, negativa o nula) y la fuerza de esta. Es fundamental para identificar posibles relaciones causa-efecto, lo que a su vez impulsa la mejora continua y la optimización de cualquier proceso.
Es importante recordar que, ocasionalmente, un diagrama de dispersión puede presentar puntos anómalos o "outliers". Estos puntos se presentan separados del patrón general y pueden ser resultado de errores de medición, condiciones inusuales en el proceso o simplemente datos excepcionales. Si bien es tentador excluirlos, su estudio puede brindar un conocimiento valioso sobre las causas subyacentes de su aparición.

Finalmente, un diagrama de dispersión, por sí solo, no explica por qué existe una correlación. La correlación no implica causalidad. Es imprescindible examinar la aparente relación entre las variables desde un punto de vista científico o técnico para entender los mecanismos subyacentes. Complementar el análisis visual con la cuantificación del coeficiente de correlación y la ecuación de regresión lineal permite una comprensión más completa y robusta de los datos, transformando la información en conocimiento accionable.
Preguntas Frecuentes (FAQ)
¿Cuál es la diferencia entre correlación y causalidad?
La correlación indica que dos variables se mueven juntas (una aumenta cuando la otra aumenta, o una aumenta cuando la otra disminuye). La causalidad significa que el cambio en una variable es la causa directa del cambio en la otra. Un diagrama de dispersión puede mostrar correlación, pero no puede probar causalidad. Para establecer causalidad, se requieren experimentos controlados y un profundo conocimiento del dominio.
¿Cuándo es apropiado usar un diagrama de dispersión?
Es apropiado usar un diagrama de dispersión cuando se desea investigar la posible relación entre dos variables numéricas, o cuando se sospecha que una variable podría influir en otra. Es muy útil en control de calidad, investigación científica, economía y cualquier campo donde se analicen datos bivariados.
¿Qué significa si el coeficiente de correlación (r) es 0?
Un coeficiente de correlación (r) igual o muy cercano a 0 indica que no existe una relación lineal entre las dos variables. Los puntos en el diagrama de dispersión aparecerían dispersos aleatoriamente sin un patrón discernible. Sin embargo, esto no significa que no exista ninguna relación; podría haber una relación no lineal que 'r' no detecta.
¿Qué hago si hay muchos puntos anómalos en mi diagrama de dispersión?
Si hay muchos puntos anómalos, primero investiga su origen. Podrían ser errores de entrada de datos, fallos del equipo de medición, o eventos inusuales en el proceso. Entender por qué ocurrieron puede ser tan valioso como el análisis de la correlación. Si se confirma que son errores, pueden ser excluidos del análisis. Si representan variaciones reales, deben ser considerados y estudiados.
¿Se puede usar el diagrama de dispersión con variables categóricas?
No directamente. El diagrama de dispersión está diseñado para variables numéricas continuas o discretas. Para variables categóricas o una combinación de categóricas y numéricas, se suelen utilizar otros tipos de gráficos como diagramas de barras agrupadas, box plots comparativos o gráficos de violín.
¿Cómo se relaciona el diagrama de dispersión con la regresión lineal?
El diagrama de dispersión es el primer paso visual para la regresión lineal. Si el diagrama sugiere una relación lineal, la regresión lineal se utiliza para cuantificar esa relación mediante la creación de una ecuación que mejor predice una variable a partir de la otra. El diagrama de dispersión nos ayuda a decidir si una regresión lineal es un modelo adecuado para nuestros datos.
Si quieres conocer otros artículos parecidos a Diagrama de Dispersión: Desvelando Relaciones en tus Datos puedes visitar la categoría Cálculos.
