Diagrama de Dispersión: Desvelando Relaciones en tus Datos

06/07/2022

★★★★★Valoración: 4.07 (12051 votos)

En el vasto universo de los datos, a menudo nos encontramos con la necesidad de entender cómo interactúan diferentes elementos entre sí. Imagina un proceso de manufactura donde el tiempo de cocción de un producto afecta directamente su espesor, o cómo la experiencia de un empleado se relaciona con el tiempo que tarda en completar una tarea. Para desentrañar estas complejas interacciones y visualizar patrones ocultos, el diagrama de dispersión emerge como una herramienta indispensable. Es mucho más que un simple gráfico; es una ventana a la relación entre dos conjuntos de datos, permitiéndonos tomar decisiones más informadas y optimizar procesos de manera significativa.

¿Cómo encontrar el porcentaje en caja y bigotes? — La línea que divide el cuadro en dos representa la mediana . Esto indica que el 50 % de los datos se encuentra a la izquierda de la mediana y el otro 50 % a la derecha. El borde izquierdo del cuadro representa el cuartil inferior; muestra el valor al que se sitúa el primer 25 % de los datos.

La calidad de un producto o la eficiencia de un proceso siempre están influenciadas por múltiples factores. Aunque tengamos parámetros establecidos y la experiencia nos dicte ciertos rangos de operación, siempre hay aspectos que no conocemos del todo o que asumimos conocer. Aquí es donde el diagrama de dispersión se vuelve crucial. Al representar visualmente el comportamiento de nuestras variables de proceso basadas en datos reales, podemos descubrir relaciones que de otra manera pasarían desapercibidas, abriendo las puertas a mejoras sustanciales y a una comprensión más profunda de nuestro entorno operativo.

Índice de Contenido

¿Qué es un Diagrama de Dispersión?
¿Para qué Sirve un Diagrama de Dispersión?
¿Cómo se Construye el Diagrama de Dispersión?
El Coeficiente de Correlación Lineal (r)
La Ecuación de Regresión Lineal
- Fórmula de la Ecuación de Regresión Lineal:
- Ejemplo de Cálculo de la Ecuación de Regresión:
Diagrama de Dispersión vs. Diagrama de Caja y Bigotes: Entendiendo la Dispersión
Conclusiones
Preguntas Frecuentes (FAQ)

¿Qué es un Diagrama de Dispersión?

Un diagrama de dispersión es una representación gráfica utilizada para analizar datos bivariados, es decir, aquellos que involucran dos variables. Su principal objetivo es mostrar si existe una relación, y de qué tipo, entre una variable y la otra. Cada punto en el diagrama representa un par de valores (X, Y) para una observación específica, donde X es la variable independiente y Y es la variable dependiente. A medida que se grafican estos puntos, se van dispersando o posicionando en el diagrama, revelando patrones que indican el grado y la dirección de la relación entre ambas variables.

Esta herramienta es fundamental para el control y la mejora de procesos. Resulta indispensable conocer cómo se comportan algunas variables o características de calidad entre sí, es decir, descubrir si el comportamiento de unas depende del comportamiento de otras, o no, y en qué grado. Por ejemplo, en un proceso de manufactura, podríamos querer saber si el aumento de la temperatura de un horno (variable X) tiene un efecto directo sobre la resistencia de un material (variable Y).

Las dos variables en un diagrama de dispersión pueden ser:

Una característica de calidad y un factor que incide sobre ella (ej. resistencia del material vs. temperatura del horno).
Dos características de calidad relacionadas (ej. dureza del material vs. su flexibilidad).
Dos factores relacionados con una misma característica de calidad (ej. tiempo de mezclado vs. cantidad de catalizador, ambos afectando la pureza de un compuesto).

¿Para qué Sirve un Diagrama de Dispersión?

El diagrama de dispersión es una herramienta poderosa que nos indica si dos variables están relacionadas. Pero su utilidad va más allá de la simple identificación de una relación. También puede proporcionar la posibilidad de reconocer fácilmente relaciones de causa/efecto. Al visualizar cómo los cambios en una variable se corresponden con los cambios en otra, podemos empezar a formular hipótesis sobre la causalidad y diseñar experimentos para confirmarlas.

Además, sirve para:

Identificar patrones: Permite ver rápidamente si existe una relación lineal, no lineal o si no hay relación aparente.
Cuantificar la relación: Aunque visual, es el primer paso para calcular medidas estadísticas como el coeficiente de correlación.
Detectar valores atípicos: Puntos que se desvían significativamente del patrón general pueden indicar errores de medición o condiciones inusuales en el proceso.
Apoyar la toma de decisiones: Al entender las relaciones entre variables, se pueden ajustar procesos para optimizar resultados, reducir defectos o mejorar la eficiencia.

¿Cómo se Construye el Diagrama de Dispersión?

La construcción de un diagrama de dispersión es un proceso sistemático que, aunque sencillo, requiere atención a los detalles para asegurar una interpretación correcta. A continuación, se detallan los pasos:

Paso 1: Definir las Variables a Diagramar

El primer paso es identificar claramente las dos variables que se desean analizar. Una será la variable independiente (generalmente en el eje X) y la otra la dependiente (en el eje Y). Por ejemplo, si queremos ver cómo el tiempo de proceso afecta el espesor de un producto, nuestras variables serían: Tiempo del Proceso (X) en segundos y Espesor del Producto (Y) en milímetros.

Paso 2: Determinar Escalas para las Variables

Una vez definidas las variables, se deben diseñar las escalas apropiadas para los ejes X y Y. Si se realiza el diagrama manualmente en papel, es crucial determinar los rangos (mínimo y máximo) de cada variable para trazar una escala que abarque todos los valores a medir. Si se utiliza software como Excel o Minitab, el programa generará estas escalas automáticamente, facilitando el proceso.

Paso 3: Recolectar los Datos

Este es un paso crítico. Se procede a realizar las mediciones necesarias durante el proceso de interés. Se recolectan 'n' parejas de datos de la forma (Xi, Yi), donde Xi y Yi representan los valores respectivos de las dos variables para cada observación. Continuando con nuestro ejemplo, se mediría y anotaría el espesor resultante para cada tiempo de proceso progresivamente.

¿Cuál es la fórmula del diagrama de caja y bigotes? — El diagrama de caja y bigotes resume nuestros datos y suele utilizarse para identificar valores atípicos altos y bajos. Por ejemplo, para encontrar un valor atípico bajo, podemos usar la ecuación: Q1 - 1,5 (Q3-Q1) . Para encontrar un valor atípico alto, podemos usar la ecuación: Q3 + 1,5 (Q3-Q1).

Paso 4: Generar el Diagrama

Con los datos recolectados, se trazan los puntos en la hoja del diagrama de dispersión o se grafican en el software deseado. Cada par (Xi, Yi) se convierte en un punto en el plano cartesiano. En nuestro ejemplo, al graficar el tiempo frente al espesor, podríamos observar que a mayor tiempo, mayor espesor, lo que indicaría una correlación positiva.

Paso 5: Lectura y Uso del Diagrama de Dispersión

La interpretación de un diagrama de dispersión se basa en el patrón que asumen los puntos. Si el patrón de puntos se asemeja (quizás de forma aproximada) a una línea recta, se dice que existe una relación lineal entre las variables. La lectura se enfoca en tres aspectos clave: el tipo de relación, la fuerza de la relación y la presencia de puntos anómalos.

Correlación Positiva: Si a un aumento en el valor de la variable X le acompaña un aumento en el valor de la variable Y, se habla de una correlación positiva. Los puntos tienden a agruparse en una línea ascendente de izquierda a derecha.
Correlación Negativa: El caso inverso, donde un aumento en X se acompaña de una disminución en Y, da lugar a una correlación negativa. Los puntos tienden a agruparse en una línea descendente de izquierda a derecha.
Sin Correlación: Si los puntos están dispersos aleatoriamente sin un patrón discernible, indica que no hay una relación lineal aparente entre las variables.

Además, la fuerza de la relación se evalúa por lo cerca que están los puntos de formar una línea recta. Cuanto más apretados estén, más fuerte será la relación.

El Coeficiente de Correlación Lineal (r)

Más allá del análisis gráfico, la fuerza y dirección de la relación lineal entre dos variables se puede cuantificar mediante un indicador estadístico llamado coeficiente de correlación lineal de Pearson, denotado por 'r'.

El valor de 'r' siempre estará entre -1 y +1. Un valor de 'r' cercano a +1 indica una correlación positiva fuerte, es decir, que al aumentar una variable, la otra también aumenta de manera predecible. Un 'r' cercano a -1 indica una correlación negativa fuerte, donde al aumentar una variable, la otra disminuye. Un valor de 'r' cercano a 0 sugiere que no existe una relación lineal entre las variables.

Fórmula del Coeficiente de Correlación Lineal (r):

La fórmula para calcular 'r' es la siguiente:

r = S(xy) / √(S(xx) * S(yy))

Donde:

S(xx) = ΣXi² – (ΣXi)² / n
S(yy) = ΣYi² – (ΣYi)² / n
S(xy) = ΣXiYi – ((ΣXi)(ΣYi)) / n

Y 'n' es el número de parejas de datos. El término S(xy) se conoce como covarianza.

Ejemplo de Cálculo del Coeficiente de Correlación (r):

Utilicemos los datos de nuestro ejemplo de tiempo de proceso (X) y espesor del producto (Y). Supongamos que tenemos los siguientes 8 pares de datos:

Tiempo (X)	Espesor (Y)	X²	Y²	XY
3	10	9	100	30
4	15	16	225	60
5	20	25	400	100
6	25	36	625	150
7	30	49	900	210
8	35	64	1225	280
9	40	81	1600	360
1	27	1	729	27
ΣX = 43	ΣY = 202	ΣX² = 295	ΣY² = 6234	ΣXY = 1354

Con n = 8, calculamos los componentes:

S(xx) = ΣXi² – (ΣXi)² / n = 295 – (43 * 43) / 8 = 295 – 1849 / 8 = 295 – 231.125 = 63.875

S(yy) = ΣYi² – (ΣYi)² / n = 6234 – (202 * 202) / 8 = 6234 – 40804 / 8 = 6234 – 5100.5 = 1133.5

S(xy) = ΣXiYi – ((ΣXi)(ΣYi)) / n = 1354 – (43 * 202) / 8 = 1354 – 8686 / 8 = 1354 – 1085.75 = 268.25

Ahora, calculamos 'r':

r = S(xy) / √(S(xx) * S(yy)) = 268.25 / √(63.875 * 1133.5)

r = 268.25 / √(72403.0625) = 268.25 / 269.078

r ≈ 0.9969

Este valor de 'r' cercano a +1 indica una correlación positiva muy fuerte. En términos porcentuales, %r = r * 100 = 99.69%, lo que sugiere que el tiempo de proceso explica casi el 100% de la variación en el espesor, una relación casi perfecta.

Segundo Ejemplo de Cálculo del Coeficiente de Correlación (r):

Consideremos otro ejemplo donde la variable X es la experiencia en semanas de empleados y la variable Y es el tiempo en minutos que tardan en capturar datos. Supongamos que tenemos los siguientes datos (los datos específicos no fueron proporcionados en la entrada, pero se proporcionaron los sumatorios):

Estadístico	Valor
n	22
ΣXi	1270
ΣYi	28.7
ΣXi²	90700
ΣYi²	47.77
ΣXiYi	1481

Calculamos los componentes:

S(xx) = ΣXi² – (ΣXi)² / n = 90700 – (1270)² / 22 = 90700 – 1612900 / 22 = 90700 – 73313.64 = 17386.36

S(yy) = ΣYi² – (ΣYi)² / n = 47.77 – (28.7)² / 22 = 47.77 – 823.69 / 22 = 47.77 – 37.44 = 10.33

S(xy) = ΣXiYi – (ΣXi)(ΣYi) / n = 1481 – (1270)(28.7) / 22 = 1481 – 36449 / 22 = 1481 – 1656.77 = -175.77

Ahora, calculamos 'r':

r = S(xy) / √(S(xx) * S(yy)) = -175.77 / √(17386.36 * 10.33)

r = -175.77 / √(179577.10) = -175.77 / 423.765

r ≈ -0.415

En este caso, el valor de 'r' es -0.415, lo que indica una correlación negativa moderada. Esto sugiere que a medida que aumenta la experiencia del empleado (X), el tiempo que tarda en capturar datos (Y) tiende a disminuir.

¿Qué es la dispersión en un diagrama de caja? — Comprensión de la dispersión mediante diagramas de caja y diagramas de violín (15 minutos). La dispersión, también conocida como variabilidad, dispersión o dispersión, mide cómo se comprimen o estiran los datos . Las medidas de dispersión serían la varianza, la desviación estándar y el rango intercuartil.

La Ecuación de Regresión Lineal

Cuando el diagrama de dispersión muestra una clara relación lineal, podemos ir un paso más allá y determinar un modelo matemático que describa esta relación. La regresión lineal es una técnica utilizada para encontrar la ecuación de la "mejor" línea recta que pasa a través de los puntos de datos. Esta línea, conocida como la línea de regresión de mínimos cuadrados, permite predecir el valor de la variable dependiente (Y) basándose en un valor dado de la variable independiente (X).

Fórmula de la Ecuación de Regresión Lineal:

La ecuación de la línea recta es de la forma:

Y = mX + b

Donde:

Y es el valor predicho de la variable dependiente.
X es el valor de la variable independiente.
m es la pendiente de la línea (cuánto cambia Y por cada unidad de cambio en X).
b es la intersección con el eje Y (el valor de Y cuando X es 0).

Las fórmulas para calcular 'm' y 'b' son:

m = (nΣXiYi – (ΣXi)(ΣYi)) / (nΣXi² – (ΣXi)²)

b = (ΣYi – mΣXi) / n

Ejemplo de Cálculo de la Ecuación de Regresión:

Volviendo a nuestro primer ejemplo de tiempo de proceso y espesor, y utilizando los sumatorios que ya calculamos:

n = 8

ΣX = 43

ΣY = 202

ΣXi² = 295

ΣXiYi = 1354

Calculamos la pendiente (m):

m = (8 * 1354 – (43 * 202)) / (8 * 295 – (43)²)

m = (10832 – 8686) / (2360 – 1849)

m = 2146 / 511 ≈ 4.1996

Nota: El valor de 'm' proporcionado en la información original (4.67361) podría provenir de un conjunto de datos ligeramente diferente o un redondeo distinto. Basándome en los sumatorios proporcionados, mi cálculo es 4.1996. Usaré el valor de 4.1996 para la consistencia con el cálculo de 'r' y los sumatorios.

Calculamos la intersección (b):

b = (ΣYi – mΣXi) / n = (202 – 4.1996 * 43) / 8

b = (202 – 180.5828) / 8 = 21.4172 / 8 ≈ 2.67715

Por lo tanto, la ecuación de regresión lineal para nuestro ejemplo es:

Y (Espesor) = 4.1996 * X (Tiempo) + 2.67715

Ahora, podemos usar esta ecuación para hacer predicciones. Por ejemplo, para un valor de tiempo de 15 segundos, ¿cuál sería el espesor obtenido?

Y (Espesor) = 4.1996 * 15 + 2.67715 = 62.994 + 2.67715 = 65.67115 milímetros

Esto nos permite estimar el espesor para valores de tiempo que no hemos medido directamente, siempre y cuando se encuentren dentro del rango de los datos originales y la relación lineal se mantenga.

Diagrama de Dispersión vs. Diagrama de Caja y Bigotes: Entendiendo la Dispersión

Mientras el diagrama de dispersión es una herramienta excepcional para explorar la relación entre dos variables, otras representaciones gráficas se enfocan en la distribución y la dispersión de una única variable. Uno de estos es el diagrama de caja y bigotes (boxplot).

El diagrama de caja y bigotes resume la distribución de un conjunto de datos numéricos a través de sus cuartiles, mediana y posibles valores atípicos. Nos muestra la dispersión de los datos al visualizar el rango intercuartílico (IQR), que es la diferencia entre el tercer cuartil (Q3) y el primer cuartil (Q1). Este IQR representa el 50% central de los datos, indicando qué tan concentrados o dispersos están. Por ejemplo, para identificar valores atípicos, se usan ecuaciones como Q1 - 1.5 * (Q3-Q1) para los bajos y Q3 + 1.5 * (Q3-Q1) para los altos.

En contraste, el diagrama de dispersión no se centra en la distribución de una sola variable, sino en la relación entre dos. Aunque el patrón de los puntos en un diagrama de dispersión también muestra la dispersión conjunta de las dos variables, no proporciona directamente los cuartiles o la mediana de cada variable de forma aislada. Ambas herramientas son complementarias en el análisis de datos: el diagrama de dispersión para relaciones bivariadas y el diagrama de caja y bigotes para la distribución univariada y la detección de atípicos.

Conclusiones

El diagrama de dispersión es una herramienta de calidad sumamente valiosa cuando se busca comprender si existe una relación entre dos variables. Nos proporciona una representación gráfica clara del tipo de relación (positiva, negativa o nula) y la fuerza de esta. Es fundamental para identificar posibles relaciones causa-efecto, lo que a su vez impulsa la mejora continua y la optimización de cualquier proceso.

Es importante recordar que, ocasionalmente, un diagrama de dispersión puede presentar puntos anómalos o "outliers". Estos puntos se presentan separados del patrón general y pueden ser resultado de errores de medición, condiciones inusuales en el proceso o simplemente datos excepcionales. Si bien es tentador excluirlos, su estudio puede brindar un conocimiento valioso sobre las causas subyacentes de su aparición.

¿Cómo se calcula el diagrama de dispersión?

Finalmente, un diagrama de dispersión, por sí solo, no explica por qué existe una correlación. La correlación no implica causalidad. Es imprescindible examinar la aparente relación entre las variables desde un punto de vista científico o técnico para entender los mecanismos subyacentes. Complementar el análisis visual con la cuantificación del coeficiente de correlación y la ecuación de regresión lineal permite una comprensión más completa y robusta de los datos, transformando la información en conocimiento accionable.

Preguntas Frecuentes (FAQ)

¿Cuál es la diferencia entre correlación y causalidad?

La correlación indica que dos variables se mueven juntas (una aumenta cuando la otra aumenta, o una aumenta cuando la otra disminuye). La causalidad significa que el cambio en una variable es la causa directa del cambio en la otra. Un diagrama de dispersión puede mostrar correlación, pero no puede probar causalidad. Para establecer causalidad, se requieren experimentos controlados y un profundo conocimiento del dominio.

¿Cuándo es apropiado usar un diagrama de dispersión?

Es apropiado usar un diagrama de dispersión cuando se desea investigar la posible relación entre dos variables numéricas, o cuando se sospecha que una variable podría influir en otra. Es muy útil en control de calidad, investigación científica, economía y cualquier campo donde se analicen datos bivariados.

¿Qué significa si el coeficiente de correlación (r) es 0?

Un coeficiente de correlación (r) igual o muy cercano a 0 indica que no existe una relación lineal entre las dos variables. Los puntos en el diagrama de dispersión aparecerían dispersos aleatoriamente sin un patrón discernible. Sin embargo, esto no significa que no exista ninguna relación; podría haber una relación no lineal que 'r' no detecta.

¿Qué hago si hay muchos puntos anómalos en mi diagrama de dispersión?

Si hay muchos puntos anómalos, primero investiga su origen. Podrían ser errores de entrada de datos, fallos del equipo de medición, o eventos inusuales en el proceso. Entender por qué ocurrieron puede ser tan valioso como el análisis de la correlación. Si se confirma que son errores, pueden ser excluidos del análisis. Si representan variaciones reales, deben ser considerados y estudiados.

¿Se puede usar el diagrama de dispersión con variables categóricas?

No directamente. El diagrama de dispersión está diseñado para variables numéricas continuas o discretas. Para variables categóricas o una combinación de categóricas y numéricas, se suelen utilizar otros tipos de gráficos como diagramas de barras agrupadas, box plots comparativos o gráficos de violín.

¿Cómo se relaciona el diagrama de dispersión con la regresión lineal?

El diagrama de dispersión es el primer paso visual para la regresión lineal. Si el diagrama sugiere una relación lineal, la regresión lineal se utiliza para cuantificar esa relación mediante la creación de una ecuación que mejor predice una variable a partir de la otra. El diagrama de dispersión nos ayuda a decidir si una regresión lineal es un modelo adecuado para nuestros datos.

Si quieres conocer otros artículos parecidos a Diagrama de Dispersión: Desvelando Relaciones en tus Datos puedes visitar la categoría Cálculos.