¿Cómo puedo calcular la regresión lineal?

Regresión Lineal Simple: Guía Paso a Paso

16/09/2022

Valoración: 4.94 (5383 votos)

En el vasto universo de las calculadoras y los cálculos, la capacidad de predecir es una de las herramientas más valiosas que la estadística nos ofrece. Si bien en un artículo anterior exploramos cómo la correlación nos ayuda a entender la asociación entre dos variables cuantitativas, la regresión da un paso fundamental más allá. No solo nos dice si existe una relación, sino que nos permite construir un modelo matemático para predecir el valor de una variable, la dependiente o criterio, basándonos en el valor de otra, la independiente o explicativa.

¿Cómo se calcula la recta de regresión?
La ecuación de regresión lineal simple indica que el valor medio o valor esperado de y es una función lineal de x: E(y/x) = \u03b20 + \u03b21 x. Si \u03b21=0 entonces E(y/x) = \u03b20 y en este caso el valor medio no depende del valor de x, y concluimos que x y y no tienen relación lineal.

Para clarificar la distinción entre estos dos conceptos cruciales en el análisis de datos:

CaracterísticaCorrelaciónRegresión
Objetivo PrincipalMedir la fuerza y dirección de la asociación entre variables.Predecir el valor de una variable a partir de otra(s).
VariablesAmbas variables son tratadas simétricamente.Existe una variable dependiente (Y) y una(s) independiente(s) (X).
Resultado ClaveCoeficiente de correlación (ej., r de Pearson).Ecuación de predicción (línea de regresión).
ImplicaciónAsociación, pero no necesariamente causalidad.Predicción y modelado de relaciones funcionales.

La regresión, en su esencia, busca desentrañar la estructura de una relación, permitiéndonos hacer inferencias sobre el comportamiento futuro o desconocido de una variable. Puede ser simple, cuando solo consideramos una variable independiente, o múltiple, cuando incluimos varias. Existen diversos modelos de regresión, pero en este artículo nos sumergiremos en el más fundamental y ampliamente utilizado: la regresión lineal simple. Este modelo es la piedra angular para comprender relaciones directas entre dos variables cuantitativas y es el punto de partida para análisis predictivos más complejos.

Índice de Contenido

Comprendiendo la Regresión Lineal Simple

La regresión lineal simple se enfoca en modelar la relación entre dos variables mediante una línea recta. Imagina un conjunto de puntos dispersos en un gráfico; la regresión lineal simple busca la "mejor" línea que se ajuste a esos puntos, de modo que podamos usarla para predecir valores. La función del modelo que aplicamos a la variable dependiente (que usualmente llamamos 'y') es la media aritmética, lo que significa que la línea de regresión siempre pasará por el punto que definen las medias de ambas variables (x e y).

La ecuación fundamental que representa esta línea de regresión es la siguiente:

y = β₀ + β₁x + e

  • y: Es la variable dependiente, cuyo valor queremos predecir.
  • x: Es la variable independiente o explicativa, utilizada para hacer la predicción.
  • β₀ (beta cero): Conocido como el intercepto o la ordenada al origen. Representa el valor promedio de 'y' cuando 'x' es igual a cero. Gráficamente, es el punto donde la línea de regresión cruza el eje vertical (eje de las ordenadas).
  • β₁ (beta uno): Este es el coeficiente de la pendiente. Nos indica cuánto cambia la variable 'y' por cada unidad de cambio en la variable 'x'. Si β₁ es positivo, 'y' aumenta con 'x'; si es negativo, 'y' disminuye con 'x'.
  • e (épsilon): Representa el término de error o residuo. Es la parte de la variabilidad de 'y' que el modelo no puede explicar. Captura la variabilidad aleatoria y otros factores no incluidos en el modelo.

Estos coeficientes de regresión, β₀ y β₁, son los parámetros que definen nuestra línea. Nuestro objetivo principal es estimar sus valores a partir de los datos que tenemos.

El Método de los Mínimos Cuadrados: Encontrando la Mejor Línea

Una vez que tenemos nuestros datos representados en un diagrama de dispersión, es evidente que ninguna línea se ajustará perfectamente a todos los puntos. La pregunta clave es: ¿cuál de las infinitas líneas posibles es la "mejor" para representar la relación entre nuestras variables? Aquí es donde entra en juego el método de los Mínimos Cuadrados, el enfoque más común y robusto para estimar los coeficientes de regresión.

La Lógica Detrás de los Mínimos Cuadrados

Imagina que trazamos una línea arbitraria a través de nuestros puntos. Para cada punto de datos (xᵢ, yᵢ), la línea nos dará un valor predicho para y, que denotaremos como ŷᵢ (y-sombrero). La diferencia entre el valor real observado (yᵢ) y el valor predicho por la línea (ŷᵢ) es lo que llamamos el residuo (eᵢ):

eᵢ = yᵢ - ŷᵢ

Estos residuos representan la distancia vertical de cada punto a la línea. Algunos residuos serán positivos (el punto está por encima de la línea), y otros serán negativos (el punto está por debajo). Si simplemente sumáramos todos los residuos, los valores positivos y negativos se anularían, resultando en una suma cercana a cero, lo cual no nos daría información útil sobre el ajuste de la línea.

Para evitar esta cancelación y darle el mismo peso a las desviaciones positivas y negativas, el método de los mínimos cuadrados propone minimizar la suma de los cuadrados de estos residuos. En otras palabras, busca la línea que haga que la suma de (yᵢ - ŷᵢ)² sea lo más pequeña posible. Al minimizar esta suma de cuadrados, la línea resultante es la que mejor se ajusta a los datos, en el sentido de que minimiza el error total de predicción.

Fórmulas para los Coeficientes

Aunque la demostración matemática completa implica cálculo diferencial, las fórmulas resultantes para estimar los coeficientes (a menudo denotados como b₀ y b₁ para distinguirlos de los parámetros poblacionales β₀ y β₁) son las siguientes:

Para la pendiente (b₁):

b₁ = Sxy / Sx²

Donde:

  • Sxy es la covarianza entre las variables x e y. Mide cómo varían juntas.
  • Sx² es la varianza de la variable independiente x. Mide la dispersión de x.

En términos más detallados, la covarianza se calcula como:

Sxy = Σ[(xᵢ - x̄)(yᵢ - ȳ)] / (n - 1)

Y la varianza de x como:

Sx² = Σ[(xᵢ - x̄)²] / (n - 1)

Donde x̄ y ȳ son las medias de x e y respectivamente, y n es el número de observaciones.

Una vez que hemos calculado b₁, podemos obtener el intercepto (b₀) despejándolo de la ecuación de la línea, utilizando las medias de x e y (ya que sabemos que la línea pasa por el punto de las medias):

b₀ = ȳ - b₁x̄

Con estas dos estimaciones, b₀ y b₁, hemos definido nuestra línea de regresión que mejor se ajusta a nuestros datos. Sin embargo, encontrar la línea es solo el primer paso. Necesitamos asegurarnos de que esta línea es estadísticamente significativa y que el modelo es adecuado para hacer predicciones.

Validación del Modelo de Regresión: ¿Es Significativo?

Una vez que hemos calculado nuestros coeficientes de regresión (b₀ y b₁), el siguiente paso crucial es determinar si estos coeficientes son estadísticamente significativos. Es decir, queremos saber si la relación que hemos encontrado en nuestra muestra es probable que exista también en la población de la que proviene nuestra muestra, o si simplemente se debe al azar.

Para validar el modelo, planteamos una prueba de hipótesis para cada coeficiente. La hipótesis nula (H₀) para cada coeficiente (β₀ o β₁) es que su valor en la población es cero. Si un coeficiente es cero, significa que la variable independiente no tiene efecto lineal sobre la dependiente (en el caso de β₁) o que el intercepto no es significativamente diferente de cero (en el caso de β₀). La hipótesis alternativa (H₁) es que el coeficiente es diferente de cero.

Existen dos métodos principales para realizar este contraste de hipótesis:

  1. Usando la Distribución t de Student: Cada coeficiente se divide por su error estándar (una medida de la variabilidad de la estimación del coeficiente). El resultado es un estadístico 't' que sigue una distribución t de Student con n-2 grados de libertad (donde n es el número de observaciones). A partir de este valor 't', se calcula un valor p. Si el valor p es menor que un nivel de significancia predefinido (comúnmente 0.05), rechazamos la hipótesis nula y concluimos que el coeficiente es estadísticamente significativo. Esto significa que tenemos suficiente evidencia para creer que existe una relación lineal real en la población.
  2. Análisis de Varianza (ANOVA): Este enfoque es un poco más global y considera la variabilidad total de la variable dependiente. Descompone esta variabilidad en dos partes: una parte explicada por el modelo de regresión (es decir, por la variable independiente) y otra parte no explicada (residual o aleatoria). A través de un estadístico F y su valor p asociado, el ANOVA nos permite determinar si el modelo en su conjunto es estadísticamente significativo. Si el valor p del ANOVA es menor a 0.05, el modelo es útil para explicar la variabilidad de la variable dependiente.

En la práctica, los paquetes de software estadístico (como R, SPSS, Stata, etc.) realizan automáticamente estos cálculos y proporcionan los valores p necesarios para la interpretación. Es fundamental que al menos el coeficiente de la pendiente (b₁) sea estadísticamente significativo para que el modelo de regresión lineal simple sea útil para la predicción.

Diagnóstico del Modelo de Regresión: Asegurando su Fiabilidad

Una vez que hemos validado la significación de nuestros coeficientes, no hemos terminado. Para que las inferencias y predicciones de nuestro modelo sean válidas y fiables, es crucial que se cumplan una serie de supuestos sobre los residuos. Este proceso se conoce como el diagnóstico del modelo de regresión. Ignorar estos supuestos puede llevar a conclusiones erróneas. Los cuatro supuestos principales son: linealidad, homocedasticidad, normalidad e independencia.

1. Supuesto de Linealidad

Este es el supuesto más fundamental: la relación entre la variable independiente (predictora) y la variable dependiente (criterio) debe ser lineal. Si la relación real es curva (no lineal), un modelo lineal simple no la representará adecuadamente, y las predicciones serán inexactas.

  • Comprobación Gráfica: La forma más sencilla es examinar el diagrama de dispersión de las variables. ¿Los puntos se agrupan aproximadamente alrededor de una línea recta? Si se observa una curvatura clara, la linealidad podría no cumplirse.
  • Comprobación Numérica: Pruebas como la prueba RESET de Ramsey pueden evaluar la linealidad. Si el valor p de esta prueba es alto (generalmente > 0.05), no tenemos evidencia para rechazar la linealidad.

2. Supuesto de Homocedasticidad

La homocedasticidad significa que la varianza de los residuos debe ser constante para todos los niveles de la variable predictora. En otras palabras, la dispersión de los puntos alrededor de la línea de regresión debe ser similar a lo largo de todo el rango de valores de x. Si la varianza de los residuos cambia (heterocedasticidad), las estimaciones de los errores estándar de los coeficientes serán incorrectas, afectando la validez de las pruebas de significancia.

  • Comprobación Gráfica: Se suele graficar los residuos frente a los valores predichos (o la variable independiente). Para que haya homocedasticidad, los puntos deben distribuirse de manera aleatoria y uniforme alrededor del eje cero, sin mostrar patrones de "embudo" (donde la dispersión aumenta o disminuye con los valores predichos).
  • Comprobación Numérica: Pruebas como la de Breusch-Pagan o la de White son comunes. Si el valor p es alto (> 0.05), asumimos que se cumple la homocedasticidad.

3. Supuesto de Normalidad de los Residuos

Se asume que los residuos del modelo siguen una distribución normal con una media de cero. Este supuesto es importante para la validez de las pruebas de significancia de los coeficientes (pruebas t y F), especialmente en muestras pequeñas.

  • Comprobación Gráfica: Histograma de los residuos (debe parecer una campana de Gauss) o un gráfico Q-Q (quantile-quantile plot), donde los puntos deben seguir la línea diagonal.
  • Comprobación Numérica: Pruebas de normalidad como la de Kolmogorov-Smirnov o Shapiro-Wilk. Un valor p alto (> 0.05) indica que no hay evidencia para rechazar la normalidad de los residuos.

4. Supuesto de Independencia de los Residuos

Este supuesto establece que los residuos deben ser independientes entre sí, lo que significa que el error de una observación no debe estar correlacionado con el error de otra observación. Esto es crucial en datos de series de tiempo, donde las observaciones consecutivas a menudo están relacionadas. La violación de este supuesto (autocorrelación) puede llevar a estimaciones de errores estándar sesgadas y, por lo tanto, a inferencias incorrectas.

¿Cómo sacar la ecuación de regresión lineal?
La ecuación de regresión para el modelo lineal tiene la forma siguiente: Y= b 0 + b 1x 1. En la ecuación de regresión, Y es la variable de respuesta, b 0 es la constante o intersección, b 1 es el coeficiente estimado para el término lineal (también denominado como pendiente de línea) y x 1 es el valor del término.
  • Comprobación Numérica: La prueba de Durbin-Watson es el método más común. Un valor cercano a 2 (típicamente entre 1.5 y 2.5) sugiere independencia. Valores significativamente menores que 2 indican autocorrelación positiva, y valores significativamente mayores que 2 indican autocorrelación negativa. Un valor p alto (> 0.05) para esta prueba soporta la independencia.

El incumplimiento de estos supuestos no necesariamente invalida el modelo por completo, pero puede requerir transformaciones de las variables, el uso de métodos de regresión más avanzados (como la regresión robusta) o la reconsideración de la estructura del modelo.

Ejemplo Práctico de Regresión Lineal Simple con Software Estadístico

Para ilustrar el proceso de cálculo, validación y diagnóstico, utilizaremos un ejemplo práctico con el software estadístico R y su interfaz RCommander. La base de datos, IndCT_IMC.RData, contiene datos antropométricos de 58 niños, incluyendo el índice de cintura-talla (IndCT) y el índice de masa corporal estandarizado por edad y sexo (IMC_DS). Nuestro objetivo es estimar el IMC_DS (variable dependiente) a partir del IndCT (variable independiente).

Paso 1: Exploración Inicial de los Datos (Diagrama de Dispersión)

Antes de ajustar cualquier modelo, es crucial visualizar la relación entre las variables. En RCommander, seleccionamos Gráficas -> Diagrama de dispersión. Asignamos IndCT a la variable "x" e IMC_DS a la variable "y".

Al observar el gráfico, notamos que los puntos tienden a distribuirse aproximadamente a lo largo de una línea recta que asciende hacia la derecha. Esto sugiere una relación lineal positiva entre IndCT e IMC_DS, lo que nos da la confianza inicial para proceder con un modelo de regresión lineal.

Paso 2: Cálculo del Modelo de Regresión Lineal

Para ajustar el modelo, en RCommander, vamos a Estadísticos -> Ajuste de modelos -> Regresión lineal. Seleccionamos IMC_DS como "Variable explicada" (dependiente) e IndCT como "Variable explicativa" (independiente). Al aceptar, R nos proporciona un resumen detallado del modelo.

El resumen nos muestra la distribución de los residuos, indicando que su mediana está cerca de cero y sus valores se distribuyen uniformemente, lo que es una buena señal de normalidad. Lo más importante son los coeficientes:

  • Para IndCT (variable explicativa): Su coeficiente estimado es aproximadamente 16.2. Esto significa que por cada unidad de aumento en IndCT, el IMC_DS aumenta en 16.2 unidades. Dado que IndCT varía entre 0.36 y 0.58, es más intuitivo pensar que por cada 0.1 unidades de IndCT, el IMC_DS aumenta en 1.62 unidades (16.2 * 0.1).
  • Para el Intercepto (constante): Su coeficiente estimado es aproximadamente -7.4.

Ambos coeficientes vienen acompañados de su error estándar y, crucialmente, sus valores p. En este ejemplo, ambos valores p son muy bajos (típicamente < 0.001), lo que indica que ambos coeficientes son estadísticamente significativos. Esto valida el modelo y nos permite escribir la ecuación de regresión estimada:

IMC_DS = -7.4 + 16.2 * IndCT

El resumen también incluye el "Adjusted R squared" (R cuadrado ajustado), que en este caso es 0.3682. Esto se interpreta como que el IndCT explica el 36.82% de la variabilidad del IMC_DS. Es una medida de qué tan bien el modelo se ajusta a los datos.

Paso 3: Diagnóstico del Modelo

Ahora, verificamos los supuestos cruciales:

A. Linealidad:

Además de la inspección visual del diagrama de dispersión, realizamos una prueba numérica. En RCommander, seleccionamos Modelos -> Diagnósticos numéricos -> Test RESET de no linealidad. Si el valor p resultante (e.g., p = 0.52) es mayor que 0.05, no rechazamos la hipótesis nula de linealidad, confirmando nuestra impresión gráfica.

B. Homocedasticidad:

Primero, graficamos los residuos frente a los valores predichos (Modelos -> Gráficas -> Gráficas básicas de diagnóstico, la primera gráfica). Buscamos una distribución aleatoria y uniforme de los puntos. Luego, realizamos la prueba numérica de Breusch-Pagan (Modelos -> Diagnósticos numéricos -> Test de Breusch-Pagan para heterocedasticidad). Un valor p alto (e.g., p = 0.74) sugiere que se cumple el supuesto de homocedasticidad.

C. Normalidad de los Residuos:

Podemos usar un gráfico de comparación de cuantiles (Q-Q plot) de los residuos (generalmente disponible en las gráficas básicas de diagnóstico o como opción específica). Si los puntos siguen la línea diagonal, la normalidad es plausible. También podríamos usar pruebas numéricas como Shapiro-Wilk, aunque a menudo la inspección visual es suficiente si la muestra es grande.

D. Independencia de los Residuos:

La prueba de Durbin-Watson es la herramienta principal (Modelos -> Diagnósticos numéricos -> Test de Durbin-Watson para autocorrelación). Un valor del estadístico DW cercano a 2 (e.g., 2.37) y un valor p alto (e.g., p = 0.14) indican que no hay evidencia de autocorrelación, es decir, los residuos son independientes.

Al cumplir con todos estos supuestos, podemos confiar en que nuestro modelo de regresión lineal simple es válido y robusto para realizar predicciones sobre el IMC_DS a partir del IndCT en la población estudiada.

Preguntas Frecuentes sobre Regresión y Calculadoras

¿Por qué es importante la regresión lineal simple en la vida real?

La regresión lineal simple es increíblemente versátil. Se utiliza en campos tan diversos como la economía (predecir ventas en función de la publicidad), la medicina (predecir la dosis de un fármaco en función del peso), la ingeniería (predecir la resistencia de un material en función de su composición) o las ciencias sociales (predecir el rendimiento académico en función de las horas de estudio). Nos permite entender relaciones causa-efecto (o al menos asociaciones fuertes) y tomar decisiones informadas basadas en datos.

¿Cuáles son las limitaciones de la regresión lineal simple?

A pesar de su utilidad, tiene limitaciones:

  • Asume linealidad: Si la relación real no es lineal, el modelo no será preciso.
  • Sensibilidad a valores atípicos: Unos pocos puntos de datos extremos (outliers) pueden distorsionar significativamente la línea de regresión.
  • Solo dos variables: Solo considera una variable independiente. Para relaciones más complejas, se necesita regresión múltiple.
  • Causalidad vs. Correlación: La regresión establece una relación estadística, pero no prueba causalidad directa sin un diseño de estudio adecuado.

¿Qué debo hacer si mi modelo de regresión no cumple con los supuestos?

Si un supuesto no se cumple, hay varias opciones:

  • Transformación de variables: Aplicar transformaciones matemáticas (logaritmo, raíz cuadrada, etc.) a las variables puede ayudar a linealizar la relación o estabilizar la varianza de los residuos.
  • Regresión no lineal: Si la relación es claramente no lineal, considere modelos de regresión no lineal.
  • Regresión robusta: Para problemas con valores atípicos, los métodos de regresión robusta son menos sensibles a ellos.
  • Errores estándar robustos: Si hay heterocedasticidad, se pueden calcular errores estándar robustos para obtener inferencias válidas, aunque el modelo sigue siendo ineficiente.
  • Re-especificación del modelo: Considerar si hay variables omitidas importantes (para regresión múltiple) o si el diseño del estudio es el adecuado.

¿Qué significa "INV" en una calculadora, especialmente en un contexto estadístico?

Cuando ves "INV" o "2ndF" (segunda función) en una calculadora científica, generalmente indica que la tecla que se presiona a continuación realizará la función inversa de la operación principal de la tecla. Por ejemplo, "INV SIN" calculará el arcoseno (sin⁻¹).

En un contexto estadístico, como el que mencionas con la función INV.T.2C (o DISTR.T.INV.2T en algunas hojas de cálculo), "INV" se refiere específicamente a la función inversa de una distribución de probabilidad. En este caso, INV.T.2C calcula el valor 't' (el estadístico de la distribución t de Student) correspondiente a una probabilidad de dos colas y un número dado de grados de libertad. Es lo contrario de la función DISTR.T, que te da la probabilidad para un valor 't' y grados de libertad.

Por ejemplo, si sabes que la probabilidad de dos colas es 0.05 y tienes 30 grados de libertad, INV.T.2C(0.05, 30) te devolverá el valor 't' crítico (aproximadamente 2.042) que delimita el 5% de las colas de la distribución t. Esta función es fundamental para encontrar valores críticos en pruebas de hipótesis donde se usa la distribución t de Student, como en la validación de los coeficientes de regresión.

La regresión lineal simple es una herramienta poderosa y fundamental en el análisis de datos. Dominar sus principios, desde el cálculo de sus coeficientes hasta la rigurosa validación y diagnóstico de sus supuestos, es esencial para cualquier persona que busque extraer conocimientos valiosos y hacer predicciones fiables a partir de sus datos. Es el primer escalón hacia un entendimiento más profundo de cómo las variables interactúan y cómo podemos modelar el mundo que nos rodea.

Si quieres conocer otros artículos parecidos a Regresión Lineal Simple: Guía Paso a Paso puedes visitar la categoría Estadística.

Subir