Tamaño del Efecto: Más Allá del Valor P

14/08/2022

★★★★★Valoración: 4.11 (12482 votos)

En el fascinante mundo de la investigación y el análisis de datos, especialmente en campos como las ciencias de la salud, es habitual encontrarse con el omnipresente valor p. Este indicador, derivado del Test de Significación de la Hipótesis Nula (NHST, por sus siglas en inglés), nos dice si una diferencia observada entre grupos es estadísticamente significativa. Sin embargo, confiar únicamente en el valor p puede llevarnos a una comprensión incompleta de nuestros resultados. Diversas voces críticas en la literatura científica señalan que el valor p, aunque útil, tiene limitaciones importantes: solo indica la probabilidad de un error al rechazar la hipótesis nula y es excesivamente sensible al tamaño de la muestra. No nos dice si una diferencia es realmente importante o significativa en un sentido práctico. Aquí es donde el concepto de tamaño del efecto cobra una relevancia fundamental, ofreciéndonos una medida estandarizada de la magnitud de un fenómeno o de la diferencia entre grupos, permitiéndonos valorar la importancia práctica de los hallazgos.

¿Cómo obtener el tamaño del efecto en SPSS? — Si utiliza SPSS versión 27 o superior, puede incluir una estimación del tamaño del efecto en los resultados de la prueba t de muestras independientes. Simplemente marque la casilla junto a "Estimar el tamaño del efecto" en el cuadro de diálogo "Prueba t de muestras independientes" , como se muestra a continuación.

El tamaño del efecto es una herramienta indispensable que complementa la significación estadística, proporcionando una visión más completa y matizada de los resultados de una investigación. Nos ayuda a entender no solo si un tratamiento o una condición tiene un efecto, sino cuán grande es ese efecto en el mundo real. Esto es crucial para la toma de decisiones, la planificación de futuras investigaciones y la realización de metaanálisis.

Índice de Contenido

¿Qué es el Tamaño del Efecto y por qué es Crucial en la Investigación?
La d de Cohen: La Métrica Estándar para Comparar Dos Grupos
Interpretación de la d de Cohen: ¿Qué Tan Grande es el Efecto?
Calculando la d de Cohen con SPSS (Versión 27 o superior)
Más Allá de la d de Cohen: Consideraciones para Datos No Paramétricos
El Rol del Tamaño de Muestra en la Investigación (y por qué SPSS no lo Calcula Directamente)
Invarianza Factorial: Un Aspecto Crucial en la Comparación de Grupos
Conclusión

¿Qué es el Tamaño del Efecto y por qué es Crucial en la Investigación?

El tamaño del efecto es una medida cuantitativa de la fuerza de un fenómeno. En otras palabras, nos dice cuán grande es una diferencia entre grupos o cuán fuerte es una relación entre variables. A diferencia del valor p, que simplemente nos indica la probabilidad de que una diferencia ocurra por azar, el tamaño del efecto cuantifica la magnitud de esa diferencia, proporcionando una comprensión más profunda de la relevancia práctica o clínica de los resultados. Imagina que un estudio encuentra una diferencia estadísticamente significativa (p < 0.05) en la presión arterial entre dos grupos. Si el tamaño del efecto es minúsculo, esa diferencia, aunque 'significativa', podría no tener ninguna implicación clínica relevante. Por el contrario, un efecto grande, incluso con un valor p marginalmente significativo (quizás debido a una muestra pequeña), podría ser de gran interés práctico.

La importancia del tamaño del efecto radica en varios puntos clave:

Significancia Práctica: Permite evaluar la relevancia en el mundo real de los hallazgos, más allá de la mera significación estadística.
Independencia del Tamaño de la Muestra: A diferencia del valor p, el tamaño del efecto es menos sensible al tamaño de la muestra, proporcionando una estimación más estable de la magnitud del fenómeno.
Comparabilidad entre Estudios: Al ser una medida estandarizada, facilita la comparación de los resultados entre diferentes estudios, incluso si utilizan distintas escalas de medición o tamaños de muestra. Esto es fundamental para los metaanálisis.
Planificación de Estudios: Es esencial para calcular el tamaño de muestra necesario en futuras investigaciones, asegurando que el estudio tenga suficiente poder estadístico para detectar un efecto de una magnitud determinada.

En resumen, el tamaño del efecto transforma una simple declaración de 'hay una diferencia' en 'hay una diferencia de tal magnitud', lo que es mucho más informativo y útil para la ciencia y la práctica.

La d de Cohen: La Métrica Estándar para Comparar Dos Grupos

Cuando el objetivo es comparar las medias de dos grupos independientes (por ejemplo, un grupo de tratamiento y un grupo de control), la medida de tamaño del efecto más comúnmente utilizada es la d de Cohen. Esta métrica estandariza la diferencia entre las medias de los grupos, dividiéndola por una medida de la variabilidad o desviación estándar. La fórmula básica para la d de Cohen es:

d = (M1 - M2) / Sp

Donde:

M1: Es la media de la primera muestra (o grupo experimental).
M2: Es la media de la segunda muestra (o grupo de control).
Sp: Es la desviación estándar combinada (pooled standard deviation) de ambas muestras.

La desviación estándar combinada (Sp) es una estimación de la desviación estándar de la población, calculada a partir de las desviaciones estándar de los dos grupos, asumiendo que provienen de poblaciones con varianzas similares. Es una medida ponderada que da más peso al grupo con mayor tamaño de muestra. La fórmula para Sp es la siguiente:

Sp = sqrt(((N1 - 1) * S1^2 + (N2 - 1) * S2^2) / (N1 + N2 - 2))

Donde:

N1: Es el tamaño de la primera muestra.
N2: Es el tamaño de la segunda muestra.
S1^2: Es la varianza de la primera muestra.
S2^2: Es la varianza de la segunda muestra.

Afortunadamente, para la mayoría de los investigadores, el cálculo manual de la d de Cohen no es una tarea cotidiana, ya que los paquetes estadísticos modernos pueden proporcionarla directamente o con unos pocos pasos.

¿Cómo se calcula la d de Cohen? — La d de Cohen es una medida muy difundida en la que el tamaño del efecto se calcula restando la media obtenida por el grupo experimental menos la media del grupo de control y dividiendo el resultado entre la desviación típica de la población a la que pertenecen ambos grupos. d = 0,80: tamaño del efecto grande.

Interpretación de la d de Cohen: ¿Qué Tan Grande es el Efecto?

Una vez que hemos calculado la d de Cohen, la siguiente pregunta natural es: ¿qué significa este valor? Jacob Cohen, quien popularizó esta medida, propuso guías generales para interpretar la magnitud de la d de Cohen. Es importante recordar que estas son solo guías y que la interpretación final siempre debe hacerse en el contexto específico de la investigación y el campo de estudio.

Las directrices generales de Cohen son:

d < 0.20: Se considera que no hay efecto o el efecto es muy pequeño. La diferencia entre los grupos es insignificante.
d entre 0.21 y 0.49: Se refiere a un efecto pequeño. La diferencia es detectable, pero no muy pronunciada.
d entre 0.50 y 0.79: Indica un efecto moderado. La diferencia es perceptible y podría tener una relevancia práctica.
d ≥ 0.80: Señala un efecto grande. La diferencia entre los grupos es considerable y probablemente tiene un impacto práctico significativo.

Para facilitar la comprensión, podemos resumir estas guías en la siguiente tabla:

Valor de d de Cohen	Magnitud del Efecto
< 0.20	Sin efecto / Efecto muy pequeño
0.21 - 0.49	Pequeño
0.50 - 0.79	Moderado
≥ 0.80	Grande

Por ejemplo, si un estudio en ciencias de la salud encuentra que la d de Cohen para la diferencia en la calidad de vida entre dos grupos de pacientes es 0.67, esto se interpretaría como un efecto moderado, sugiriendo que la diferencia en la calidad de vida entre esos grupos es notable y de interés práctico.

Calculando la d de Cohen con SPSS (Versión 27 o superior)

La buena noticia para los usuarios de SPSS es que, a partir de la versión 27, el cálculo de la d de Cohen para pruebas t de muestras independientes se ha integrado directamente en la interfaz, simplificando enormemente el proceso. Ya no es necesario realizar cálculos manuales o utilizar sintaxis complejas.

Para obtener la d de Cohen en SPSS:

Ve a Analizar > Comparar Medias > Prueba T para muestras independientes...
En el cuadro de diálogo de la Prueba T para muestras independientes, mueve tu variable dependiente a la casilla 'Variable(s) de prueba' y tu variable de agrupación (la que define los dos grupos) a la casilla 'Variable de agrupación'.
Define tus grupos haciendo clic en el botón 'Definir grupos...' e introduce los valores que SPSS utiliza para identificar cada grupo.
Lo más importante: asegúrate de marcar la casilla junto a 'Estimar tamaños del efecto'.
Haz clic en 'Continuar' y luego en 'Aceptar' para ejecutar el análisis.

En el resultado de SPSS, se generará una tabla adicional titulada 'Estimados de tamaño del efecto'. Dentro de esta tabla, busca la fila correspondiente a 'd de Cohen' y observa el valor en la columna 'Estimación puntual'. Este es el valor de la d de Cohen que puedes reportar en tus hallazgos, por ejemplo, como d = 1.084.

Más Allá de la d de Cohen: Consideraciones para Datos No Paramétricos

Aunque la d de Cohen es ampliamente utilizada, asume que los datos siguen una distribución normal y que las varianzas son homogéneas, condiciones que no siempre se cumplen, especialmente en ciencias de la salud donde las distribuciones a menudo son asimétricas o se utilizan escalas ordinales. Cuando los datos no cumplen con los supuestos paramétricos y se recurre a pruebas no paramétricas (como la U de Mann-Whitney), la d de Cohen puede no ser la medida más apropiada o precisa del tamaño del efecto.

¿Cómo calcular el tamaño del efecto? — El tamaño del efecto se calcula mediante la d de Cohen, a partir de las diferencias de las medias de los grupos y la desviación estándar ponderada, d=(M1-M2)/DE.

En estos casos, se sugiere el uso de medidas robustas a la no normalidad, como la probabilidad de superioridad (PS). La PS es un índice del tamaño del efecto para comparaciones de dos grupos con medidas no paramétricas, y se define como la probabilidad de que una puntuación elegida aleatoriamente de una población X sea superior a una puntuación elegida al azar de otra población Y. Su expresión matemática es sencilla y está directamente relacionada con el estadístico U de Mann-Whitney:

PS = U / (m * n)

Donde:

U: Es el valor del estadístico U de Mann-Whitney.
m: Es el número de participantes en el primer grupo.
n: Es el número de participantes en el segundo grupo.

Esta medida de tamaño del efecto posee propiedades muy deseables: es de rápida interpretación, robusta a las violaciones de los supuestos paramétricos y no sensible a valores extremos o 'outliers'. Aunque SPSS no la proporciona directamente en su salida estándar para la U de Mann-Whitney, se puede calcular fácilmente una vez que se tiene el valor de U, m y n. Su empleo en futuras investigaciones con datos no paramétricos es altamente recomendable para brindar mayor precisión y significado práctico a los resultados.

El Rol del Tamaño de Muestra en la Investigación (y por qué SPSS no lo Calcula Directamente)

Es fundamental entender que, si bien el tamaño del efecto es una medida de la magnitud de un hallazgo, el cálculo del tamaño de la muestra es un proceso distinto y previo a la realización de un estudio, que determina cuántos participantes se necesitan. A menudo, surge la pregunta de si SPSS puede calcular el tamaño de la muestra. La respuesta es no; SPSS, como software estadístico, está diseñado principalmente para el análisis de datos ya recolectados, no para la planificación del diseño de un estudio.

El cálculo del tamaño de la muestra es una etapa indispensable en la fase de planificación de cualquier investigación (especialmente en estudios prospectivos y ensayos controlados aleatorios) por varias razones críticas:

Ética: Evitar exponer a un número excesivo de participantes a un tratamiento potencialmente inferior o, por el contrario, no incluir suficientes participantes para detectar un efecto beneficioso, lo que sería poco ético.
Eficiencia de Recursos: Optimizar el uso de tiempo, dinero y otros recursos. Un tamaño de muestra demasiado grande es un desperdicio, mientras que uno demasiado pequeño puede llevar a no detectar un efecto real, invalidando el esfuerzo.
Poder Estadístico: Asegurar que el estudio tenga suficiente 'poder' para detectar una diferencia o efecto de una magnitud clínicamente significativa, si es que existe. Un estudio con bajo poder es propenso a errores de tipo II (no detectar un efecto real).
Validez de los Resultados: Un tamaño de muestra adecuado aumenta la confianza en que los resultados obtenidos son representativos de la población y que las conclusiones son válidas.

Para calcular el tamaño de la muestra, los investigadores suelen basarse en estimaciones del tamaño del efecto esperado (a menudo de estudios piloto o investigaciones previas), un nivel de significación deseado (alfa), y un nivel de poder estadístico deseado (1-beta). Existen fórmulas específicas para diferentes tipos de variables (continuas o binarias) y diseños de estudio. Herramientas como calculadoras en línea (por ejemplo, Sealed Envelope, G*Power) o software estadístico especializado (distinto de SPSS para esta función) son comúnmente utilizadas para este propósito. Por ejemplo, para una variable continua en un ensayo de superioridad, se requeriría la media y desviación estándar esperadas de ambos grupos para determinar el tamaño de muestra.

Además, es crucial considerar el 'seguimiento perdido' (follow-up loss) al calcular el tamaño de muestra inicial. Si se anticipa una pérdida de participantes del 15%, el tamaño de muestra calculado debe ajustarse para compensar esa posible deserción, asegurando que el número final de participantes sea el adecuado para el análisis.

Es importante distinguir esto de los 'análisis de poder post-hoc', que se realizan después de que el estudio ha finalizado. Aunque pueden dar una idea del poder alcanzado, son menos útiles para la planificación y no sustituyen el cálculo del tamaño de la muestra prospectivo.

¿Puedes calcular el tamaño de la muestra en SPSS? — El número de muestras no se calcula en el programa estadístico básico SPSS y no es necesario mencionar el programa estadístico específico.

Invarianza Factorial: Un Aspecto Crucial en la Comparación de Grupos

Cuando se comparan grupos en función de un constructo (como la calidad de vida, el autoconcepto o la ansiedad) medido con un instrumento (un cuestionario, por ejemplo), es fundamental asegurarse de que los grupos interpretan y entienden el constructo de la misma manera. Este concepto se conoce como invarianza factorial o invarianza de medida.

Si un instrumento no es invariante entre los grupos que se comparan, las diferencias observadas en las medias podrían no reflejar diferencias reales en el constructo subyacente, sino más bien diferencias en cómo los grupos responden o interpretan los ítems del instrumento. Por ejemplo, si un grupo interpreta una pregunta sobre 'síntomas digestivos' de manera diferente a otro grupo, una diferencia en sus puntuaciones medias podría no significar que uno tenga más síntomas, sino que entienden la pregunta de forma distinta.

La falta de un análisis de invarianza factorial puede generar errores potenciales en la interpretación de los resultados, especialmente cuando se busca comparar la magnitud del efecto. Por lo tanto, en cualquier investigación que tenga como objetivo comparar grupos utilizando medidas psicométricas, es altamente recomendable realizar este análisis para garantizar que las comparaciones sean válidas y que las conclusiones sobre las diferencias (o la ausencia de ellas) sean atribuibles al constructo analizado y no a sesgos de medición.

Conclusión

En la era actual de la investigación basada en la evidencia, ir más allá del simple valor p y abrazar el concepto de tamaño del efecto es una necesidad, no un lujo. Medidas como la d de Cohen y la probabilidad de superioridad ofrecen una ventana a la verdadera magnitud y significancia práctica de nuestros hallazgos, dotando a la investigación de mayor profundidad y relevancia. Complementar los análisis de significación estadística con estimaciones del tamaño del efecto, considerar la invarianza factorial en las comparaciones de grupos y planificar adecuadamente el tamaño de la muestra son prácticas que elevan la calidad, la precisión y el significado de los resultados científicos. Al adoptar estas herramientas, los investigadores no solo comunican si un efecto existe, sino cuán importante es, contribuyendo de manera más efectiva al avance del conocimiento y a la mejora de la práctica en sus respectivos campos.

Si quieres conocer otros artículos parecidos a Tamaño del Efecto: Más Allá del Valor P puedes visitar la categoría Estadística.