¿Cómo hacer un cálculo acumulado?

Porcentaje Acumulado: Clave para Optimizar Pruebas

14/04/2026

Valoración: 4 (16697 votos)

En el ámbito del análisis y la optimización de procesos, especialmente en disciplinas como la usabilidad y la experiencia de usuario (UX), comprender el concepto de porcentaje acumulado es fundamental. Esta métrica nos permite estimar la probabilidad de descubrir un cierto porcentaje de problemas o fallos dentro de un sistema a medida que aumentamos el número de participantes o evaluadores en una prueba. Lejos de ser una simple curiosidad estadística, el porcentaje acumulado es una herramienta poderosa que influye directamente en la planificación y la eficiencia de nuestras sesiones de evaluación, ayudándonos a determinar cuándo hemos reunido suficiente información para tomar decisiones informadas sin incurrir en costos excesivos.

¿Cómo se obtiene el porcentaje acumulado?
La columna "Porcentaje acumulado" divide la frecuencia acumulada entre el número total de observaciones (en este caso, 25). El resultado se multiplica por 100. Este cálculo proporciona el porcentaje acumulado para cada intervalo.

A menudo, la intuición nos lleva a pensar que cuantos más participantes tengamos, más problemas encontraremos, y si bien esto es cierto hasta cierto punto, el porcentaje acumulado revela una realidad más matizada: la tasa de descubrimiento de nuevos problemas tiende a disminuir con cada participante adicional. Este artículo explorará en profundidad qué es el porcentaje acumulado, cómo se calcula, los factores que influyen en él y, crucialmente, cómo se relaciona con la famosa “regla de los tres a cinco usuarios” en el contexto de las pruebas de usabilidad, desglosando sus bases y sus limitaciones en el mundo real.

Índice de Contenido

¿Qué es el Porcentaje Acumulado de Problemas Encontrados?

El porcentaje acumulado de problemas encontrados, también conocido como probabilidad de descubrimiento, es una medida que indica la proporción de problemas existentes en un sistema que se espera haber identificado después de realizar pruebas con un determinado número de participantes. Imagina que un sistema tiene un conjunto desconocido de fallos o inconvenientes para el usuario; el porcentaje acumulado nos dice qué tan probable es que hayamos detectado una cierta fracción de esos problemas después de que una, dos, cinco o más personas lo hayan probado.

Este concepto es crucial porque nos ayuda a entender la eficiencia de nuestras pruebas. No se trata simplemente de sumar los problemas que cada participante encuentra de forma individual, sino de considerar el solapamiento. Es decir, es muy probable que diferentes participantes encuentren algunos de los mismos problemas, lo que significa que el número de problemas *nuevos* descubiertos tiende a disminuir a medida que se añaden más participantes. El porcentaje acumulado refleja esta realidad, mostrando cómo la probabilidad de encontrar problemas se incrementa, pero a una tasa decreciente, a medida que aumentamos el tamaño de nuestra muestra de usuarios.

En un gráfico, esto se representaría como una curva ascendente que, tras un rápido aumento inicial, comienza a aplanarse. Los valores en el eje Y de estas curvas representan la “probabilidad de descubrimiento”, expresada como un porcentaje acumulado de problemas que probablemente se encontrarán, en función del número de participantes o evaluadores utilizados, que se representarían en el eje X. Esta curva asintótica es una representación visual de la ley de los rendimientos decrecientes aplicada a la detección de problemas.

La Base Analítica: La Fórmula de Probabilidad

La probabilidad de descubrimiento, o el porcentaje acumulado de problemas encontrados, no es una estimación arbitraria, sino que se basa en una fórmula matemática derivada de la distribución de probabilidad binomial. Esta fórmula nos proporciona una base analítica para entender cómo la cantidad de participantes y su capacidad individual de detección contribuyen al descubrimiento total de problemas. La fórmula es la siguiente:

Probabilidad de descubrimiento (Porcentaje acumulado de problemas encontrados) = 1 – (1 – p)^n

Donde:

  • n es el número de participantes o evaluadores utilizados. Este valor se correspondería con el eje X en una representación gráfica de estas curvas.
  • p es lo que denominamos la “tasa de detección” de una categoría determinada de participantes. Representa la probabilidad de que un solo participante encuentre un problema específico.

Para clarificar los componentes de esta fórmula, podemos visualizarlos de la siguiente manera:

ComponenteDescripciónImpacto en el Descubrimiento
n (Número de Participantes)Cantidad de individuos que participan en la evaluación o prueba.A mayor n, mayor probabilidad de descubrimiento, pero con rendimientos decrecientes.
p (Tasa de Detección Individual)Porcentaje de problemas existentes que un solo participante puede encontrar en una sesión.A mayor p, más rápido se alcanza un alto porcentaje de descubrimiento con menos participantes.
1 - pProbabilidad de que un problema *no* sea encontrado por un participante.Un valor bajo indica alta eficiencia individual.
(1 - p)^nProbabilidad de que un problema *no* sea encontrado por *ninguno* de los n participantes.Este término disminuye exponencialmente con n, indicando que es menos probable que un problema pase desapercibido.
1 – (1 – p)^nProbabilidad de que un problema sea encontrado por *al menos uno* de los n participantes (Porcentaje acumulado).El resultado final, la métrica que nos interesa para planificar las pruebas.

Como ejemplo práctico, esta fórmula nos indica que un tamaño de muestra de cinco evaluadores participantes (n) con una tasa de detección individual (p) de al menos 0.30 es suficiente para encontrar aproximadamente el 80% de los problemas de UX en un sistema. Esto demuestra la potencia de la fórmula para predecir y planificar la efectividad de las pruebas de usabilidad.

Entendiendo la Tasa de Detección (p)

La tasa de detección, p, de un participante individual es el porcentaje de problemas existentes que ese participante puede encontrar en una sesión. Para entenderlo mejor, podemos usar una analogía clásica de probabilidad: la de las bolas en una urna. Imaginemos un diseño de interacción con fallos que causan problemas de UX como una urna que contiene bolas de varios colores. Entre un número desconocido de bolas de todos los colores, supongamos que hay un número de bolas rojas, cada una de las cuales representa un problema de UX diferente. Cuando un participante o evaluador mete la mano y saca un puñado de bolas de la urna, el número de bolas rojas en ese puñado es el número de problemas de UX identificados en la sesión.

Esta tasa de detección es una función del participante individual. Por ejemplo, en el caso de las bolas en la urna, podría estar relacionada con el tamaño de la mano del participante. En el dominio de la UX, quizás esté relacionada con las habilidades de evaluación del participante. En cualquier caso, en este análisis, si un participante tiene una tasa de detección de p = 0.20, significa que este participante encontrará el 20% de los problemas de UX existentes en el diseño. El número de participantes con esa misma tasa de detección individual que, a su vez, meten la mano en la urna es el valor del eje X en las representaciones gráficas.

Sin embargo, en la mayoría de las ocasiones, no conocemos las tasas de detección de nuestros participantes de antemano. Para calcular la tasa de detección de un participante, tendríamos que saber cuántos problemas de UX totales existen en un diseño, que es precisamente lo que intentamos averiguar con la evaluación. Aunque teóricamente se podría realizar una sesión de prueba con un participante en un diseño con un número conocido de fallos, esto solo nos daría la tasa de detección de ese participante para ese día, en ese contexto y para ese sistema específico. Desafortunadamente, la tasa de detección de un participante dado no es constante; puede variar significativamente.

El Aspecto Acumulativo: ¿Por Qué se Estabiliza la Curva?

El término “acumulativo” en porcentaje acumulado es clave para entender la dinámica de la detección de problemas. Si un participante con una tasa de detección de p = 0.20 encuentra el 20% de los problemas, ¿qué sucede cuando un segundo participante entra en acción? La clave está en que, en este modelo, se asume que los problemas ya encontrados por el primer participante no son “solucionados” antes de que el segundo participante comience su evaluación. Es como si todas las “bolas” (problemas) fueran devueltas a la urna después de cada “sesión” de un participante.

Después de que el primer participante ha encontrado algunos problemas, quedan menos problemas *nuevos* por encontrar para el segundo participante. Aunque el segundo participante también ayudará a encontrar el 20% de los problemas, es probable que haya un solapamiento significativo con los problemas ya descubiertos por el primero. Esto reduce el efecto acumulativo neto (la unión de los conjuntos de problemas) de los dos participantes.

Este fenómeno es lo que se observa en las curvas de porcentaje acumulado: a medida que se añaden más participantes (moviéndose hacia la derecha en el eje X), el porcentaje de problemas que probablemente se encontrarán sigue aumentando, pero la cantidad *marginal* de problemas nuevos encontrados disminuye. Esto explica por qué las curvas se aplanan gradualmente hasta que, con un número elevado de participantes, esencialmente no se encuentran nuevos problemas y la curva se vuelve asintóticamente plana. En este punto, los rendimientos de añadir más participantes son mínimos, si no inexistentes, en términos de descubrimiento de nuevos problemas.

Análisis Costo-Beneficio y la Regla de los "Tres a Cinco Usuarios"

A pesar de la disminución de las tasas de detección efectivas, a medida que se añaden más participantes, se seguirán descubriendo más problemas, al menos durante un tiempo. Finalmente, las altas tasas de detección combinadas con un gran número de participantes producirán resultados que se acercarán asintóticamente al 100%, y prácticamente no se encontrarán nuevos problemas con los participantes subsiguientes. Pero, ¿qué sucede en el camino?

Cada nuevo participante ayuda a encontrar menos problemas nuevos, pero el costo de ejecutar cada sesión con un participante es aproximadamente el mismo. Esto significa que con cada participante sucesivo, el proceso se vuelve menos eficiente (se encuentran menos problemas nuevos por el mismo costo).

Como una buena aproximación del costo de ejecutar una sesión de prueba de UX con n participantes, se tiene un costo fijo para configurar la sesión (a) más un costo variable (o costo por participante, b) multiplicado por el número de participantes (n). Así, el costo total sería a + bn. El beneficio de ejecutar una sesión de prueba de UX con n participantes es la probabilidad de descubrimiento (el porcentaje acumulado de problemas encontrados).

Por lo tanto, la relación costo-beneficio se calcula como el cociente entre el beneficio y el costo, ambos en función de n:

Beneficio / Costo = (1 – (1 – p)^n) / (a + bn)

Si se grafica esta función (con algunos valores específicos de a y b) frente a n = 1, 2, ..., se observará una curva que asciende para los primeros valores de n y luego comienza a descender. Los valores de n alrededor del pico de la relación costo-beneficio son el número óptimo (desde una perspectiva costo-beneficio) de participantes a utilizar. El rango de n para el cual ocurre el pico depende de los parámetros a, b y p de su configuración.

Nielsen y Landauer (1993) demostraron que los datos reales tanto de las inspecciones de UX como de las pruebas de laboratorio con participantes coincidían con este modelo matemático de costo-beneficio. Sus resultados mostraron que, para sus parámetros, el pico ocurría para valores de n alrededor de 3 a 5. De ahí surge la famosa regla de los tres a cinco usuarios como una heurística o “regla de oro” en las pruebas de usabilidad.

Limitaciones y Cuándo la Regla no se Aplica

Aunque la regla de los tres a cinco usuarios, con su sólida base matemática, puede aplicarse a muchas situaciones similares a las condiciones utilizadas por Nielsen y Landauer (1993), es crucial entender que existen muchos casos en los que simplemente no es aplicable. Esta regla y todo el análisis, incluida la analogía de las bolas en la urna, se basan en dos supuestos fundamentales que no siempre se cumplen en el mundo real:

Supuesto 1: Cada Participante Tiene una Tasa de Detección Constante (p)

Las curvas de porcentaje acumulado y el cálculo costo-beneficio se basan en una tasa de detecciónp fija para cada participante. Sin embargo, el “efecto del evaluador” nos dice no solo que diferentes evaluadores encontrarán problemas diferentes, sino que la tasa de detección puede variar ampliamente entre los participantes (Hertzum & Jacobsen, 2003). De hecho, un individuo dado ni siquiera tiene una “tasa de detección individual” fija; puede verse influenciada día a día o incluso momento a momento por factores como el nivel de descanso del participante, los niveles de cafeína o etanol en sangre, la actitud, el sistema que se está evaluando, cómo los evaluadores realizan la evaluación, qué tareas se utilizan, las habilidades del evaluador, y un largo etcétera.

Además, ¿qué significa realmente que un participante de prueba tenga una tasa de detección de p = 0.20? ¿Cuánto tiempo le lleva a ese participante en una sesión lograr ese 20% de descubrimiento? ¿Cuántas tareas? ¿Qué tipo de tareas? ¿Qué pasa si ese participante sigue realizando más tareas? ¿No se encontrarán más incidentes críticos después de que se haya logrado el 20% de detección? Estas preguntas subrayan la complejidad de aplicar un valor de p constante en la práctica.

Supuesto 2: Cada Problema de UX es Igualmente Propicio para ser Encontrado

Las curvas de porcentaje acumulado también se basan en la suposición de que todos los problemas de UX son igualmente detectables (como si todas las bolas rojas en la urna tuvieran la misma probabilidad de ser extraídas). Pero, por supuesto, sabemos que algunos problemas son casi obvios a primera vista, mientras que otros pueden ser órdenes de magnitud más difíciles de detectar. Por lo tanto, la detectabilidad, o la probabilidad de ser encontrado, puede variar drásticamente entre los diversos problemas de UX. Un problema que solo ocurre bajo condiciones muy específicas o que requiere una exploración profunda del sistema será mucho más difícil de detectar que un error de interfaz evidente.

Impacto de la Selección de Tareas

Una razón importante para el solapamiento en los problemas detectados entre un participante y otro, lo que provoca que la probabilidad de detección acumulada disminuya con participantes adicionales, es el uso de tareas predefinidas. Los participantes que realizan esencialmente los mismos conjuntos de tareas están buscando problemas en los mismos lugares y, por lo tanto, es más probable que descubran muchos de los mismos problemas.

Sin embargo, si se emplean tareas dirigidas por el usuario (Spool & Schroeder, 2001), los participantes buscarán en lugares diferentes y el solapamiento de los problemas encontrados podría ser mucho menor. Esto mantiene la parte del beneficio de las curvas creciendo de manera más lineal para más participantes, lo que hace que el número óptimo de participantes sea mayor que la regla de los tres a cinco.

Efectos del Sistema de Aplicación

Otro factor que puede invalidar la regla de los tres a cinco usuarios es el sistema de aplicación que se está evaluando. Algunos sistemas son mucho más grandes que otros. Por ejemplo, un sitio web enorme o un procesador de texto grande y complejo albergarán muchas más posibilidades de problemas de UX que, digamos, un sistema simple de programación inter-oficinas. Si cada participante solo puede explorar una pequeña porción de una aplicación tan vasta, el solapamiento de problemas entre los participantes puede ser insignificante. En tales casos, la función costo-beneficio alcanzará su pico con muchos más participantes que los tres a cinco.

Preguntas Frecuentes

¿Es siempre 3 a 5 el número óptimo de usuarios para una prueba de usabilidad?

No, la regla de los tres a cinco usuarios es una heurística basada en ciertos supuestos y condiciones específicas (tasa de detección constante, problemas igualmente detectables, tareas predefinidas). Como hemos visto, en la realidad, la variabilidad de los participantes, la naturaleza de los problemas y la complejidad del sistema pueden hacer que el número óptimo de participantes sea mayor o incluso menor en algunos casos. Es una buena guía de inicio, pero no una ley universal.

¿Cómo puedo saber la tasa de detección (p) de mis participantes?

Determinar la tasa de detecciónp de un participante individual es extremadamente difícil en un escenario de prueba real porque requeriría conocer de antemano el número total de problemas existentes en el sistema. La mayoría de las veces, se utilizan valores históricos o estimados de p basados en investigaciones previas o se confía en la observación cualitativa de los resultados. La fórmula es más útil para entender la dinámica subyacente que para calcular un p preciso en cada prueba.

¿Qué pasa si los problemas se solucionan entre sesiones de prueba?

El modelo de porcentaje acumulado discutido aquí asume que los problemas no se solucionan entre las sesiones de los participantes, es decir, que cada participante está evaluando el mismo conjunto de problemas originales. Si los problemas se solucionaran o modificaran entre las sesiones (por ejemplo, en un proceso de diseño iterativo y rápido), la dinámica de descubrimiento cambiaría, y la efectividad de los participantes adicionales podría ser diferente.

¿Aplica el concepto de porcentaje acumulado solo a la usabilidad UX?

Aunque el ejemplo y la base teórica provienen del campo de la usabilidad y la experiencia de usuario, el concepto de porcentaje acumulado de descubrimiento es una idea matemática aplicable a cualquier dominio donde se busca identificar un conjunto desconocido de elementos (problemas, defectos, errores) mediante la revisión o prueba por múltiples agentes, y donde la probabilidad de encontrar un nuevo elemento disminuye a medida que se descubren más.

Conclusión

El porcentaje acumulado de problemas encontrados es una métrica poderosa que va más allá de un simple cálculo. Nos ofrece una perspectiva profunda sobre la eficiencia y la optimización de los procesos de descubrimiento de problemas, especialmente en áreas como las pruebas de usabilidad. Entender cómo la probabilidad de encontrar problemas se acumula con cada participante adicional, y cómo esta acumulación tiende a estabilizarse debido al solapamiento, es fundamental para una planificación efectiva.

La regla de los tres a cinco usuarios, aunque ampliamente conocida y útil como punto de partida, no debe ser vista como una verdad inmutable. Su validez depende críticamente de supuestos sobre la constancia de las tasas de detección individuales y la uniformidad en la detectabilidad de los problemas, así como el tipo de tareas y la complejidad del sistema. Al reconocer estas limitaciones, podemos adaptar nuestras estrategias de prueba, buscando un equilibrio óptimo entre el costo y el beneficio de descubrir problemas, maximizando nuestros hallazgos sin agotar recursos innecesariamente. En última instancia, una comprensión profunda de estos principios nos permite tomar decisiones más inteligentes y estratégicas en cualquier esfuerzo por identificar y resolver problemas.

Si quieres conocer otros artículos parecidos a Porcentaje Acumulado: Clave para Optimizar Pruebas puedes visitar la categoría Cálculos.

Subir