Margen de Error | Periodismo Científico

Un experimento no empieza cuando se recluta el primer participante. Empieza cuando alguien decide qué medir, cuándo parar y cómo analizar los datos. Esas decisiones previas influyen de manera sustantiva en lo que el estudio es capaz de encontrar. El sesgo de confirmación no opera solo en la interpretación. Opera también en el diseño.

La hipótesis que precede al método

En 1960, el psicólogo Peter Wason diseñó un experimento simple. Mostraba a los participantes una secuencia de tres números —2, 4, 6— y les pedía que descubrieran la regla que la gobernaba, proponiendo otras secuencias para testear su hipótesis. La mayoría llegaba rápido a una conclusión: la regla era "números pares ascendentes". Propusieron secuencias como 4, 8, 12 o 10, 20, 30. Todas encajaban. Todos estaban seguros.

La regla real era simplemente "cualquier tres números en orden ascendente". La mayoría de los participantes había encontrado evidencia que confirmaba su hipótesis porque solo había buscado evidencia que la confirmara. La tendencia a buscar confirmación en lugar de refutación —el sesgo de confirmación— es un patrón documentado en múltiples contextos experimentales, incluido el comportamiento de investigadores entrenados tomando decisiones que afectan la validez de estudios enteros.

Antes de los datos

El sesgo de confirmación en la investigación científica no requiere que un investigador falsifique resultados ni que ignore conscientemente evidencia contraria. Opera también mucho antes, en decisiones que en su mayoría parecen técnicas o neutras.

La primera es la selección del outcome. Un ensayo que evalúa un antidepresivo puede medir la remisión completa de síntomas, la reducción en una escala estandarizada, la tasa de abandonos por efectos adversos, o la calidad de vida autorreportada. Cada opción puede estar justificada metodológicamente. Y cada opción produce resultados distintos. Existe un incentivo estructural para elegir el outcome que más probablemente muestre un efecto favorable.

La segunda es la definición del criterio de parada. Los ensayos clínicos suelen especificar análisis intermedios: si los resultados son suficientemente claros antes de terminar, el estudio puede detenerse. La lógica ética es genuina. Pero la práctica crea un mecanismo de sesgo: un estudio que se detiene temprano porque los resultados son positivos tiende a sobreestimar el tamaño del efecto, especialmente cuando no se aplican correcciones estadísticas adecuadas. El meta-análisis de Montori et al. en JAMA (2005) analizó 91 ensayos detenidos por beneficio y encontró que los efectos reportados eran frecuentemente mayores que los observados en estudios posteriores.

La tercera es la selección de la población. Excluir a pacientes con comorbilidades o baja adherencia probable mejora la validez interna del estudio y también aumenta la probabilidad de encontrar un efecto. La distancia entre ese paciente ideal y el paciente real que luego recibe el tratamiento es una fuente sistemática de sobreestimación de la eficacia.

El problema no es la deshonestidad

Lo que hace al sesgo de confirmación en el diseño particularmente difícil de detectar es que con frecuencia no involucra deshonestidad. Un investigador puede creer genuinamente que eligió el mejor outcome, la mejor población y el mejor criterio de parada —y aun así, la combinación de esas decisiones puede estar orientada, sin necesidad de decisiones explitamente orientadas a sesgar el resultado, a producir un hallazgo positivo.

El concepto de "motivated reasoning", desarrollado en la literatura psicológica —entre otros por Kunda (1990)— describe este proceso: el razonamiento que llega a la conclusión que el razonador quería llegar, pero que se siente genuino. La diferencia con el fraude científico no es solo ética. Es que el fraude puede detectarse. El motivated reasoning en el diseño de estudios casi nunca deja huella.

La consecuencia práctica es que la literatura publicada puede contener una proporción no trivial de resultados influenciados por decisiones de diseño. No falsificaciones, sino estudios cuidadosamente construidos para encontrar lo que sus diseñadores esperaban encontrar, sin que nadie en el proceso tomara una decisión que pudiera llamarse fraudulenta.

El pre-registro como intento de solución

La respuesta más directa que la metodología científica ha desarrollado para este problema es el pre-registro: los investigadores declaran públicamente, antes de recolectar datos, cuál es su hipótesis, qué variable van a medir como outcome primario y cómo van a analizar los datos. Cambiar el plan después de ver los datos se vuelve visible.

Los resultados donde se ha implementado son instructivos. Un análisis de Kaplan e Irvin (2015) en PLOS ONE encontró que el porcentaje de ensayos cardiovasculares grandes con resultados positivos pasó del 57% al 8% entre el período anterior y posterior a la introducción del pre-registro obligatorio —aunque otros cambios en el diseño y regulación de los ensayos también pueden haber contribuido a esa diferencia.

El pre-registro no elimina el problema. Los investigadores pueden pre-registrar una hipótesis y reportar otra como si fuera la principal —lo que se llama outcome switching. Un análisis de Chan et al. en JAMA (2004) encontró discrepancias significativas entre los outcomes pre-registrados y los reportados en más de la mitad de los ensayos clínicos examinados. Pero aun con sus limitaciones, el pre-registro hace el sesgo de confirmación más difícil de ejercer sin dejar rastro.

Por qué no basta con más rigor individual

La solución intuitiva es pedir más rigor a los investigadores. Es insuficiente, no porque los investigadores sean deshonestos, sino porque el sesgo opera bajo el nivel de acceso consciente y porque el sistema de incentivos empuja en la dirección contraria.

Un investigador cuya carrera depende de publicar resultados positivos en revistas de alto impacto tiene incentivos estructurales para diseñar estudios que probablemente los produzcan. No requiere tomar decisiones que él mismo reconocería como sesgadas. Requiere solamente que, en cada punto de ambigüedad genuina en el diseño, sus elecciones sean consistentemente las que maximizan la probabilidad de un resultado positivo.

El sesgo de confirmación es una parte constitutiva del proceso científico que el método no puede simplemente eliminar: sin la convicción de que la hipótesis es correcta, pocos investigadores tendrían la energía para perseguirla durante años. El problema no es la convicción. Es que el sistema no ha diseñado mecanismos suficientes para que esa convicción no contamine el método.

Referencias

Wason PC. "On the failure to eliminate hypotheses in a conceptual task." Quarterly Journal of Experimental Psychology, 1960. DOI: 10.1080/17470216008416717
Montori VM et al. "Randomized trials stopped early for benefit: a systematic review." JAMA, 2005. DOI: 10.1001/jama.294.17.2203
Kaplan RM, Irvin VL. "Likelihood of null effects of large NHLBI clinical trials has increased over time." PLOS ONE, 2015. DOI: 10.1371/journal.pone.0132382
Chan AW et al. "Empirical evidence for selective reporting of outcomes in randomized trials." JAMA, 2004. DOI: 10.1001/jama.291.20.2457
Kunda Z. "The case for motivated reasoning." Psychological Bulletin, 1990. DOI: 10.1037/0033-2909.108.3.480
Ioannidis JPA. "Why Most Published Research Findings Are False." PLOS Medicine, 2005. DOI: 10.1371/journal.pmed.0020124

Menos ruido, más método.