Margen de Error | Periodismo Científico

En 2011, un grupo de investigadores propuso un experimento incómodo: tomar estudios publicados en revistas prestigiosas y simplemente repetirlos. El supuesto implícito de la ciencia moderna —que los resultados publicados son reproducibles— nunca había sido evaluado de forma sistemática y a gran escala dentro de un campo completo. Cuando se evaluó, los resultados fueron perturbadores.

El experimento

En 2015, la revista Science publicó los resultados del Open Science Collaboration: un consorcio de 270 investigadores de todo el mundo que había pasado cuatro años intentando replicar 100 estudios publicados en tres revistas de psicología de alto factor de impacto. Los estudios originales habían sido seleccionados porque eran representativos del campo —no porque fueran sospechosos ni particularmente extraordinarios. Todos habían pasado revisión por pares. Todos habían sido publicados en revistas que los consideraron suficientemente sólidos.

El 97% de los estudios originales reportaba resultados estadísticamente significativos. En las replicaciones, solo el 36% reprodujo resultados estadísticamente significativos bajo el mismo criterio que los estudios originales —aunque otras métricas de replicación arrojan cifras distintas. El tamaño promedio de los efectos en las replicaciones era aproximadamente la mitad del tamaño reportado en los estudios originales. El proyecto no afirmó que los estudios originales fueran fraudulentos ni que sus autores hubieran cometido errores. Afirmó algo más difícil de procesar: que el sistema que produjo esos estudios tenía tendencias estructurales que dificultaban que sus resultados se sostuvieran al replicarse.

No fue solo psicología

La reacción inicial de muchos investigadores fuera de la psicología fue de distancia: el problema era específico de ese campo, con sus muestras pequeñas y sus efectos difíciles de medir. Esa distancia resultó difícil de sostener.

En 2012, Begley y Ellis publicaron en Nature un comentario —sin detalle completo de los estudios evaluados— en que reportaban los resultados de un análisis interno en Amgen, la empresa biotecnológica: de 53 estudios considerados seminales en oncología, solo 6, el 11%, habían producido resultados reproducibles. Un ejercicio similar realizado por Bayer HealthCare, publicado en Nature Reviews Drug Discovery por Prinz et al. en 2011, encontró que solo alrededor del 25% de los resultados de proyectos internos evaluados por la compañía reproducía los hallazgos publicados originales. Estos no eran estudios de psicología social. Eran estudios de biología molecular y farmacología, con las herramientas de laboratorio supuestamente más controlables de la ciencia experimental.

En economía, un proyecto de replicación coordinado publicado en Science en 2016 intentó replicar 18 estudios experimentales publicados en las dos revistas más prestigiosas del campo. El 61% replicó el resultado original en términos de dirección y significancia estadística, bajo protocolos de replicación preespecificados —una tasa más alta que en psicología, pero acompañada de una reducción sistemática en el tamaño de los efectos. En medicina, diversos análisis han mostrado que resultados iniciales tienden a atenuarse o revertirse en estudios posteriores más rigurosos.

Por qué un resultado puede no replicar

La no-replicación no tiene una sola causa. Un resultado puede no replicarse porque el efecto original era un falso positivo —producto del azar, de flexibilidad analítica no reportada en la selección de variables, modelos o exclusiones tras ver los datos, o de ambas cosas combinadas. Puede no replicarse porque el efecto es real pero frágil, dependiente de condiciones muy específicas de población, contexto o medición que el estudio original no identificó como variables relevantes. Puede no replicarse porque el equipo de replicación cometió errores. Puede no replicarse porque el efecto original era real en la muestra original y simplemente no es generalizable.

Distinguir entre esas posibilidades requiere más de una replicación, variación sistemática de condiciones, y a veces décadas de trabajo acumulado. La crisis de replicación no demostró que la ciencia no funciona. Demostró que el sistema de producción y validación de resultados científicos tenía —tiene— mecanismos insuficientes para distinguir entre hallazgos robustos y hallazgos frágiles antes de que ambos circulen con igual apariencia de autoridad.

El problema del file drawer

Una parte del problema de reproducibilidad tiene raíz en un mecanismo simple: los estudios que no encuentran efectos significativos tienden a no publicarse. Se quedan en el "file drawer" —el cajón de los estudios que nadie vio. No porque sean fraudulentos, sino porque las revistas tienen poco interés en resultados negativos y los investigadores tienen pocos incentivos para invertir el tiempo de publicar estudios que no avanzan sus carreras.

La consecuencia es que la literatura publicada es una muestra sesgada de los estudios realizados. Si diez grupos independientes estudian el mismo fenómeno y uno encuentra un efecto significativo por azar mientras nueve no lo encuentran, el campo puede terminar con un paper publicado afirmando que el efecto existe y nueve estudios que nunca nadie vio. El ejemplo es esquemático —la realidad es más compleja— pero captura el mecanismo central. El meta-análisis de esos resultados, si solo puede acceder al paper publicado, producirá una conclusión incorrecta con apariencia de solidez.

Robert Rosenthal describió este mecanismo en 1979, acuñando el término "problema del file drawer" y proponiendo el cálculo del "fail-safe N": cuántos estudios no publicados con resultado nulo harían falta para revertir la conclusión de un meta-análisis. Para algunos campos, ese número resultó ser sorprendentemente pequeño.

Qué cambió y qué no

La crisis de replicación produjo respuestas metodológicas concretas. El pre-registro de estudios —la declaración pública de hipótesis y métodos antes de recolectar datos— se volvió más común en algunos campos y fue adoptado como requisito por algunas revistas. Los Registered Reports, un formato en que las revistas aceptan o rechazan un estudio basándose en el diseño antes de ver los resultados, reducen drásticamente el sesgo de publicación basado en resultados. Varias iniciativas de ciencia abierta promovieron el depósito de datos crudos y código de análisis para permitir verificación independiente.

Lo que no cambió de manera sustantiva en la mayoría de los sistemas académicos es el sistema de incentivos que opera bajo todas esas reformas. La moneda de la carrera académica sigue siendo la publicación de resultados positivos en revistas de alto impacto. Los estudios de replicación —más laboriosos, menos novedosos, casi garantizadamente menos citados que el estudio original— ofrecen poco retorno para quienes los realizan. La mayoría de las replicaciones que se produjeron en la última década fueron resultado de iniciativas colectivas o de investigadores en posiciones que podían permitirse el costo. No se institucionalizaron como práctica regular.

El registro de estudios con resultado negativo sigue siendo marginal. Las revistas de alto impacto siguen publicando proporcionalmente más resultados positivos que negativos. Los efectos reportados en los primeros estudios de un campo siguen siendo, en promedio, más grandes que los efectos que emergen cuando se acumula evidencia más robusta.

La crisis de replicación no fue una revelación sobre la corrupción de la ciencia. Fue una revelación sobre la distancia entre lo que la ciencia produce y lo que el sistema dice que produce. Esa distancia existía antes de 2015. Lo que cambió es que ahora esa distancia tiene evidencia sistemática.

Referencias

Open Science Collaboration. "Estimating the reproducibility of psychological science." Science, 2015. DOI: 10.1126/science.aac4716
Begley CG, Ellis LM. "Raise standards for preclinical cancer research." Nature, 2012. DOI: 10.1038/483531a
Prinz F, Schlange T, Asadullah K. "Believe it or not: how much can we rely on published data on potential drug targets?" Nature Reviews Drug Discovery, 2011. DOI: 10.1038/nrd3439-c1
Camerer CF et al. "Evaluating replicability of laboratory experiments in economics." Science, 2016. DOI: 10.1126/science.aaf0918
Rosenthal R. "The file drawer problem and tolerance for null results." Psychological Bulletin, 1979. DOI: 10.1037/0033-2909.86.3.638
Nosek BA et al. "Promoting an open research culture." Science, 2015. DOI: 10.1126/science.aab2374
Ioannidis JPA. "Why Most Published Research Findings Are False." PLOS Medicine, 2005. DOI: 10.1371/journal.pmed.0020124

Menos ruido, más método.