Medir lo que se puede medir
Hay un tipo de error en la investigación médica que no requiere mala fe, no requiere conflicto de interés y no requiere que nadie mienta. Requiere solo una decisión de diseño que parece razonable y produce consecuencias que no lo son.
El error se llama problema del endpoint sustituto.
Qué es un endpoint
En un ensayo clínico, el endpoint es lo que el estudio mide para determinar si un tratamiento funciona. Hay dos tipos.
Los endpoints clínicos son los que realmente importan al paciente: vivir o morir, tener un infarto o no tenerlo, poder caminar o no poder hacerlo, experimentar dolor o no experimentarlo.
Los endpoints sustitutos son variables biológicas intermedias que se asume que predicen esos resultados clínicos: el nivel de LDL en sangre, la densidad mineral ósea, el tamaño de un tumor, el nivel de hemoglobina glicosilada.
Los endpoints sustitutos tienen ventajas prácticas enormes. Medir si alguien tiene un infarto requiere seguirlo durante años. Medir si su LDL bajó requiere un análisis de sangre. Los ensayos son más cortos, más baratos y más fáciles de aprobar si su objetivo es mover un número, no cambiar un resultado de salud.
El problema es que mover ese número no siempre mueve el resultado.
Casos en que el sustituto falló
El caso más documentado es el de la terapia hormonal sustitutiva en mujeres posmenopáusicas. Durante décadas, la observación de que las mujeres premenopáusicas tenían menores tasas de enfermedad cardiovascular que los hombres de la misma edad llevó a la hipótesis de que los estrógenos protegían el corazón. Los estudios observacionales mostraban que las mujeres que tomaban terapia hormonal tenían efectivamente menos enfermedades cardíacas.
El endpoint sustituto era razonable. La inferencia parecía sólida.
Cuando el Women's Health Initiative realizó el ensayo aleatorizado —el estándar de oro de la evidencia— encontró lo contrario: la terapia hormonal aumentaba el riesgo de enfermedad coronaria, accidente cerebrovascular y cáncer de mama. El ensayo fue detenido antes de completarse.
La terapia hormonal mejoraba marcadores biológicos asociados con salud cardiovascular. Pero eso no era lo mismo que mejorar la salud cardiovascular.
Otro caso: el bezafibrato y los triglicéridos. Los fibratos son una clase de medicamentos que reducen los triglicéridos en sangre. Los triglicéridos elevados se asocian con mayor riesgo cardiovascular. La lógica del sustituto era directa: reducir triglicéridos debería reducir eventos cardiovasculares.
El ensayo BIP, publicado en 2000, mostró que el bezafibrato reducía los triglicéridos de manera efectiva. No reducía la mortalidad cardiovascular de forma estadísticamente significativa en la población general del estudio.
El sustituto funcionó. El endpoint clínico no se movió.
El problema del endpoint sustituto no implica que todos los sustitutos sean malos predictores. Algunos funcionan bien: la presión arterial elevada predice el riesgo de accidente cerebrovascular con suficiente precisión como para que bajarla sea un objetivo clínico razonable. La carga viral en el VIH predice la progresión de la enfermedad con alta fiabilidad.
El problema es cuando el sustituto se adopta de forma acrítica, cuando se asume que mejorar el número es equivalente a mejorar al paciente, y cuando esa asunción no se verifica con ensayos de outcomes clínicos.
La FDA aprobó durante años medicamentos con base en endpoints sustitutos, con la condición de que los fabricantes realizaran estudios de confirmación posteriores. En una revisión de 2019 publicada en JAMA Internal Medicine, investigadores encontraron que de los 93 medicamentos aprobados por esa vía entre 2008 y 2012, menos de la mitad habían completado los estudios de confirmación requeridos al momento del análisis.
Lo que hace que este error sea difícil de corregir es que nadie está mintiendo. Los endpoints sustitutos son más fáciles de medir. Los ensayos son más cortos y más baratos. Las agencias reguladoras tienen presión para aprobar tratamientos rápido. Las empresas tienen presión para mostrar resultados. Los médicos aprenden a interpretar números de laboratorio como indicadores de salud porque, con frecuencia, lo son.
El sistema produce este error de forma estructural, sin que nadie tome una decisión maliciosa.
La corrección tampoco es sencilla: exigir endpoints clínicos en todos los ensayos haría la investigación más lenta y más cara, y retrasaría tratamientos que sí funcionan. El equilibrio entre velocidad y certeza es una decisión política, no solo científica.
Lo que sí es posible, y no siempre ocurre, es ser explícito sobre la diferencia. Cuando un medicamento "reduce el LDL en un 40%", eso no es lo mismo que "reduce el riesgo de infarto en un 40%". Son dos frases que suenan similares y no dicen lo mismo.
Esa distinción debería estar en el centro de cómo se comunica la investigación médica. Con frecuencia no está.
Referencias
- Fleming TR, DeMets DL. "Surrogate End Points in Clinical Trials: Are We Being Misled?" Annals of Internal Medicine, 1996. DOI: 10.7326/0003-4819-125-7-199610010-00011
- Manson JE et al. "Estrogen plus Progestin and the Risk of Coronary Heart Disease." New England Journal of Medicine, 2003. DOI: 10.1056/NEJMoa030808
- Nissen SE. "Cardiovascular Effects of Diabetes Drugs: Emerging from the Dark Ages." Annals of Internal Medicine, 2012. DOI: 10.7326/0003-4819-157-9-201211060-00016
- Naci H et al. "Availability of evidence of benefits on overall survival and quality of life of cancer drugs approved by European Medicines Agency." BMJ, 2017. DOI: 10.1136/bmj.j4530
- Woloshin S et al. "The Fate of FDA Postapproval Studies." NEJM, 2017. DOI: 10.1056/NEJMp1705800