Los resultados que Solomon estaba describiendo parecían prometedores: los pacientes que tomaron el medicamento tuvieron una tasa más baja de hospitalización y muerte que los pacientes con un medicamento diferente.
Luego le mostró a su audiencia otro número.
"Hubo algunos jadeos, o 'Ooohs'", recordó recientemente Solomon, del Hospital Brigham and Women's de Harvard. "Mucha gente estaba decepcionada".
Un analista de inversiones reaccionó reduciendo su pronóstico de ventas máximas del medicamento en $ 1 mil millones.
¿Que pasó?
El número que causó los jadeos fue de 0.059. El público estaba buscando algo por debajo de 0.05.
Lo que significaba era que los prometedores resultados de Salomón se habían topado con un concepto estadístico del que nunca habrás oído hablar: significación estadística. Es una cosa de todo o nada. Sus resultados estadísticos son significativos, lo que significa que son confiables o no significativos, lo que indica una probabilidad inaceptablemente alta de que solo fueron una casualidad.
El concepto se ha utilizado durante décadas. Tiene mucha influencia sobre cómo se evalúan los resultados científicos, qué estudios se publican y qué medicamentos llegan a las farmacias.
Pero este año ha traído dos llamadas de alto perfil de los críticos, incluso desde el mundo arcano de las estadísticas, para deshacerse de él, en parte por la preocupación de que descarte prematuramente resultados como el de Salomón.
La importancia se refleja en un cálculo que produce algo llamado valor p. Por lo general, si esto produce un valor p inferior a 0,05, los resultados del estudio se consideran significativos. Si no, el estudio ha fallado la prueba.
El estudio de Salomón acaba de fallar. Por lo tanto, la aparente ventaja que mostraba su medicamento sobre el otro medicamento se consideró insignificante. Según este criterio, no hubo diferencia "real".
Solomon cree que la droga de hecho produjo un beneficio real y que un estudio más grande o más duradero podría haber alcanzado significación estadística.
"No estoy llorando por la leche derramada", dijo. "Establecemos las reglas. La pregunta es, ¿es esa la forma correcta de hacerlo?"
No está solo al hacer esa pregunta.
"Es una apuesta segura que la gente ha sufrido o muerto porque los científicos (y editores, reguladores, periodistas y otros) han utilizado pruebas de importancia para interpretar los resultados", dijo el epidemiólogo Kenneth Rothman de RTI Health Solutions en Research Triangle Park, Carolina del Norte y la Universidad de Boston. escribió en 2016.El peligro es que un hallazgo médico potencialmente beneficioso puede ser ignorado porque un estudio no alcanza significación estadística, y una práctica médica dañina o infructuosa podría aceptarse simplemente porque sí, dijo en un correo electrónico.
El límite del valor p para la importancia es "una medida que ha obtenido el estatus de guardián ... no solo para publicación sino para que las personas tomen en serio sus resultados", dice el estadístico de la Universidad de Northwestern Blake McShane.
No es de extrañar que un estadístico, en una reciente charla con periodistas sobre el tema justo antes de Halloween, mostrara una diapositiva de una linterna tallada con esta vista, obviamente aterradora para cualquiera en ciencia o medicina: "P = .06 ".
McShane y otros sostienen que la importancia del umbral del valor p no se merece. Es coautor de un llamado para abolir la noción de significación estadística, que se publicó en la prestigiosa revista Nature este año. La propuesta atrajo a más de 800 cofirmantes.
Incluso la Asociación Estadounidense de Estadística, que nunca había emitido ninguna declaración formal sobre prácticas estadísticas específicas, rechazó en 2016 el uso de cualquier tipo de valor de corte p de esta manera. Y este año fue más allá, declarando en un número especial con 43 artículos sobre el tema: "Es hora de dejar de usar el término" estadísticamente significativo 'por completo ".
¿Cuál es el problema? McShane y otros enumeran varios:
- El valor P no mide directamente la probabilidad de que el resultado de un experimento sea una casualidad. Lo que realmente representa es ampliamente incomprendido, incluso por científicos y algunos estadísticos, dijo Nicole Lazar, profesora de estadística en la Universidad de Georgia.
- El uso de una etiqueta de significación estadística "da más certeza de lo que realmente se justifica", dijo Lazar. "Deberíamos reconocer el hecho de que existe incertidumbre en nuestros hallazgos".
- El límite tradicional de 0.05 es arbitrario.
- La significación estadística no significa necesariamente "significativo", o que un hallazgo es importante práctica o científicamente, dice Lazar. Puede que ni siquiera sea cierto: Solomon cita un gran estudio de medicamentos para el corazón que encontró un efecto de tratamiento significativo para los pacientes nacidos en agosto pero no en julio, obviamente solo una fluctuación aleatoria.
- El término "significación estadística" establece una línea de meta para los investigadores, una medida clara de éxito o fracaso. Eso significa que los investigadores pueden intentar un poco demasiado duro para alcanzarlo. Pueden jugar deliberadamente el sistema para obtener un valor p aceptable, o simplemente elegir inconscientemente métodos analíticos que ayuden, dijeron McShane y Lazar.
- Eso puede distorsionar los efectos no solo de los experimentos individuales, sino también los resultados acumulativos de los estudios sobre un tema determinado, de modo que, en general, un medicamento puede verse "mucho mejor de lo que realmente es", dijo McShane.
¿Qué se debe hacer en su lugar? Elimine la línea brillante de significancia estadística y solo informe el valor p junto con otros análisis para dar un resumen más completo de lo que puede significar el resultado de la prueba, dicen McShane y otros.
Puede que no sea tan claro como una simple declaración de importancia o insignificancia, pero "tendremos una mejor idea de lo que está sucediendo", dijo Lazar. "Creo que será más fácil eliminar el mal trabajo".
No todos compran la idea de eliminar la significación estadística. El destacado investigador de Stanford, el Dr. John Ioannidis, dice que la abolición "podría promover el sesgo. Sería un sinsentido irrefutable". Aunque está de acuerdo en que un estándar de valor p de menos de 0.05 es débil y se abusa fácilmente, cree que los científicos deberían usar un valor p más estricto u otra medida estadística, especificada antes de realizar el experimento.
McShane dijo que aunque los reclamos para abolir la significación estadística se han planteado durante años, últimamente parece haber más impulso.
"Tal vez", dijo, "es hora de poner el clavo en el ataúd de éste para siempre".

0 Comentarios