Bofetada a los estudios de neuroimagen

La resonancia magnética (RM) ha transformado nuestra comprensión del cerebro humano gracias a que nos permite, de forma no invasiva, un análisis bastante detallado de estructuras cerebrales específicas (por ejemplo, estudios de lesiones) y nos permite analizar el cerebro en funcionamiento en una tarea determinada mediante la resonancia magnética funcional (RMf).

Uno de los principales retos de estas investigaciones ha sido establecer las asociaciones entre las diferencias en la estructura o función del cerebro de diferentes personas y los comportamientos observados en esas mismas personas. Eso es especialmente relevante en rasgos complejos como el autismo, la depresión o ciertos aspectos de la personalidad. Durante años se sospechado que algunos de los resultados que generan titulares en la prensa no son fiables. Un estudio confirma esa impresión.

Según un estudio realizado por Scott Marek, de la Universidad de Washington en San Luis, y sus colegas, y publicado en la revista Nature casi todas las investigaciones de este tipo han contado con un número de participantes que es insuficiente para obtener resultados fiables.

Scott Marek

Su grupo descubrió que tales estudios necesitan examinar los cerebros de miles de personas; los estudios realizados hasta ahora suelen incluir unas decenas o cientos de individuos.

Marek y su equipo analizaron los resultados de tres de los mayores estudios de neuroimagen en curso hasta la fecha, incluido el estudio del Biobanco del Reino Unido, que había escaneado a casi 36.000 participantes en ese momento. El tamaño de muestra total fue de unos 50.000 individuos y los utilizaron para cuantificar los estudios de un estudio de asociación que abarcase todo el cerebro (brain-wide association study o BWAS) y la reproducibilidad en función del tamaño de la muestra. Analizaron los vínculos entre la estructura o el funcionamiento del cerebro y dos rasgos relativamente bien estudiados: la capacidad cognitiva y, en el caso de los niños, las puntuaciones en una lista de verificación de «psicopatología», una combinación de varias medidas de comportamiento.

Los investigadores utilizaron subconjuntos extraídos de estas grandes bases de datos para simular miles de millones de estudios más pequeños. En estos análisis se buscó la relación entre las resonancias magnéticas y diversos rasgos cognitivos, conductuales y demográficos, en muestras que iban desde 25 personas hasta más de 32.000.

En los estudios simulados en los que participaron miles de personas, los investigadores identificaron correlaciones fiables entre la estructura y la actividad del cerebro en determinadas regiones y diferentes rasgos de comportamiento, asociaciones que pudieron reproducir en diferentes subconjuntos de los datos. Sin embargo, estos vínculos tendían a ser mucho más débiles que los que suelen indicar la mayoría de los estudios realizados.

Los investigadores miden la fuerza de la correlación utilizando una variable llamada r, para la cual un valor de 1 significa una correlación perfecta y 0 ninguna. Las correlaciones más fiables que encontró el equipo de Marek tenían una r de 0,16, y la mediana era de 0,01. En los estudios publicados, los valores de r superiores a 0,2 no son infrecuentes.

Para entender esta diferencia, los investigadores simularon estudios más pequeños y descubrieron que éstos identificaban asociaciones mucho más fuertes, con valores de r elevados, pero también que estos hallazgos no se replicaban en otras muestras, grandes o pequeñas. Incluso las asociaciones identificadas en un estudio de 2.000 participantes -grande según los estándares actuales- sólo tenían un 25% de posibilidades de ser replicadas. Los estudios más típicos, con 500 o menos participantes, produjeron asociaciones fiables en torno al 5% de las veces.

Las asociaciones del BWAS eran más pequeñas de lo que se pensaba, lo que daba lugar a estudios con poca potencia estadística, tamaños de efecto inflados y fallos de replicación con tamaños de muestra típicos. A medida que el tamaño de las muestras aumentaba, los índices de replicación empezaron a mejorar y la inflación del tamaño del efecto disminuyó. Se detectaron efectos BWAS más robustos para la RM funcional (frente a la estructural), las pruebas cognitivas (frente a los cuestionarios de salud mental) y los métodos multivariantes (frente a los univariantes). Las asociaciones cerebro-fenotipo más pequeñas de lo esperado y la variabilidad en las submuestras de población pueden explicar los fallos generalizados de replicación de los BWAS. A diferencia de los enfoques no BWAS con efectos más grandes (por ejemplo, lesiones, intervenciones y en una misma persona), la reproducibilidad de los BWAS requiere muestras con miles de individuos.

Al realizar múltiples análisis con distintos números de personas, demostraron que cuando se utilizaban muestras de pequeño tamaño, podían encontrar correlaciones aparentes entre estos rasgos y la estructura o el funcionamiento del cerebro. Pero los análisis de grupos más grandes mostraron que estos efectos eran exagerados o completamente espurios. En algunos casos, diferentes muestras pequeñas podían llegar a conclusiones opuestas, simplemente porque los cerebros de las personas son tan variables que el azar, el grupo de personas que se incluyen en el estudio, puede inclinar los resultados en un sentido u otro.

Las muestras de pequeño tamaño también están limitadas en su capacidad para representar plenamente la variabilidad relevante de las diferencias individuales en el comportamiento de las poblaciones. En este sentido, las muestras de neuroimagen, al igual que las utilizadas en la investigación del comportamiento, tienden a estar sesgadas hacia grupos caucásicos, occidentales, educados, industrializados, ricos y democráticos. En contraste con los efectos relativamente mínimos del sexo y el lugar de adquisición, los observadores encontraron también diferencias sólidas y sistemáticas en función del fabricante del escáner (Philips, General Electric o Siemens).

En consecuencia, las conclusiones de la mayoría de los BWAS publicados -que suelen contar con decenas o a lo sumo cientos de participantes- podrían ser erróneas. Estos estudios relacionan las variaciones en la estructura y la actividad del cerebro con las diferencias en la capacidad cognitiva, la salud mental y otros rasgos de comportamiento. Por ejemplo, numerosos estudios han identificado patrones de anatomía o actividad cerebral que, según los estudios, pueden distinguir a las personas a las que se les ha diagnosticado depresión de las que no. Los estudios también suelen buscar biomarcadores de rasgos de comportamiento como por ejemplo en el caso del autismo.

«Hay muchos investigadores que han dedicado sus carreras a hacer el tipo de ciencia que este artículo dice que es básicamente basura», dice Russell Poldrack, neurocientífico cognitivo de la Universidad de Stanford (California), que fue uno de los revisores del artículo. «Realmente obliga a un replanteamiento».

Tenemos un ejemplo previo. La investigación genética estuvo plagada de falsos positivos hasta que los investigadores, y sus financiadores, empezaron a buscar asociaciones en un número muy elevado de personas. En la actualidad, los mayores estudios de asociación de todo el genoma (GWAS) cuentan con millones de participantes. El equipo acuñó el término estudio de asociación de todo el cerebro, o BWAS, para establecer un paralelismo con la genética. Para las imágenes cerebrales, dice Marek, «no sé si necesitamos cientos de miles o millones. Pero miles es una apuesta segura».

Para leer más:

Callaway E (2022) Can brain scans reveal behaviour? Bombshell study says not yet. Nature 603(7902): 777-778.
Marek S, Tervo-Clemmens B, Calabro FJ, Montez DF, Kay BP, Hatoum AS, Donohue MR, Foran W, Miller RL, Hendrickson TJ, Malone SM, Kandala S, Feczko E, Miranda-Dominguez O, Graham AM, Earl EA, Perrone AJ, Cordova M, Doyle O, Moore LA, Conan GM, Uriarte J, Snider K, Lynch BJ, Wilgenbusch JC, Pengo T, Tam A, Chen J, Newbold DJ, Zheng A, Seider NA, Van AN, Metoki A, Chauvin RJ, Laumann TO, Greene DJ, Petersen SE, Garavan H, Thompson WK, Nichols TE, Yeo BTT, Barch DM, Luna B, Fair DA, Dosenbach NUF (2022) Reproducible brain-wide association studies require thousands of individuals. Nature 603(7902): 654-660.
Wilson C (2022) Brain scanning studies are usually too small to find reliable results. New Scientist 22 de marzo. https://www.newscientist.com/article/2312596-brain-scanning-studies-are-usually-too-small-to-find-reliable-results/