Trop de faux positifs en IRM fonctionnelle : un travail scientifique remarquable

Le papier d’Anders Eklund a fait grand bruit dans la presse généraliste (anglophone) et spécialisée (surtout anglophone aussi) : le traitement des données par les logiciels d’IRM fonctionnelle minimise les faux-positifs, et transforme des résultats douteux en des corrélations apparemment statistiquement irréprochables.(1)

 

En IRM fonctionnelle, un double traitement statistique

Un résultat scientifique est considéré comme fiable si le risque que l’effet mesuré ne soit dû qu’au hasard est inférieur à 5 % (le fameux p < 0,05, sésame pour la publication des résultats dans la plupart des revues). Afin de minimiser ce risque, les études doivent multiplier les expériences, et ainsi accumuler suffisamment de données, pour conclure sur l’existence, ou non, d’une corrélation/ d’un effet/ d’un lien entre les facteurs étudiés.

Le problème, c’est qu’en IRM, le traitement statistique n’est vraiment pas simple. Afin d’y voir plus clair, revenons rapidement sur le principe de cette technique : La machine à Imagerie par Résonance Magnétique se base sur les propriétés magnétiques des molécules présentes dans l’organe examiné. Dans le cerveau, les zones activées lors d’un exercice intellectuel consomment davantage de dioxygène que les autres zones : cet appauvrissement en oxygène change localement les propriétés magnétiques, et c’est ça qui est détecté par la machine. (pour davantage d’explication, vous pouvez aller voir cet article : « L’IRM, la machine à observer le cerveau« )

Le cerveau est donc (virtuellement) découpé en petit cube de quelques mm³, appelés voxels, et lors d’une expérience d’IRM fonctionnelle, l’activité de chaque voxel est mesuré des dizaines de fois*. Si les mesures réalisées s’écartent suffisamment de celles attendues chez l’individu au repos, le voxel est considéré comme actif durant l’examen. Suffisamment, cela signifie « avec un risque de faux positif suffisamment faible« , et on retrouve ainsi le facteur p, qui doit être, pour chaque voxel, inférieur à 5 %, ou mieux, 1% voire 0,1 %…

Bon, jusque là, tout va -à peu près- bien. Le soucis, c’est que même avec un risque de faux positif de 1 sur 1000 pour chaque voxel (ce qui est déjà très fiable), on risque d’arriver à une cartographie 3D du cerveau qui risque d’être complètement fausse ! En effet, il faut considérer plusieurs centaines de milliers de voxels pour un cerveau : la probabilité que l’activité d’au moins un d’entre eux soit effectivement faussement positive est approximativement égale à 100 %.

Une seconde étape de traitement statistique vient alors à la rescousse : les voxels dont l’activité est cohérente sont regroupés entre eux, et forment de petites structures appelés clusters. Les caractéristiques de ces structures sont à leur tour comparées avec celle qui se forment également au repos. Encore une fois, il s’agit de vérifier que, d’un point de vue statistique, le risque de faux positifs reste inférieur à la limite que l’on s’est fixé.

A l’issu de ces deux traitements, la cartographie 3D des zones au repos et des zones actives du cerveau du patient est censée être fiable.

Les méthodes dites paramétriques : Pas assez fiables en IRM fonctionnelle !

Afin de vérifier la fiabilité de ce traitement statistique, et surtout des méthodes qu’il utilise, Eklund et ses collègues se sont servis des données du Human Connectome Project, qui sont totalement et gratuitement accessibles, et les ont testé à l’aide des trois logiciels actuellement utilisés en laboratoire. Leur idée est simple : les IRM fonctionnelles d’individus sains et au repos ne doivent pas faire apparaître de différences statistiquement significatives.

Regroupant les données par groupe de 20 sujets, choisis aléatoirement parmi 499, ils ont montré que les logiciels, quelque soient leur paramétrage, établissaient des différences inter-groupes soi-disant statistiquement significative, et ce, bien au-delà des 5 % d’erreurs tolérées. Bref, les résultats des 30 000 publications se basant sur les IRM fonctionnelles ont été obtenus avec des traitements statistiques… faux.

Pour faire vite, sur un sujet que je ne maîtrise pas en profondeur, les méthodes statistiques dites paramétriques utilisées par les logiciels reposent sur des hypothèses sur les modèles de répartition des valeurs et mesures. Mais encore faut-il que ces modèles soient adaptés aux expériences, ce qui ne semble pas être le cas ici. En fait, personne n’avait réellement, en 30 ans d’utilisation d’IRM fonctionnelle, vérifié que ces modèles étaient adaptés.

Il existe également des méthodes dites non paramétriques, qui nécessitent des calculs bien plus long et complexes, mais qui permettent de ne pas faire d’hypothèses sur les modèles de répartition. Elles sont connues depuis longtemps, mais cela ne fait qu’une poignée d’année que les chercheurs peuvent les utiliser réellement, grâce aux progrès informatiques… Eklund a d’ailleurs pu vérifier dans sa publication, sur le même corpus, qu’elles donnaient des résultats tout à fait acceptables.(2)

Une démarche globale et une conclusion impeccables… De la bonne science !

A delà du côté sexy de la publication, c’est la démarche de ce travail (3) qui m’a particulièrement séduit, et la mise en lumière du fonctionnement des neurosciences.

Pendant son doctorat, Enders Eklund a pu constaté, à l’aide de données limitées, que les méthodes paramétriques ne donnaient pas toujours des résultats bien fiables en IRM fonctionnelle. Après son post-doc, se rendant compte que ses premiers travaux n’ont pas été repris et complétés, il a retroussé les manches, et entrepris le travail beaucoup plus poussé présenté dans cet article .

Mais au lieu de publier directement, il a d’abord proposé ses méthodes et ses résultats à l’ensemble de la communauté scientifique grâce à la plateforme de pré-publication arXiv. C’est donc une version améliorée, et dont la démarche a été validée par d’autres scientifiques qui a été publiée dans PNAS. Ce mode de construction des connaissances permet pour moi d’éloigner la recherche du sensationnalisme, tout en proposant des résultats davantage robustes, puisqu’ils auront pu être éventuellement retravaillés, et reproduits.**

Ce qui est intéressant également, c’est de constater que les neuroscientifiques qui utilisent l’IRM fonctionnelle ne semblent pas maîtriser les outils informatiques et mathématiques qu’ils utilisent au quotidien. Inutile de leur lancer la pierre, c’est également le cas de nombres de biologistes, des chimistes,… (Sans parler des médecins, incapables de revenir sur leurs pratiques quand bien même les études scientifiques les contredisent…). En neuroscience, l’IRM fonctionnelle joue un rôle central de « preuve », pour un grand nombre d’assertion qui arrivent, telles quelles, chez le grand public. On apprend pourquoi « L’eau coupe l’appétit« , que « on a localisé le fameux esprit de noël dans le cerveau« , qu' »il faut jouer aux jeux vidéos contre la sclérose en plaque« … Bref, si l’IRM fonctionnelle le dit, c’est que c’est vrai !! Les neuroscientifiques ont donc une responsabilité lourde à porter : on leur fait (démesurément) confiance. Raison de plus pour qu’ils maîtrisent leurs méthodes et les réactualisent…

Enfin, reste la fameuse question : faut-il jeter les 30000 études de neurosciences réalisées à l’aide d’IRM fonctionnelle ? Pour les auteurs, il n’en est pas question. Certaines présentent sans aucun doute des résultats erronés. Mais en général, elles se trouvent rapidement marginalisées, puisqu’elles ne sont pas reproductibles. Seules les conclusions entérinées par plusieurs publications, par des méta-analyses persistent après quelques années. Et c’est valable pour toutes les disciplines scientifiques ! Ce travail nous (ré-)apprend ainsi que le temps de la recherche scientifique s’accorde mal avec le temps des actualités et du sensationnel… Ne l’oublions pas !

 

 

* Comme il faut plusieurs secondes par mesure à chaque fois, cela prend de nombreuses minutes, pendant lesquelles le sujet est placé dans la machine, qui est tout sauf rassurante, et risque également de perturber les mesures… Mais c’est encore un autre problème...

** L’American Chemical Society, plus gros éditeur des journaux de chimie a annoncé la mise en ligne de son propre service de pré-publication, appelée ChemrXiv. Espérons que cette initiative, d’un groupe tout à fait privé, et très peu enclin à l’accès libre des publications, puisse présenter les mêmes intérêts qu’arXiv…

(1) « Cluster Failure : Why fMRI inferences for spatial extent have inflated false-positive rates » A Eklund et al. PNAS 2016

(2) on pourra regarder le début -et la suite- de ce cours pour comprendre les différences et les enjeux des méthodes paramétriques et non paramétriques (pdf)

(3) On pourra lire le récit de cette démarche sur le site de l’Université de Linköping (Suède)

Laisser un commentaire

Votre adresse e-mail ne sera pas publiée. Les champs obligatoires sont indiqués avec *