Cet article fait suite à la publication, il y a quelques mois, dans Nature Human Behaviour d’un article intitulé « A Manifesto for Reproducible Science » écrit par M.R. Munafò et ses collègues issus de prestigieuses universités américaines, anglaises et néerlandaise.
La recherche scientifique, telle qu’elle est menée actuellement, est en pleine « crise de la reproductibilité », questionnant totalement les méthodologies des laboratoires, mais également les modes de publications, d’interactions, et d’évaluations de la recherche. Le phénomène a été particulièrement mis en avant depuis les années 2000. Non pas qu’il ne soit pas plus ancien, (je dirais même qu’il est inhérent au prestige que représente la recherche et les découvertes scientifiques), mais il devient beaucoup plus visible aujourd’hui, sans doute grâce à une meilleure circulation des informations et des publications.
Une « crise de la reproductibilité », des réalités différentes
Derrière ce nom, se cache en réalité des pratiques scientifiques différentes, de la fraude pure et simple, à la non publication de résultats négatifs, en passant par les erreurs « de bonne foi », ou liées à des méthodologies contestables. Il serait difficile de tout lister, bien entendu, mais je peux revenir, à titre d’exemple, sur quelques exemples choisis.
Biais de méthodologie : le cas de l’IRM fonctionnelle
L’Imagerie par Résonance Magnétique a offert aux neurosciences l’opportunité de « visualiser », en temps réel, la réponse de nos cerveaux lorsqu’ils sont stimulés par une réflexion, un sentiment, une sensation. Cette technique, appelée IRM Fonctionnelle permet de mesurer en réalité l’évolution de la quantité de dioxygène dans les différentes zones du cerveau, et ainsi, de voir les zones actives (pauvres en O2, qui a été consommé) et les zones au repos. Le problème, dont j’ai parlé ici sur ce blog (et là pour Pour La Science), concerne la méthodologie de traitement des données pour produire l’image du cerveau. Pour simplifier, un chercheur, Enders Eklund a montré que les méthodes utilisées depuis 20 ans en IRM fonctionnelle donnaient des résultats… Faux la plupart du temps.(1) Quelques 30 000 publications ayant été basées sur l’utilisation de ces méthodes, la question de la reproductibilité de ces travaux scientifiques est critique en neuroscience. Si de nouvelles méthodes de traitement de données beaucoup plus fiables existent aujourd’hui, elles ne pourront pas être utilisées pour évaluer les publications plus anciennes, les données brutes n’ayant jamais été publiées…
Cachez ces résultats négatifs que je ne saurais voir…
Combien de travaux ont été entrepris, sans savoir que d’autres équipes de recherche avaient déjà essayé les mêmes choses, n’avaient rien obtenu et surtout… Rien publié ? Cette non publication occasionne des coûts importants, et une perte de temps considérable. En terme de reproductibilité des résultats, les dégâts sont également importants:
Imaginons que 10 équipes fassent la même expérience, pour établir que « A implique B« . 9 obtiennent un résultat négatif (absence de corrélation) –ne le publient pas– et une, par hasard, trouve une corrélation statistiquement significative (risque d’erreur inférieure à 5 %). Et la publie. C’est cette conclusion qui sera retenue. Alors que les données conjointes des 10 équipes auraient très probablement conduites à une infirmation du lien de causalité entre A et B.
Ce problème a conduit à la multiplication, dans les années 2000, de journaux qui publient les résultats négatifs. D’autres plaident pour des plateformes d’accès libre pour ces résultats, servant de bases de données de ce qui a déjà été tenté, mais qui n’a pas marché…(2)
61 % de rendement… On arrondit à 70 % ?
Enjoliver les résultats… QUE C’EST FACILE !! Prenons un exemple dans un domaine où les conséquences ne sont pas dramatiques (contrairement à la médecine et la pharmaceutique), et que je connais bien, à savoir la chimie organique. Lorsque j’étais en thèse de chimie organique, je travaillais sur la mise au point de réactions conduisant à des molécules de type pyridoacridines.
Certaines de ces réactions donnaient des résultats au rendement très variable. J’obtenais effectivement la bonne molécule à chaque coup (ce qui était en soi un résultat très satisfaisant), mais parfois avec 15 %, parfois avec 50 % de rendement. Il va sans dire que dans mon manuscrit, seul ce « 50 % » figure. Mon premier réflexe est… de ne pas trop m’en vouloir ! Après tout,
- Quelqu’un au labo est passé derrière, a confirmé ces 50 %, et a amélioré ce résultat de façon assez spectaculaire.
- Ces réactions ne serviront probablement jamais à rien… Et puis, je l’ai bien obtenu, isolé, mon produit, zut !
Ce type de comportement est extrêmement répandu en chimie fine, d’autant qu’il est très rare que d’autres refassent exactement les même manipulations avec les mêmes substrats. Bref : pas vu, pas pris… Pas (trop) de conséquence. Ce qui est dommageable, c’est être formé -lors d’une thèse par exemple- avec ce type de comportement. Qui fait petit à petit accepter un peu n’importe quoi. Sans fraude manifeste, sans volonté de nuire, on arrive à des résultats non productibles.
Les essais cliniques : quel gâchis !!
Dans un article paru dans Nature en 2012, C. G. Begley et L.M. Ellis tirent la sonnette d’alarme : en oncologie particulièrement, le taux d’échecs des essais cliniques ne peut pas s’expliquer uniquement par la difficulté de transposer à l’humain les recherches pré-cliniques. Il y a un gros problème de fiabilité et de reproductibilité des travaux scientifiques pré-cliniques(4). Ainsi, reportent-ils, une équipe de Bayer a analysé les données publiées concernant 67 projets de l’entreprise (dont 47 en oncologie) : le taux de reproductibilité est d’environ 20 – 25 %. D’autres chercheurs, de l’entreprise AmGen (Californie) n’ont pu confirmer les résultats que de 6 articles sur 53 (11%). A l’heure de l’envolée du coût de développement des médicaments anti-cancéreux, la perte d’argent, et de temps liés à ces travaux non reproductibles représente un gâchis considérable.
Ces quelques exemples ne sauraient être représentatifs. Les recherches en psychologie ont particulièrement été montrées du doigt, mais on voit bien que l’ensemble des disciplines universitaires sont concernées. Que ce soit en raison de mauvaises pratiques (non conservation/ non publication des données brutes), de biais cognitifs, de pressions (financière, académique, …), ce sont toutes les étapes de la recherche qui se retrouvent impactées, comme le résume cette figure de l’article de Munafò et coll. (5):
À venir : Manifeste pour une science reproductible (II): les propositions
(1) « Cluster Failure : Why fMRI inferences for spatial extent have inflated false-positive rates » E. Eklund et al. PNAS 2016.
(2) « Negative Results Are Published » B. O’Hara Nature 471,448–449 (24 Mars 2011).
(3) « 1500 scientists lift the lid on reproductibility » Monya Beker Nature (25 mai 2016)
(4) « Drug development : Raise standards for preclinical cancer research » C.G. Begley et L.M. Ellis Nature 483, 531–533(29 March 2012)
(5) « A Manifesto for Reproducible Science » Marcus R. Munafò et al. Nature Human Behaviour 1, 0021 (2017)