Archives pour l'étiquette Reproductibilité

Manifeste pour une science reproductible (II) : les propositions

Cet article fait suite à celui-ci, où je donnais quelques exemples illustrant cette « crise de reproductibilité » qui secoue la recherche scientifique. En janvier, Marcus R. Munafò et ses collègues publiaient « Manifesto for reproducible science » dans la revue Nature Human Behaviour.

Dans ce manifeste, ils dénoncent les pratiques qui nuisent à la reproductibilité scientifique, qui provoquent ce gâchis scientifique, humain, financier.

Toutes les étapes de la construction et de la publication de découvertes scientifiques. En rouge, les obstacles à la reproductibilité des résultats. Le terme HARKing signifie « Hypothesizing After the Results are Known » : Faire des hypothèses post hoc, une pratique très souvent dénoncée en sciences du comportement. (source de l’image)

Mais il ne s’agit pas uniquement d’un pamphlet. Les auteurs proposent plusieurs grandes idées pour limiter cette crise de la reproductibilité. J’ai pris la liberté de les reprendre, en les réorganisant sous quatre pôles distincts.

Pré-enregistrer les études, pré-publier : promouvoir la transparence avant même la publication définitive des résultats

Lorsqu’on parle de pré-publication, on pense très vite à la platerforme arXiv.org, qui consiste à rendre public (et gratuitement) des résultats préliminaires, souvent non publiables en l’état, afin de profiter du regard de la communauté scientifique pour valider mesures expérimentales et méthodologie. Pour apparaître sur arXiv, nul besoin de validation par les pairs. Il y a donc un processus complémentaire, ouvert et collaboratif, avant soumission de la publication sur un autre support… ou abandon. Pas besoin du long et douloureux processus de rétractation, ou de corrigendum des publications pour ne conserver que les plus rigoureuses…

Quelques exemples sont suffisamment célèbres pour être signalés (voir la notice arXiv sur wikipédia):

  • Une démonstration de la conjecture de Thurston a été déposée en 2002 sur arXiv par Grigori Perelman, examinée pendant 4 ans, et finalement validée.
  • Une démonstration de l’existence de solutions générales à l’équation de Navier-Stokes a été déposée par Penny Smith, avant d’être finalement abandonné.
  • Les travaux d’Enders Eklund, remettant en question les méthodologies en IRM fonctionnelle ont d’abord été publiés sur arXiv, avant de finir sur la prestigieuse revue PNAS. (Par ailleurs, il me semble – à titre personnel-  que l’accès à une revue aussi sélective a sans doute été rendue possible grâce à la prépublication)

Cependant, tous les domaines scientifiques ne sont pas ouverts à cette plateforme… Principalement en raison des habitudes des communautés de chercheurs. arXiv s’est principalement développée autour de la physique, information, mathématique… La chimie, -au hasard !- n’est pas concernée…(2)

ArXiv est un outil intéressant et productrice d’une rigueur que le peer-reviewing classique n’atteint pas. Les « Registered Reports » me semblent tout à fait complémentaires, et particulièrement efficaces. Le principe est simple : Le processus de Peer-Review est décomposé en deux :

  • Une première étape d’évaluation par les pairs concerne les hypothèses de départ et les méthodes qui seront mis en oeuvre. Si elles sont retenues, l’équipe de recherche obtient un accord de principe pour publication.
  • La deuxième étape d’évaluation concerne le manuscrit de l’article à publier. Sous réserve de la bonne observance des méthodes déjà validées lors de la première étape, et de rigueur de présentation des résultats, et quelque soit leur importance dans le champ disciplinaire concerné, l’article est publié.

Principe des « Registered Reports » : avoir un accord de publication avant obtention des résultats

Cette première validation donne l’assurance aux chercheurs d’être publiés. La nécessité absolue de résultats positifs, voire particulièrement remarquables s’envole, laissant la possibilité de publier des résultats négatifs ou peu significatifs. D’une part la fraude, les petits arrangements perdent beaucoup d’intérêts avec ce processus, mais de plus l’évaluation des chercheurs par les publications redevient un peu plus saine : les « bons » sont ceux qui ont produits des hypothèses pertinentes, et qui ont su se montrer rigoureux dans la construction de nouveaux savoirs scientifiques. Certaines revues ont mis en place, de façon facultative, ces « Registered Reports ». On trouvera une liste ici (notez l’absence de la chimie…).

Finalement, ces « Registered Reports » (oui, je n’ai pas trouvé de traduction, et j’ai du mal à en proposer une à la fois claire et légère…) rejoignent l’arsenal déjà existant qui permet les pré-enregistrement des recherches. Mais encore une fois, les domaines de recherche sont très inégalement concernés par les pré-enregistrements. Ils sont quasi systématique dans le domaine de la recherche médicale, et hébergés par différents sites institutionnels (comme le site américain ClinicalTrials.gov dont l’origine date de 1988, ou l’européen EudraCT Public website propulsé par la Commission Européenne), mais quasi absents de tous les autres domaines. Il est vrai que la question des essais cliniques est particulièrement sensible, tant les enjeux financiers et surtout humains sont importants…

L’indispensable libre accès aux articles et aux données

Quand Eklund conclut son article sur les défauts de traitements statistiques des données issues des expériences d’IRM fonctionnelle, concernant près de 30 000 articles scientifiques, il n’oublie pas de préciser que pour la plupart d’entre eux, il ne sera pas possible d’utiliser les nouvelles méthodologies plus fiables : les données brutes de ces expériences n’existent plus.

Dans un autre registre, je suis tombé il y a quelques minutes, sur ce tweet :

Sans revenir sur cette controverse scientifique concernant le glyphosate où se mêlent lobbies agro-industriels, zêle journalistique pas toujours bien placé, et santé publique, ce rebondissement (Il semblerait que des données non publiées remettent en question les conclusions de l’IARC classant le glyphosate comme « cancérigène probable ») est symptomatique de l’importance de la publication, ouverte à tous, des données des études. Que cela soit pour vérifier les traitements statistiques, en effectuer de nouveaux, plus pertinents, plus fins, ou procéder des méta-analyses nécessitant de re-traiter les données brutes issues de publications distinctes.

Sans entrer dans trop de détail, il me semble que la publication des données brutes fait aujourd’hui consensus, même si elle n’est pas encore suffisamment entreprise. La publication en accès libre des études scientifiques est également un vecteur fondamental de la diffusion des connaissances et des travaux scientifiques. À ce titre, elle permet d’accroître la communauté qui peut vérifier, comparer, évaluer les résultats et les méthodologies mises en oeuvres.

La littérature promouvant le libre accès aux données et aux études est abondante… Nul besoin que j’en remette une couche. Je ne m’étendrais pas plus ici sur la question, d’autant qu’il me faudrait encore critiquer le domaine de la chimie, mauvais élève de la recherche scientifique concernant l’accès libre aux publications…

Peer-review, collaborations… De la diversité, que diable !

Rien de tel que la diversité au sein des équipes, des collaborations, et des re-lecteurs pour améliorer la qualité des publications, et ainsi leur reproductibilité. Ainsi Munafo et coll. expliquent très justement que les chercheurs ne peuvent pas être à la fois des biologistes / psychologues / physiciens / etc. hors pairs, et des mathématiciens / épidémiologistes / statisticiens / informaticiens / etc. au courant des dernières évolutions sur le traitement des données. Ils proposent ainsi que soient associés aux équipes de recherche des professionnels spécialistes des méthodologies, et non du domaine de recherche concerné, dans le but d’offrir un regard aussi neutre que possible sur le design, le suivi, le traitements des résultats des travaux menés.

Cette même proposition est valable pour l’étape d’évaluation par les pairs avant publication.  Les auteurs insistent encore une fois sur l »intérêt de pré-publier les résultats, pour augmenter le nombres d’acteurs susceptibles d’évaluer les études menées, mais également sur la possibilité de post-évaluation des articles, rendue aujourd’hui possible, et même aisée par les outils informatiques et la mise à disposition des études sur le net.

Permettre de larges collaborations est également mis en avant. Là où une équipe isolée ne peut que produire des résultats statistiquement peu robustes, pour des raisons évidentes de moyens financiers et humains mais également pour des raisons de contextualisation qui ammoindrissent nécessairement la portée des travaux, plusieurs équipes mettant en commun hypothèses et protocoles d’études peuvent produire des résultats beaucoup plus fiables et robustes. Il s’agit encore une fois d’éléments de bon sens, mais mis en oeuvre de façon trop ponctuelles. Les auteurs du manifeste citent néanmoins plusieurs initiatives en SHS, comme le projet « The Many Lab« , hébergé sur la plateforme Open Science Framework, qui centralise les projets nécessitant le recrutement d’équipes collaboratrices…
Je vais me permettre de proposer un exemple purement spéculatif pour illustrer l’intérêt de dé-contextualiser des recherches. N’hésitez pas à me dire que je suis hors de propos (en argumentant bien sûr). Il y a environ 4 ans, j’écrivais un billet sur les statines, alors montrées du doigt pour leur prescription au périmètre assez flou et parfois peu étayé. (Je ne me suis pas replongé dans la littérature sur la question, ce n’est pas le sujet ici). En me penchant sur les études considérées comme très fiables (sélectionnées par les collaboration Cochrane pour établir leurs recommandations), on pouvait trouver de larges essais cliniques au Japon, USA, Ecosse. Mais j’avais été surpris, interpellé, par cette carte, partagée par Dominique Dupagne :

Mortalité coronarienne (justement censée diminuer grâce à l’utilisation des statines)

On peut voir une très grande disparité de la mortalité coronarienne, qui est justement une des cibles des traitements par les statines. On passe ainsi d’environ 65 morts / 100 000 habitants en France, à plus de 367 pour toutes les zones en rouge sur la carte, comme l’Ecosse. Les USA ont pour leur part un taux d’environ 120 pour 100000 (voir ici). Le Japon a des chiffres similaires aux USA (voir ici). Ma question est simplement la suivante : compte tenu de ces disparités très importantes, comment peut-on savoir si les statines ont le même intérêt en France (ou Espagne, ou Italie…) qu’en Ecosse, Estonie, ou au Japon ? Avec de telles disparités, comment l’agence Européenne du Médicament prend ses décisions sur l’autorisation et la commercialisation de médicaments ? Il me manque sans doute des éléments de réponse sur ce point précis. Toujours est-il que de larges collaborations sur un même sujet (ici par exemple les statines), permettant une méthodologie commune (sur l’analyse de l’influence des statines sur la mortalité coronarienne) dans des contextes (sanitaires) distincts doit permettre des résultats plus fiables, plus généraux, et adaptés aux diverses situations (ici, aux divers pays, de pyramides d’âge et d’hygiène de vie différentes).

Apprenons à être exigeant envers nous-même, et valorisons ceux qui le sont

Le dernier pôle de proposition concerne l’exigence nécessaire dont les chercheurs doivent faire preuve lorsqu’ils médiatisent, publient leurs travaux. Les auteurs du manifeste parle en particulier de la formation : connaître les outils devrait être un préalable à leur utilisation. cela peut sembler d’une grande trivialité, mais je ne pense pas que beaucoup de biologistes maitrisent les statistiques qu’ils utilisent pourtant pour « valider » leurs expériences. Tout comme les chimistes ne maîtrisent que rarement les algorithmes de simulations des structures 3D des molécules. La formation, initiale et continue des chercheurs ne doit pas s’arrêter à quelques recettes de cuisines magiques de bidouille de quelques chiffres ou quelques boutons de machine, si on souhaite une littérature scientifique solide.

Il est également question de la valorisation, et même de l’obligation de suivi de protocoles contraignants à une approche rigoureuse. Ils s’appellent ARRIVE, TOP, CONSORT, PRISMA,… et tous sont prévus pour servir de standard de reproductibilité et de rigueur. Référencés sur le réseau EQUATOR , ces lignes de conduites doivent, pour Munafo et ses collègues être valorisées, imposées, que ce soit par les éditeurs scientifiques, mais également par les institutions scientifiques publiques, et les financeurs de la recherche.

 

Il est difficile de conclure sur ce manifeste. L’article est en libre accès (lien un peu pllus bas), et est beaucoup plus riche que ce que j’en ai tiré ici. À titre personnel, je ne suis pas pessimiste sur la question de la reproductibilité des études scientifiques, ou, de façon plus large, sur leur qualité. Je crois en la force du partage des connaissances, et en la capacité de la communauté scientifique de faire preuve d’une grande rigueur, ne serait-ce que pour être plus convaincante. Néanmoins, l’existence de conflits d’intérêts permanents, qu’ils trouvent leurs origines dans le registre financier ou ailleurs, est un problème récurrent dans cette quête d’une science rigoureuse : il me semble que le tout premier levier d’action contre cette « crise de la reproductibilité », c’est de donner, totalement, envie aux scientifiques de produire des savoirs fiables. Cela aussi est tellement trivial, qu’on l’oublie trop souvent.

« a Manifesto for Reproducible Science » M.R. Munafo et al. Nature Human Behaviour 1, 0021, 2017

(1) on pourra lire à ce sujet les articles suivant :
– Homo Fabulus : « Le Biais de Confirmation, élémentaire, mon cher Watson »
– Agence Science Presse : « Les biais cognitifs sont humains, les scientifiques aussi, donc… »
(2) à noter la création très récente de ChemRxiv, initiative de l’American Chemical Society, principale éditrice de revues (payantes) en chimie. Néanmoins, sa raison d’être n’est pas forcément si louable que cela

Manifeste pour une science reproductible (I) : le constat

Cet article fait suite à la publication, il y a quelques mois, dans Nature Human Behaviour d’un article intitulé « A Manifesto for Reproducible Science » écrit par M.R. Munafò et ses collègues issus de prestigieuses universités américaines, anglaises et néerlandaise.

La recherche scientifique, telle qu’elle est menée actuellement, est en pleine « crise de la reproductibilité », questionnant totalement les méthodologies des laboratoires, mais également les modes de publications, d’interactions, et d’évaluations de la recherche. Le phénomène a été particulièrement mis en avant depuis les années 2000. Non pas qu’il ne soit pas plus ancien, (je dirais même qu’il est inhérent au prestige que représente la recherche et les découvertes scientifiques), mais il devient beaucoup plus visible aujourd’hui, sans doute grâce à une meilleure circulation des informations et des publications.

Une « crise de la reproductibilité », des réalités différentes

Derrière ce nom, se cache en réalité des pratiques scientifiques différentes, de la fraude pure et simple, à la non publication de résultats négatifs, en passant par les erreurs « de bonne foi », ou liées à des méthodologies contestables. Il serait difficile de tout lister, bien entendu, mais je peux revenir, à titre d’exemple, sur quelques exemples choisis.

Biais de méthodologie : le cas de l’IRM fonctionnelle

L’Imagerie par Résonance Magnétique a offert aux neurosciences l’opportunité de « visualiser », en temps réel, la réponse de nos cerveaux lorsqu’ils sont stimulés par une réflexion, un sentiment, une sensation. Cette technique, appelée IRM Fonctionnelle permet de mesurer en réalité l’évolution de la quantité de dioxygène dans les différentes zones du cerveau, et ainsi, de voir les zones actives (pauvres en O2, qui a été consommé) et les zones au repos. Le problème, dont j’ai parlé ici sur ce blog (et là pour Pour La Science), concerne la méthodologie de traitement des données pour produire l’image du cerveau. Pour simplifier, un chercheur, Enders Eklund a montré que les méthodes utilisées depuis 20 ans en IRM fonctionnelle donnaient des résultats… Faux la plupart du temps.(1) Quelques 30 000 publications ayant été basées sur l’utilisation de ces méthodes, la question de la reproductibilité de ces travaux scientifiques est critique en neuroscience. Si de nouvelles méthodes de traitement de données beaucoup plus fiables existent aujourd’hui, elles ne pourront pas être utilisées pour évaluer les publications plus anciennes, les données brutes n’ayant jamais été publiées…

Cachez ces résultats négatifs que je ne saurais voir…

Combien de travaux ont été entrepris, sans savoir que d’autres équipes de recherche avaient déjà essayé les mêmes choses, n’avaient rien obtenu et surtout… Rien publié ? Cette non publication occasionne des coûts importants, et une perte de temps considérable. En terme de reproductibilité des résultats, les dégâts sont également importants:
Imaginons que 10 équipes fassent la même expérience, pour établir que « A implique B« . 9 obtiennent un résultat négatif (absence de corrélation) –ne le publient pas– et une, par hasard, trouve une corrélation statistiquement significative (risque d’erreur inférieure à 5 %). Et la publie. C’est cette conclusion qui sera retenue. Alors que les données conjointes des 10 équipes auraient très probablement conduites à une infirmation du lien de causalité entre A et B.
Ce problème a conduit à la multiplication, dans les années 2000, de journaux qui publient les résultats négatifs. D’autres plaident pour des plateformes d’accès libre pour ces résultats, servant de bases de données de ce qui a déjà été tenté, mais qui n’a pas marché…(2)

61 % de rendement… On arrondit à 70 % ?

Enjoliver les résultats… QUE C’EST FACILE !! Prenons un exemple dans un domaine où les conséquences ne sont pas dramatiques (contrairement à la médecine et la pharmaceutique), et que je connais bien, à savoir la chimie organique. Lorsque j’étais en thèse de chimie organique, je travaillais sur la mise au point de réactions conduisant à des molécules de type pyridoacridines.

Certaines de ces réactions donnaient des résultats au rendement très variable. J’obtenais effectivement la bonne molécule à chaque coup (ce qui était en soi un résultat très satisfaisant), mais parfois avec 15 %, parfois avec 50 % de rendement. Il va sans dire que dans mon manuscrit, seul ce « 50 % » figure. Mon premier réflexe est… de ne pas trop m’en vouloir ! Après tout,

  • Quelqu’un au labo est passé derrière, a confirmé ces 50 %, et a amélioré ce résultat de façon assez spectaculaire.
  • Ces réactions ne serviront probablement jamais à rien… Et puis, je l’ai bien obtenu, isolé, mon produit, zut !

Ce type de comportement est extrêmement répandu en chimie fine, d’autant qu’il est très rare que d’autres refassent exactement les même manipulations avec les mêmes substrats. Bref : pas vu, pas pris… Pas (trop) de conséquence. Ce qui est dommageable, c’est être formé -lors d’une thèse par exemple- avec ce type de comportement. Qui fait petit à petit accepter un peu n’importe quoi. Sans fraude manifeste, sans volonté de nuire, on arrive à des résultats non productibles.

« Avez vous échoué à reproduire une expérience ? » tiré de cet article paru dans Nature.(3) Et le domaine gagnant est… La chimie !!

Les essais cliniques : quel gâchis !!

Dans un article paru dans Nature en 2012, C. G. Begley et L.M. Ellis tirent la sonnette d’alarme : en oncologie particulièrement, le taux d’échecs des essais cliniques ne peut pas s’expliquer uniquement par la difficulté de transposer à l’humain les recherches pré-cliniques. Il y a un gros problème de fiabilité et de reproductibilité des travaux scientifiques pré-cliniques(4). Ainsi, reportent-ils, une équipe de Bayer a analysé les données publiées concernant 67 projets de l’entreprise (dont 47 en oncologie) : le taux de reproductibilité est d’environ 20 – 25 %. D’autres chercheurs, de l’entreprise AmGen (Californie) n’ont pu confirmer les résultats que de 6 articles sur 53 (11%). A l’heure de l’envolée du coût de développement des médicaments anti-cancéreux, la perte d’argent, et de temps liés à ces travaux non reproductibles représente un gâchis considérable.

 

Ces quelques exemples ne sauraient être représentatifs. Les recherches en psychologie ont particulièrement été montrées du doigt, mais on voit bien que l’ensemble des disciplines universitaires sont concernées. Que ce soit en raison de mauvaises pratiques (non conservation/ non publication des données brutes), de biais cognitifs, de pressions (financière, académique, …), ce sont toutes les étapes de la recherche qui se retrouvent impactées, comme le résume cette figure de l’article de Munafò et coll. (5):

 

À venir : Manifeste pour une science reproductible (II): les propositions

(1) « Cluster Failure : Why fMRI inferences for spatial extent have inflated false-positive rates » E. Eklund et al. PNAS 2016.
(2) « Negative Results Are Published » B. O’Hara Nature 471,448–449 (24 Mars  2011).
(3) « 1500 scientists lift the lid on reproductibility » Monya Beker Nature (25 mai 2016)
(4) « Drug development : Raise standards for preclinical cancer research » C.G. Begley et L.M. Ellis  Nature 483, 531–533(29 March 2012)
(5) « A Manifesto for Reproducible Science » Marcus R. Munafò et al. Nature Human Behaviour 1, 0021 (2017)