Des algorithmes pour la chasse à la fraude scientifique ?

5 décembre 2022 par binaire Coopérer 270 visites 0 commentaire

Un article repris de https://www.lemonde.fr/blog/binaire...

Guillaume Cabanac est un chercheur en informatique à l’Université Paul Sabatier. Il se spécialise dans l’analyse de texte et a fait partie, en 2021, de la liste des top 10 chercheurs de Nature pour son travail permettant de détecter des articles scientifiques frauduleux. Son travail est essentiel pour la crédibilité et la robustesse des processus scientifiques. Dans cet entretien, Guillaume nous explique comment il est en est arrivé à travailler sur ce sujet ainsi que le fonctionnement de son programme pour détecter les articles frauduleux.

Binaire : Peux-tu nous présenter ton parcours et ce qui t’a poussé à chasser la fraude scientifique ?

Guillaume : Mon choix de parcours était partagé. D’une part, je voulais faire un Bac L. parce que la littérature me plaisait. D’autre part, je voulais être informaticien. C’est finalement grâce à un ami de mon père, un ingénieur, qui un jour m’a expliqué : « Écoute ton but c’est d’être informaticien . Les lettres te plaisent beaucoup mais tu sais que tu pourrais en faire ton hobby pendant ton temps libre… » que j’ai finalement opté pour un Bac S et plus tard pour un DUT car mes parents, qui n’ont pas été à l’université, étaient un peu inquiets que je m’oriente pour la fac. J’ai fait deux ans à l’IUT mais j’ai de suite su que l’entreprise n’était pas pour moi. Franchement j’étais même un peu stressé parce qu’il fallait faire un stage de DUT assez long, au total plus de dix semaines. Et je cherchais, mais sans trouver. Je regardais mes professeurs en cours, (ceux que j’avais étaient vraiment sympathiques), ils étaient investis, motivés. Puis, je les voyais dans leurs bureaux, ils travaillaient sur des projets intéressants. Et moi, je me suis complètement projeté là-dedans. Je leur ai dit : “Mais ça a l’air trop bien ce boulot. Que faut-il faire pour y parvenir ?” Ils m’ont répondu : une thèse.

C’est donc ce que j’ai commencé à vouloir faire. J’ai finalement fait mon stage dans le laboratoire d’informatique à l’université Paul Sabatier de Toulouse, où j’étudiais. J’ai appris à connaître cet univers, à voir les collègues sous leurs deux facettes, les enseignants qui sont aussi chercheurs. J’ai participé à quelques séminaires et j’ai aimé cet univers. C’était tellement super. Et je me suis dit que c’était vraiment ce que je voulais faire.
Je suis alors parti en thèse et j’ai été recruté juste après l’obtention de mon doctorat. J’ai eu la chance d’avoir un recrutement post-thèse. Je suis un « pur produit » de l’université Paul-Sabatier de Toulouse et je pense que c’est vraiment « une espèce en voie d’extinction ». Récemment, il a été question d’imposer lors des recrutements de Maître de conférences à l’IRIT une mobilité obligatoire entre la soutenance du doctorat et le recrutement. J’espère donc ne pas être une « disgrâce »pour l’université.

Quand je me suis présenté pour l’audition, on m’a demandé si je ne voulais pas “aller un peu à l’étranger, voir comment ça marche ailleurs, créer des liens, etc.”
J’ai expliqué qu’ayant une famille je ne voulais pas, et que je souhaitais également favoriser un poste stable plutôt qu’un poste précaire. D’autant plus qu’après l’obtention d’un poste stable , j’aurais tout le temps de créer des liens et des connections avec d’autres collègues. Pour moi c’était soit j’étais pris en poste en France dans l’univers académique, soit j’irais dans l’industrie (où je ne tenais vraiment pas aller) car je ne voulais pas demander à ma famille de faire des sacrifices pour ma carrière. Je me disais également que si je ne trouvais pas un poste académique à Toulouse, je me consacrerai à la recherche le week-end, pendant mes temps libres et à toutes mes heures perdues car j’adore la recherche. Déjà à l’époque, j’avais compris que je pouvais faire des choses, même sans argent.

Binaire : à quel moment t’es-tu intéressé à ces problèmes de fraude, de fake papers ?

Guillaume : Je suis dans le domaine des systèmes d’information et plus précisément dans mon équipe nous travaillons sur le texte, le texte sur le web par exemple. J’étais captivé par l’idée travailler sur la littérature scientifique, parce que c’est un domaine très hétérogène. Il y a de la masse, il y a des réseaux de citations, d’auteurs, d’affiliations. C’est « un tout-en-un », et donc un super matériau d’étude. Par ailleurs, j’ai commencé un livre sur la science de la science, la scientométrie. Je suis allé frapper à la porte du bureau d’une sociologue d’un département proche du mien. Elle m’a accueilli à bras ouverts avant de commencer une discussion sur les sujets qui nous intéressaient tous les deux. Elle m’a proposé ensuite de rejoindre le projet ANR qu’elle venait de décrocher et de me joindre tous les vendredis au séminaire de sociologie des sciences. J’ai suivi les cours de Yves Gingras et qui est un scientomètre très réputé mais qui reste très simple, humble, et disponible. Cette nouvelle immersion dans la sociologie m’a fait réalisé qu’il est possible de ne pas faire que de la recherche en profondeur que sur un seul sujet mais qu’on peut être curieux et s’intéresser à plusieurs domaines et explorer la largeur des connaissances scientifiques (même si cela pose encore des soucis en terme de carrière). J’ai aussi été exposé à des théories de sociologie des sciences qui ont formé mes intérêts et notamment les normes CUDOS de la science selon Merton. Il y définit notamment que la science doit être “Désintéressée” en ce sens que le chercheur ne doit pas faire ça pour être reconnu ou gonfler son h-index mais pour servir la société, et qu’elle doit se conformer au “Scepticisme Organisé” car les résultats sont soumis à un examen critique avant d’être acceptés et peuvent toujours être remis en cause.

En réalité ces deux derniers piliers, désintéressement et scepticisme organisé, sont les deux piliers qui sont attaqués par ce sur quoi je travaille aujourd’hui.
Le désintéressement est mis à mal lorsque des fraudeurs essaient, pour progresser, pour être promus, de publier de fausses études pour gonfler leurs métriques. Ils sont tout sauf désintéressés. Et il y a également le scepticisme organisé qui s’effrite de nos jours. On voit en effet des comités éditoriaux de revues scientifiques qui comprennent des ‘gatekeepers’ qui devraient protéger la science. Or ces ‘boards’ actuellement ne fonctionnent pas correctement. Cela peut s’expliquer parce qu’en 20 ans le nombre de revues scientifiques qui existent et sont actives a été multiplié par deux. Ces deux phénomènes, en parallèle, font qu’il y a des fraudeurs qui produisent, avec des techniques informatiques des papiers « bidons » qu’ils envoient à certaines revues. Sur les 40 000 revues qui existent dans le monde il n’y en qu’une cinquantaine qui sont ainsi affectées.

Dans nos travaux avec Cyril Labbé et Alexander Magazinov, nous ne parlons pas des revues prédatrices, nous parlons des revues, de la “haute couture”, des revues qui ont un impact factor chez Springer ou chez Wiley par exemple. Nous travaillons, ensemble, sur cette détection de papiers « bidons ». C’est du travail volontaire sur Zoom, en pleine pandémie, poussés par l’intérêt intellectuel. Il y a également cette prise de conscience que ce que l’on trouve, via nos travaux, est important pour la communauté scientifique.

Binaire : Quel genre de fraude peut être détectée par l’outil que vous avez développé tous les trois ?

Guillaume : Pour expliquer comment fonctionne notre outil et ce qu’il détecte, j’aime utiliser une métaphore liée au crime. Ce que nous avons créé c’est un logiciel qui agit comme un indic ; il va d’abord fureter et mettre son nez partout et ensuite il va aller voir le commissaire de temps en temps pour lui dire : “Tu devrais aller voir ça parce que là, c’est louche.” Le commissaire et ses détectives vont pouvoir cibler un individu particulier dans la ville. Imaginons que dans cette ville il y est 16 000 personnes, grâce à l’indic il saura que c’est cette personne sur les 16 000 qui est intéressante à surveiller. En fait, en science, il y a beaucoup de gens qui sont prêts à aider à débusquer et expliquer les problèmes de certaines publications scientifiques. Mais, sans outils, à l’image du commissaire, sans les renseignements d’un indic, ils ne savent pas où regarder. Des publications indexées dans “Dimensions” par exemple, il y en a 120 000 000, et environ 6 000 000 par an, ce qui fait 16 000 par jour, un nombre bien trop conséquent pour que chacune soit passée à la loupe. Tout comme le commissaire, les scientifiques ne peuvent pas surveiller 16 000 choses différentes par jour. Je me suis dit que j’allais créer un logiciel qui aide à savoir où regarder. Le logiciel passe au peigne fin l’ensemble de la littérature scientifique en cherchant ces fameuses ‘tortured phrases’, les expressions torturées. Les expressions torturées sont le résultat d’une tentative de manipulation de la part des fraudeurs.

Maintenant il faut comprendre le principe du paper mill. Un paper mill, c’est une entreprise, bien souvent en Chine et en Inde, qui vend des articles préparés sur commande. Il faut savoir qu’un scientifique est soumis à l’évaluation par son organisme de recherche qui lui demande d’atteindre des quotas. Par exemple, dans l’équivalent des CHU en Chine, il faut faire, comme en France, de l’enseignement, de la recherche et aussi opérer. Et peut être encore plus qu’en France, il faut atteindre ces quotas, autrement on est licencié. Il y a donc des personnels des hôpitaux qui vont voir les paper mills et contre de l’argent, ils vont faire fabriquer un article. La commande ressemble à quelque chose comme “Moi, je travaille sur le rein, il faudrait tester l’effet de telle protéine sur le rein et reporter les résultats.” Les paper mills, bien qu’on puisse penser qu’ils sont formés en science, ne sont tout de même pas des chercheurs. Ce qu’ils font, vraisemblablement, c’est une sorte d’état de l’art ou ils trouvent des articles intéressants sur le thème imposé. Ne sachant pas faire un vrai état de l’art, bien réfléchi et bien articulé, ils font ce qu’on appelle un lazy survey, c’est-à-dire qu’ils vont dire “X a fait ça”, “Y a fait ça”, “Z a fait ça”. Les paragraphes qu’ils écrivent commencent comme ça avec la citation de l’article suivi d’un copié paraphrasé collé du résumé de l’article cité. Pourquoi pas un copié/collé directement ? Parce que les maisons d’édition ont des logiciels détecteurs de plagiat. Les paper mills utilisent une technique qui va remplacer les mots par des synonymes. Donc pour « cancer du sein », le logiciel pioche un synonyme pour “cancer”, par exemple “péril”, et un synonyme pour “du sein”, par exemple “poitrine”. On obtient donc “péril de la poitrine” pour remplacer “cancer du sein”. De la même façon, “Intelligence artificielle”, devient “conscience contrefaite”. Une publication de ‘paper mills’ pourra donc contenir une phrase telle que “La voiture autonome dans la ville se guidera par sa conscience contrefaite.”

Ces phrases torturées, nous en avons trouvées quelques-unes au début avec mes deux collègues et nous avons pioché des articles qui les contenaient. Une forme de ‘grep’ généralisé sur toute la littérature. Et en lisant les paragraphes qu’il y a autour, nous pouvions trouver de plus en plus de phrases torturées. Par effet boule de neige, nous les ajoutions dans une liste et avant de recommencer le processus entier. Et notre logiciel Problématic Paper Screener (PPS), remontait donc de plus en plus d’articles de recherche à chaque fois. En résumé, PPS est finalement cet indic qui va lister les papiers candidats à ce qu’on appelle une “réévaluation par des humains”. Par exemple, un article qui en contient sept, il n’y a aucun doute sur le fait qu’il est issu d’un ‘paper mill’ et nous invitons la communauté scientifique, via le site de PPS, à regarder les phrases torturées, prendre un screenshot et apporter la preuve du problème et le poster sur Pubpeer, la plateforme de relecture post publication.

Mon cas est typique, je ne suis pas expert biomédical mais j’arrive quand même à lire les papiers qui sont remontés par notre logiciel et signaler les phrases torturées.

Mais le détail de la science et les problèmes dans la science biomédicale c’est un autre sujet, qui est lui bien complexe. Je poste donc sur Pubpeer le papier concerné et les experts qui ne savaient pas où regarder, pour aider à protéger la science, peuvent commencer là car ils le voient sur la file d’accueil de Pubpeer. Et si on trouve des phrases torturées dans l’état de l’art et que le papier reporte une expérience ou des études on peut être quasi sûr que les experts du domaine vont pouvoir trouver beaucoup d’autres problèmes. De façon simplifiée, par exemple, ils diront étudier 18 souris et en faire deux groupes. Chaque groupe devrait donc contenir 9 souris. Cependant, en lisant l’article, on observe qu’il y a en fait un groupe qui en contient 7 et l’autre 4. Bien évidemment, les problèmes sont en réalité plus complexes, mais les scientifiques du domaine peuvent plus facilement disséquer tous les problèmes de ces articles, les poster sur Pubpeer et contacter les éditeurs qui ont publié les articles en joignant les preuves qu’ils ont accumulé pendant leurs investigations. Via notre outil, nous sommes depuis rentrés en contact avec d’autres whistleblowers qui ont des informations importantes sur ce business de la fausse publication scientifique mais qui restent anonymes car ils sont menacés ; mais nous aident à découvrir et à reporter d’autres pratiques problématiques. Par contre, nous voulions être certains de ne pas avoir toute la gloire pour nous, donc dans notre logiciel du Problematic Paper Screener, il y a une colonne en plus pour préciser qui a reporté ça sur Pubpeer et on peut ensuite dans le logiciel faire remonter tous les post Pubpeer qui contiennent une phrase torturée et remonter qui en est à l’origine.

Binaire : Quand on regarde de plus près, l’approche que tu as à toi, qui est beaucoup plus automatisée, elle apparait comme assez complémentaire de ce que fait Elizabeth Bik qui est plutôt à regarder elle-même, apparemment manuellement, les articles pour chasser les duplications d’images, les Photoshop “maladroits” ; on pourrait imaginer que les approches automatisées soient plus efficaces qu’une approche humaine. Est-ce que tu penses qu’on peut automatiser d’autres tâches que celles que vous avez voulues automatiser ?

Guillaume : Il y a des collègues qui travaillent sur le p-hacking depuis au moins les années 2013. Ils ont conçu des approches pour aller identifier les différents paramètres utilisés dans les tests statistiques qui relancent le calcul et qui comparent avec ce que les chercheurs ont reporté dans le papier. ‘Statcheck’, par exemple, fais ce genre de vérification.

Il y a beaucoup de personnes qui travaillent sur cette détection d’erreurs. Ce sont des problèmes reconnus qui sont à la fois sur les erreurs ou alors sur des approches à améliorer. Par exemple, il y a une personne qui travaille sur un logiciel qui va détecter des couleurs dans les figures qui ne sont pas perceptibles par des personnes qui sont atteintes de déficience visuelle. Et certains de ces outils automatiques ont déjà été développés plus en profondeur et intégrés par des maisons d’éditions. Ça n’est pas le cas du Problematic Paper Screener, car, même si les maisons d’édition sont intéressées, ça n’est pas ce qui nous intéresse nous.

Binaire : Est-ce que tu vois des limites directes dans l’approche que vous avez mise en place, par exemple sur les faux positifs ?

Guillaume : C’est quelque chose que nous avons regardé. L’exemple c’est l’utilisation du terme « acknowledgement » dans une phrase torturée mais qui apparait aussi dans la section remerciements (acknowledgments en anglais) d’un article. Alors dans ces cas-là, nous utilisons d’autres informations pour déterminer si l’article est problématique. Par exemple si c’est un article qui date d’une époque où les paper mills n’existaient pas, il est facile d’éliminer cet article. Il y a beaucoup d’autres sortes de vérifications assez simples. En revanche, on sait que si un article compte au moins deux phrases torturées repérées par notre logiciel, il n’y a quasiment jamais de faux positifs. En fait les seuls faux positif, pour le moment, ce sont nos propres papiers sur les phrases torturées, puisqu’ils contiennent ces expressions problématiques. Nous pensions en avoir trouvé un dans Nature, mais c’était en fait un article dans Nature qui parlait de notre travail.

Une limite de notre système, c’est que notre analyse repose sur du travail manuel. On ne veut pas essayer de trouver de façon automatique plus de phrases torturées parce qu’il y aurait beaucoup de bruit et donc potentiellement beaucoup plus de faux positifs. On pourrait imaginer utiliser un algorithme qui détecterait des nouvelles expressions dans des articles, mais ça produirait certainement beaucoup de bruit. Ça ne veut pas dire qu’il ne faut pas essayer de le faire, mais ça n’est pas notre idée initiale, ou notre intérêt direct pour le moment.

Binaire : Suite à votre travail à tous les trois, est-ce qu’il y a un risque que les techniques pour écrire ces articles frauduleux en fait, deviennent meilleures ?

Guillaume : C’est certain. Ce qui a fait beaucoup de bruit récemment c’est le fait qu’on a trouvé une revue scientifique très problématique avec un très grand nombre d’articles problématiques et Elsevier a fini par rétracter 400 articles scientifiques. Mais, au départ, c’était pourtant une revue très sérieuse qui avant 2019 publiait beaucoup d’articles du CNRS et qui, d’un coup, s’est mise à publier de plus grands nombres d’articles de façon plus rapide. Nous n’avons pas détecté ça via les phrases torturées mais via un screening des abstracts des articles pour détecter le langage synthétique, c’est à dire le langage généré automatiquement par des outils comme GPT 2.
Mais ce que l’on détecte avec les phrases torturées, ça n’est que la partie visible de l’iceberg ; celle qu’il est facile de trouver. La fraude plus élaborée on ne l’a pas encore trouvée, par exemple simplement les articles générés par GPT-3. Il suffit de donner à GPT-3 un début cohérent d’article, et en appuyant sur tabulation, l’algorithme écrit le reste de façon crédible. Ça ne veut pas dire grand chose sur le fond c’est vrai mais ça peut quand même être publié dans des revues sérieuses. Si le reviewer est un expert du domaine mais qu’il n’a pas le temps et donne la relecture à ses étudiants, si la personne, junior ou non, n’ose pas dire qu’elle ne comprend pas… l’article peut être publié, et c’est l’ensemble du processus scientifique qui est danger. Les conséquences ne sont pas forcément dramatiques, mais c’est quand même de l’argent de recherche qui a été gaspillé. C’est quand même du temps qui a été gaspillé car certains chercheurs pourraient lire des papiers frauduleux et s’appuyer sur leurs résultats pour faire avancer un peu plus la science et finalement gaspiller leur temps, argent, ou matériaux à cause de ça.

Disclaimer : cet entretien a été réalisée par Lonni Besançon qui fait partie du “Collège Invisible”, un groupe informel de détectives scientifiques, initié par Guillaume Cabanac.

Licence : Pas de licence spécifique (droits par défaut)

Des algorithmes pour la chasse à la fraude scientifique ?

Répondre à cet article

Dans la même rubrique