Vers une IA open source particulièrement performante en matière de diagnostic
Des scientifiques de l’EPFL ont mis au point Meditron, un "grand modèle de langage" (LLM) open source, adapté au domaine médical. Evalué comme le plus performant au monde, son objectif est d'aider le personnel soignant à la prise de décision clinique.
Les "LLM" (Large Language Models) ou grands modèles de langage sont des algorithmes d’apprentissage profond entraînés avec d’innombrables textes pour apprendre des milliards de relations mathématiques entre les mots (appelés "paramètres"). Ces LLM constituent la base algorithmique de chatbots comme ChatGPT d’OpenAI et PaLM, utilisé pour Bard de Google. Les plus grands modèles d’aujourd’hui possèdent des centaines de milliards de paramètres, et leur entraînement coûte des milliards de dollars.
Si les modèles généralistes comme ChatGPT peuvent aider à accomplir des tâches diverses, le fait de cibler un domaine de connaissance spécifique permet aux modèles d’être plus petits et plus accessibles. Ainsi, les LLM entraînés avec des connaissances médicales de qualité sont susceptibles de démocratiser l’accès à des informations fondées sur la science pour aider les prises de décisions cliniques.
De nombreux efforts ont déjà été déployés pour exploiter les connaissances médicales et les capacités de raisonnement des LLM. Pourtant, à ce jour, l’IA qui en découle est soit fermée, soit limitée à environ 13 milliards de paramètres, ce qui en restreint l’accès ou la capacité.
Des algorithmes en open source
Pour améliorer l’accès et la représentation, des chercheurs de l’École Polytechnique Fédérale de Lausanne (EPFL) en Suisse ont mis au point Meditron 7B et 70B, une paire de LLM open source comportant respectivement 7 et 70 milliards de paramètres et adaptés au domaine médical.
S’appuyant sur le modèle Llama-2 en libre accès lancé par Meta, avec la contribution continue de cliniciens et de biologistes, Meditron a été entraîné avec des sources de données médicales soigneusement sélectionnées. Ces sources incluent la littérature médicale évaluée par des pairs et issue de référentiels en libre accès comme PubMed, et un ensemble unique de directives de pratiques cliniques, couvrant de nombreux pays, régions, hôpitaux et organisations internationales.
« En évaluant Meditron par rapport à quatre points de référence médicaux majeurs, nous avons pu montrer que ses performances dépassent celles de tous les autres modèles open source disponibles, ainsi que celles des modèles fermés GPT-3.5 et Med-PaLM. Meditron-70B est même à moins de 5 % de GPT-4 et 10 % de Med-PaLM-2, les deux modèles les plus performants, mais fermés, actuellement adaptés aux connaissances médicales », explique Zeming Chen, principal auteur de l’étude.
Dans un monde où la plupart des gens se méfient des progrès rapides de l’intelligence artificielle, le professeur Martin Jaggi, responsable du Laboratoire MLO de l’EPFL, souligne l’importance de la particularité open source de Meditron, y compris pour le code de sélection du corpus médical de pré-entraînement et les poids des modèles. « La manière dont Meditron a été entraîné et les données utilisées sont transparentes. Nous souhaitons que les chercheurs testent et améliorent notre modèle, en renforçant sa sécurité dans la validation en conditions réelles. Rien de tout cela n’est disponible avec les modèles fermés des grandes entreprises technologiques », précise-t-il.
Des sources transparentes d'informations de qualité
« La sécurité était au centre de nos préoccupations dès le début de la conception de Meditron », précise la professeure Mary-Anne Hartley, médecin et responsable du Laboratory for intelligent Global Health Technologies, qui dirige les aspects médicaux de l’étude. « Ce qui est unique, c’est qu’il code les connaissances médicales à partir de sources transparentes d’informations de qualité. Il s’agit maintenant de s’assurer que le modèle est capable de fournir ces informations en toute sécurité ».
Notons qu'un atelier va maintenant explorer le potentiel, ainsi que les limites et les risques, de ce type de technologie.