Le chatbot médical d’intelligence artificielle de Google a réussi l’examen de médecine aux États-Unis, mais ses résultats restent en deçà de ceux des humains, indique une étude publiée mercredi dans Nature.
Publicité
L’année dernière, la sortie de ChatGPT – dont le développeur OpenAI est soutenu par le rival de Google, Microsoft – a lancé une course entre les géants de la technologie dans le domaine en plein essor de l’IA. La santé est un domaine où la technologie a déjà montré des progrès tangibles, certains algorithmes se révélant capables de lire des scanners médicaux mieux que les humains.
Publicité
En décembre, Google avait dévoilé son outil d’IA dédié aux questions médicales, appelé Med-PaLM, dans un article en prépublication. Contrairement à ChatGPT, il n’a pas été ouvert au grand public. Google affirme que Med-PaLM a été le premier grand modèle de langage, une technique d’IA entraînée sur des quantités de textes produits par l’homme, à réussir l’USMLE (United States Medical Licensing Examination).
La réussite de cet examen permet d’exercer la médecine aux États-Unis. Pour y parvenir, il faut obtenir un score de 60 % environ. En février, une étude avait révélé que ChatGPT avait obtenu des résultats plutôt satisfaisants à l’examen. Dans une nouvelle étude, évaluée par des pairs et publiée mercredi dans la revue Nature, les chercheurs de Google ont déclaré que Med-PaLM avait atteint 67,6 % en répondant aux questions à choix multiples de style USMLE.
Publicité
Ces résultats sont “encourageants, mais restent inférieurs à ceux des humains”, indique l’étude. Pour identifier et réduire ce que l’on appelle les “hallucinations” – le mot qui désigne une réponse manifestement fausse proposée par un modèle d’IA –, Google a indiqué avoir développé une nouvelle référence d’évaluation.
Karan Singhal, chercheur chez Google et auteur principal de la nouvelle étude, a expliqué à l’AFP que son équipe avait testé une version plus récente du modèle. Med-PaLM 2 aurait atteint le score de 86,5 % à l’examen USMLE, dépassant la version précédente de près de 20 %, selon une étude publiée en mai qui n’a pas été évaluée par des pairs.
Selon le Wall Street Journal, Med-PaLM 2 serait en test dans le prestigieux hôpital de recherche américain Mayo Clinic depuis avril. Tout test effectué avec Med-PaLM 2 ne sera pas “clinique, ni face au patient, ni susceptible de nuire aux patients”, a assuré Karan Singhal. Le modèle sera plutôt testé pour des “tâches administratives qui peuvent être automatisées relativement facilement, avec de faibles enjeux”, a-t-il ajouté.
Publicité