Peut-on faire confiance à l'IA pour un diagnostic médical ?

L’essor de l’intelligence artificielle dans l’autodiagnostic médical : une solution en vogue ou une promesse à nuancer ?

Avec la multiplication des délais d’attente dans les établissements de santé et la pénurie croissante de professionnels qualifiés, un grand nombre de personnes se tournent désormais vers des outils d’intelligence artificielle pour obtenir un premier avis médical. Lorsqu’ils ressentent des douleurs localisées, détectent des plaques rouges sur leur abdomen ou remarquent des boutons cutanés, beaucoup préfèrent consulter ChatGPT ou d’autres agents conversationnels alimentés par l’IA. Ces utilisateurs cherchent à comprendre, confortés par la facilité d’accès à distance, ce dont ils pourraient souffrir, sans même quitter leur salon. La tentation est grande de se fier à ces systèmes pour un premier diagnostic, mais leur fiabilité reste encore largement remise en question.

Une étude critique quant à la fiabilité de l’IA en médecine de premier recours

Il serait toutefois hasardeux de leur accorder une confiance aveugle, comme en témoigne une recherche récente menée par l’Université d’Oxford. Dans un communiqué, la chercheuse Rebecca Payne, principal auteur de cette étude, fait le point avec clairvoyance : « Malgré tout le battage médiatique entourant ces technologies, l’intelligence artificielle n’est pas encore prête à remplacer vraiment un médecin. » L’étude, publiée le 9 février dernier dans la revue Nature Medicine, avait pour objectif d’évaluer si les agents conversationnels utilisés par le grand public étaient réellement capables de fournir un diagnostic fiable et précis. Pour cela, une dizaine de scénarios simulés par des professionnels de la santé ont été présentés à environ 1 300 participants britanniques. Parmi ces scénarios, on retrouvait par exemple un jeune qui souffrait d’un malaise intense après une soirée entre amis, une mère qui ressentait une fatigue extrême et des difficultés respiratoires, ou encore un patient présentant des symptômes évocateurs de calculs biliaires.

Méthodologie de l’étude : deux groupes, deux approches

Les participants ont été répartis aléatoirement en deux groupes distincts. Le premier groupe utilisait des intelligences artificielles telles que GPT-4 d’OpenAI, Llama 3 de Meta ou Command R+ pour diagnostiquer leur problème de santé et déterminer la conduite à tenir. Le second groupe, en revanche, se fiait à des méthodes plus traditionnelles, notamment les moteurs de recherche classiques ou d’autres sources d’information courantes. Après avoir recueilli leurs réponses, les chercheurs ont analysé leur capacité à identifier correctement la nature du problème médical, ainsi que la décision appropriée à prendre, comme rester chez soi ou faire appel à une ambulance.

Des résultats mitigés quant à la performance de l’IA

Les résultats obtenus ont montré des limites importantes dans l’efficacité de l’IA : seulement 34,5 % des participants utilisant cette technologie ont réussi à diagnostiquer correctement leur pathologie, et dans moins de 45 %, ils ont choisi la bonne conduite à adopter. Ces données ne diffèrent que faiblement de celles relevées chez les sujets qui se sont fiés à des moyens d’information classiques, soulignant ainsi le manque de supériorité concrète de l’IA dans ce contexte précis.

Les progrès en connaissance médicale mais encore des limites à l’utilisation autonome

Il ne fait pas de doute que l’intelligence artificielle excelle dans les tests de connaissances standardisées en médecine. Lorsqu’on leur soumet directement les mêmes scénarios, sans intervention humaine, ces chatbots montrent une capacité remarquable à relever les affections pertinentes et à proposer des solutions adaptées, notamment en matière de recours aux soins. La chercheuse Rebecca Payne souligne que, dans certains cas, les modèles parvenaient à repérer de façon précise la pathologie et suggéraient des démarches pertinentes, ce qui ouvre des perspectives intéressantes pour leur intégration dans la gestion administrative ou la rédaction de documents médicaux.

Les difficultés de communication entravant l’efficacité des chatbots médicaux

Cependant, de nombreux obstacles liés à la façon dont ces systèmes interagissent avec les usagers limitent leur efficacité. La chercheuse identifie trois principales sources de dysfonctionnement : d’abord, les utilisateurs transmettent parfois des informations incomplètes ou segmentées, lesquelles peuvent être mal interprétées par la machine ; ensuite, de légères variations dans la formulation des questions entraînent souvent des réponses très divergentes. Enfin, les résultats fournis par ces chatbots comportent fréquemment un mélange d’informations correctes et d’erreurs, ce qui rend difficile de distinguer le vrai du faux pour l’utilisateur.

La frustration est palpable : dans plusieurs cas, le chatbot mentionne la bonne hypothèse diagnostique en cours de conversation, mais l’utilisateur ne la retient pas ou ne la retransmet pas dans sa réponse finale. Par ailleurs, lorsqu’il doit se fier à une information segmentée, ou que la machine interprète mal un détail vital, le diagnostic final peut s’avérer erroné. Il en résulte une véritable difficulté de communication entre l’être humain et la machine, qui compromet la fiabilité de l’ensemble du processus.

Les risques liés à l’usage non critique des chatbots en santé

Les résultats de cette étude montrent qu’il faut rester prudent face à l’usage des chatbots pour des questions de santé. La distribution d’informations erronées ou incohérentes, ou encore l’attribution de diagnostics incorrects, illustrent que ces outils, en dépit de leur rapidité et de leur puissance, ne peuvent pas encore remplacer un professionnel de santé. Ces modèles, aujourd’hui, sont plutôt à considérer comme des assistants capables d’organiser l’information, de synthétiser des textes ou de structurer des dossiers complexes. Ces tâches sont cruciales dans le domaine médical, notamment pour la rédaction de comptes rendus ou la gestion de dossiers médicaux, mais leur utilisation en autonomie pour des diagnostics demeure prématurée.

Conclusion : une technologie encore limité dans son application clinique

En définitive, si l’IA propose des avancées prometteuses dans certains aspects de la santé, elle demeure encore insuffisante pour se substituer totalement à un médecin. La communication entre l’homme et la machine doit être améliorée, et les intelligences artificielles doivent encore faire l’objet de nombreuses recherches pour réduire leurs erreurs et leur sensibilité aux variations dans les questions posées. La prudence reste donc de mise pour toute utilisation directe de ces outils dans le diagnostic ou la prise en charge médicale, sans supervision humaine.

Sources et perspectives

Cette étude a été réalisée à partir de données publiées dans plusieurs revues et rapports, notamment le European Medical Journal, Nature Medicine, ainsi que sur le site de l’université d’Oxford et dans la plateforme The Conversation. Elle souligne la nécessité d’une utilisation mesurée de ces technologies, qui restent encore à perfectionner avant d’être intégrées pleinement dans les pratiques médicales courantes.