Analyse

Comparaison des réponses aux questions médicales sur un forum public entre des médecins bénévoles et l’intelligence artificielle (ChatGPT-3.5)

15 09 2023

Professions de santé

Ergothérapeute, Infirmier, Kinésithérapeute, Médecin généraliste, Psychologue

Analyse de

Ayers JW, Poliak A, Dredze M, et al. Comparing physician and artificial intelligence chatbot responses to patient questions posted to a public social media forum. JAMA Intern Med 2023;183:589-96. DOI: 10.1001/jamainternmed.2023.1838

Question clinique

Que valent les réponses de ChatGPT à des questions posées sur des forums de santé versus celles des médecins ?

Conclusion

Cette étude observationnelle comparant les réponses fournies par intelligence artificielle via ChatGPT-3.5 à celles fournies par des médecins sur des questions d’un forum public présente de nombreux biais méthodologiques qui ne permettent pas de tirer des conclusions suffisamment fiables. Cependant, cette étude à l’avantage de mettre en lumière une potentielle utilisation de l’intelligence artificielle comme outil d’aide à la pratique médicale. D’autres études restent nécessaires afin d’en préciser le cadre et les limites. Enfin, des considérations d’ordre éthique et déontologique concernant l’utilisation de l’IA dans un contexte de soins doivent également être discutées.

Contexte

Ces dernières années, l’intelligence artificielle (ou IA) en tant que domaine de recherche a connu une progression considérable et les applications potentielles au domaine médical sont également en cours d’étude. ChatGPT est un chatbot basé sur l’intelligence artificielle créé par OpenAI. Il est disponible au grand public depuis juin 2020. ChatGPT-3 a été formé sur un vaste ensemble de données issues du Web, sur base de nombreuses langues, pour apprendre à comprendre et à générer du texte. Il peut répondre aux questions et engager des conversations en analysant le contexte fourni et en générant des réponses pertinentes et cohérentes en langage naturel (1). Il doit pouvoir répondre à n’importe quelle question, y compris des questions médicales. Cet outil peut être utilisé gratuitement sur le site d’OpenAI. La 4ème version, plus performante, est disponible sous forme d’option payante. Selon les spécialistes, ChatGPT-4 représente une avancée significative. Jusqu’à aujourd’hui (2), aucune analyse concernant l’intelligence artificielle n’a été publiée sur Minerva.

Résumé

Population étudiée

utilisateurs d’un forum public (Reddit).

Protocole d’étude

pour des raisons de nécessité et de pragmatisme, et pour permettre le développement d'une base de données de questions de patients rapidement disponible et partageable, les questions du public et des patients ainsi que les réponses des médecins publiées ont été collectées sur un forum de médias sociaux en ligne, r/AskDocs de Reddit ; le forum en ligne, r/AskDocs, est un sous-Reddit comptant environ 474 000 membres ayant la possibilité de publier des questions médicales et où des professionnels de la santé, bénévoles contrôlés, soumettent des réponses
195 questions concernant un problème médical sélectionnées aléatoirement dont la réponse a été fournie par un médecin vérifié par le forum
la question originale, y compris le titre et le texte, a été conservée pour analyse, et la réponse du médecin a été retenue comme réponse de référence
les questions ont été introduites telles quelles dans une nouvelle session de ChatGPT-3.5
les réponses fournies par les médecins et celles générées par ChatGPT-3.5 ont été collectées et leur origine masquée
seules les réponses des médecins ont été étudiées car il était attendu que les réponses des médecins soient généralement supérieures à celles des autres professionnels de la santé ou des profanes
les réponses ont été évaluées par trois évaluateurs, membres d'une équipe de professionnels de la santé agréés travaillant dans les domaines de la pédiatrie, de la gériatrie, de la médecine interne, de l'oncologie, des maladies infectieuses et de la médecine préventive.

Mesure des résultats

évaluation en aveugle de la réponse jugée comme étant la meilleure parmi les deux réponses fournies
- qualité de l’information fournie : évaluée sur une échelle de Likert allant de « très mauvais » (1) à « très bon » (5)
- degré d’empathie dans la réponse : évaluée sur une échelle de Likert allant de « pas du tout empathique » (1) à « très empathique » (5)
les scores des différents évaluateurs ont été synthétisés en utilisant la méthode du « crowd scoring system », qui établit une valeur reflétant le consensus entre évaluateurs tout en donnant une variance à ce score, reflétant les désaccords possibles entre évaluateurs
nombre de mots dans les réponses de ChatGPT versus médecins
pourcentage de réponses pour lesquelles ChatGPT a été considéré comme meilleur
les scores moyens de qualité et d’empathie des réponses des médecins ont été comparés avec ceux des chatbots à l’aide de tests T bilatéraux
le degré de corrélation entre la qualité de la réponse et l’empathie a été mesuré par le coefficient de corrélation de Pearson (r).

Résultats

la réponse moyenne des médecins était plus courte que celle générée par ChatGPT avec 52 mots (17-62) contre 211 mots (168-245) ; t = 25,4 ; p < 0,001
les évaluateurs ont préféré la réponse du chatbot dans 78,6% des cas (avec IC à 95% de 75,0 à 81,8%) ; t = 13,3, p < 0,001
le score moyen sur un total de 5 concernant la qualité de réponse était de 3,256 pour les médecins et de 4,132 pour ChatGPT
le score moyen sur un total de 5 concernant l’empathie de la réponse était de 2,147 pour les médecins et de 3,655 pour ChatGPT ; t = 18,9, p < 0,001
22,1% (avec IC à 95% de 16,4 à 28,2) des réponses de médecins ont été évaluées bonne à très bonne contre 78,5% (avec IC à 95% de 7,3 à 84,1) pour ChatGPT concernant la qualité de la réponse
4,6% (avec IC à 95% de 2,2 à 7,7) des réponses de médecins ont été évaluées empathique à très empathique contre 45,1% (avec IC à 95% de 38,5 à 51,8)
le coefficient de corrélation de Pearson entre la qualité de la réponse et l’empathie était plus élevé pour les médecins (r = 0,59) que pour les réponses générées par IA (r = 0,32).

Conclusion des auteurs

Les auteurs concluent que bien que cette étude transversale ait montré des résultats prometteurs dans l'utilisation d'assistants d'IA pour les questions des patients, il est crucial de noter que des recherches supplémentaires sont nécessaires avant de tirer des conclusions définitives concernant leur impact potentiel dans les contextes cliniques. Malgré les limites de cette étude et l'enthousiasme souvent excessif entourant les nouvelles technologies, l'étude de l'ajout d'assistants d'IA au flux de messagerie des patients présente des perspectives prometteuses avec le potentiel d'améliorer à la fois les résultats pour les cliniciens et les patients.

Financement de l’étude

Burroughs Wellcome Funds, Université de Californie San Diego, Institut PREPARE, National Institute of Health.

Conflits d’intérêt des auteurs

Plusieurs auteurs déclarent des liens avec des entreprises liées à la télémédecine ou l’analytique de données ; un des auteurs déclare détenir des actions dans des entreprises spécialisées en data analytics ; ce même auteur était PDG de Good Analytics jusqu’en juin 2018, qui est une société de consulting qui se base sur des modélisations et des simulations mathématiques (3) ; deux autres auteurs ont également des liens financiers avec Good Analytics ; un des auteurs déclare être conseiller pour LifeLink qui est un ChatBot utilisé dans le domaine de la santé ; un autre auteur déclare être conseiller et posséder des parts de Doximity, un service de mise en réseau en ligne et de télémédecine pour les professionnels de la santé ; d’autres liens ont été déclarés mais sans indice d’éventuel risque de biais pour cette étude.

Discussion

Évaluation de la méthodologie

Cette étude observationnelle transversale originale, d’actualité vu l’engouement pour ChatGPT, présente des faiblesses méthodologiques relativement importantes. Tout d’abord, il y a peu d'informations sur la sélection aléatoire des questions et des réponses qui ont été retenus pour cette étude. Cela ne permet donc pas d’exclure l’éventualité d’un biais de sélection. Nous n’avons pas non plus retrouvé d’informations claires sur les critères d’éligibilité des questions retenues. Une autre limite concerne plutôt la taille de l’échantillon de questions/réponses étudié qui reste très faible par rapport au nombre d’utilisateurs inscrits sur le forum d’un peu moins de 500000 au moment de la réalisation de l’étude. À noter que l'échantillon cible de l’étude était de 200 questions, en supposant une puissance de 80 % pour détecter une différence de 10 points de pourcentage entre les réponses du médecin et celles du chatbot (45 % contre 55%). Un possible conflit d'intérêt ne peut être exclu avec certitude puisque des auteurs entretiennent des liens très étroits avec des entreprises opérant dans le domaine de l'informatique appliquée aux soins de santé. Ce facteur soulève des questionnements quant à la validité de l'évaluation des réponses fournies. En effet, la structure des réponses produites par ChatGPT peut être identifiée avec une relative facilité. La présence d'un nombre restreint d'évaluateurs et les liens déclarés avec des entreprises pourraient suggérer que les auteurs possèdent une certaine familiarité avec l'utilisation des nouvelles technologies. Par conséquent, la simple mise en aveugle des réponses ne semble pas constituer une mesure suffisante pour garantir un processus d'investigation réellement en aveugle. Concernant les critères d’évaluations principaux (qualité et empathie de la réponse), les évaluateurs ne se sont pas basés sur des critères d’évaluation standardisés. En effet, la question “Quelle réponse semble meilleure ?” reste assez vague. Les auteurs ne précisent pas si les réponses sont comparées à des guides de pratiques ou des recommandations. Il n’est pas précisé si des précautions ont été prises pour s’assurer d’une concordance inter-observateurs et d’une cohérence dans la méthode d’évaluation. Une faible concordance entre les évaluateurs pourrait entraîner des résultats peu fiables et peu reproductibles. La longueur de la réponse a été évaluée afin de savoir si des réponses plus longues peuvent être interprétées comme étant de meilleure qualité et plus empathiques. D'autres facteurs de confusion doivent être pris en compte, comme le niveau de maîtrise de l'anglais du médecin rédacteur, son expertise dans le domaine abordé par la question ou encore des facteurs culturels concernant l’empathie ressentie. On peut aussi imaginer qu’une certaine lassitude puisse s’installer chez un humain répondant sur un forum de santé, ce qui ne sera pas le cas de la machine. Pour ce critère "empathie", des jurés patients auraient peut-être été plus pertinents. Enfin, le contexte spécifique d’un forum public peut difficilement être comparé au contexte plus professionnel et plus intime d’un médecin répondant à un patient qui lui a posé une question par voie électronique. Le groupe contrôle correspondant aux médecins ayant répondu aux publications pourrait donc ne pas être représentatif de la réalité.

Interprétations des résultats

Selon les résultats de cette étude, les réponses fournies par ChatGPT-3.5 semblent plaire davantage aux évaluateurs sur les critères retenus par les auteurs et ce de manière statistiquement significative. De manière plus générale, les réponses plus longues sont perçues comme étant de meilleure qualité même si, à longueur équivalente, les réponses fournies par l’IA restent préférées aux réponses fournies par les médecins.

Que disent les guides de pratique clinique ?

L’utilisation de l’intelligence artificielle ne semble pas encore être intégrée aux guides de bonne pratique clinique.

Conclusion de Minerva

Références

What is ChatGPT ? [Internet, site web consulté le 24/08/2023]. URL:
https://help.openai.com/en/articles/6783457-what-is-chatgpt
Ayers JW, Poliak A, Dredze M, et al. Comparing physician and artificial intelligence chatbot responses to patient questions posted to a public social media forum. JAMA Intern Med 2023;183:589-96. DOI: 10.1001/jamainternmed.2023.1838
URL: https://good-analytics.org/

Auteurs

Saubry MI.
assistant en médecine générale, UCLouvain
COI : Absence de conflits d’intérêt avec le sujet.

Mots-clés

empathie, information du patient, intelligence artificielle, médias sociaux, prestation des soins de santé

Glossaire

Code

Z91
A99

SOIRÉE PORTES OUVERTES - Rencontre avec Minerva

Le 16 mai à 18 h - Evénement en ligne gratuit

Inscrivez-vous ici.