Cuidado con preguntarle a ChatGPT sobre su salud: así es como mete la pata

Un nuevo estudio cuestiona la fiabilidad de las herramientas de IA generativa en materia de salud. Los datos que dan son «imprecisos e incompletos» Leer Un nuevo estudio cuestiona la fiabilidad de las herramientas de IA generativa en materia de salud. Los datos que dan son «imprecisos e incompletos» Leer  

¿Ante una molestia en el hombro, un dolor de cabeza persistente o una punzada al caminar, usted es de los que corre a consultar los síntomas en ChatGPT? ¿Le plantea sus dudas a este tipo de chatbots y sigue a pies juntillas las indicaciones que le sugiere? Si es así, no se confíe. Un estudio cuestiona esta semana la fiabilidad de estas herramientas en materia de salud. Según sus datos, gran parte de la información médica que proporcionan es «imprecisa» e «incompleta».

Los autores de esta investigación, publicada en el último número de la revista BMJ Open, eligieron en primer lugar cinco populares modelos de lenguaje de inteligencia artificial avanzados -Gemini (Google), DeepSeek (High-Flyer), Meta AI (Meta), ChatGPT (OpenAI) y Grok (xAI)-. Con el objetivo de evaluar su capacidad de aportar información correcta y datos precisos sobre cuestiones de salud, les plantearon a estos chatbots 250 preguntas sobre cinco categorías: cáncer, vacunas, células madre, nutrición y rendimiento deportivo. Las preguntas, formuladas como haría cualquier persona con dudas, eran tanto abiertas como cerradas. Algunas de ellas estaban planteadas específicamente para comprobar si la tecnología tendía a la desinformación o, en cambio, optaba por proporcionar información basada en la evidencia científica.

Los resultados del trabajo mostraron que la fiabilidad era dudosa en gran parte de los casos.

Los científicos, investigadores de la Universidad Wake Forest (EEUU), clasificaron las respuestas proporcionadas por la IA como no problemáticas, moderadamente problemáticas o altamente problemáticas. La definición básica de la que partieron fue que una respuesta problemática era aquella que podía dirigir a usuarios no expertos hacia un tratamiento potencialmente ineficaz u orientarles hacia una indicación potencialmente dañina si se seguía sin orientación profesional.

La evaluación prestó especial atención a si los chatbots proporcionaban un falso equilibrio entre datos basados en la evidencia científica y afirmaciones sin ningún rigor.

Los resultados mostraron que nada menos que el 50% de las respuestas proporcionadas por las herramientas de IA recibían la calificación de «problemáticas» y el 20% de estas se consideraban «altamente problemáticas».

Según los datos del trabajo, el modo en que se formularon las preguntas resultó clave para el resultado. Así, las preguntas abiertas condujeron en muchas más ocasiones que las cuestiones cerradas a una respuesta errónea.

Los investigadores también destacan que, aunque la calidad de las respuestas apenas difería entre los cinco chatbots, sí se observaron ciertas diferencias entre los modelos. De este modo, el chatbot que generó más respuestas altamente problemáticas fue Grok, mientras que Gemini fue el que menos errores cometió.

Las áreas en las que la información proporcionada por la IA fue más precisa fueron las relacionadas con las vacunas y el cáncer, mientras que en las que más desinformación aportaron fue al contestar las cuestiones relacionadas con las células madre, el rendimiento deportivo y la nutrición.

En sus conclusiones, los investigadores reconocen que su trabajo solo ha analizado cinco chatbots y que la tecnología avanza rápidamente, por lo que los resultados obtenidos podrían no replicarse en otras evaluaciones. No obstante, también destacan que lo que sugieren las conclusiones de su trabajo es que la utilización masiva de estos chatbots puede conducir a que se difunda desinformación. «Se necesita educación, entrenamiento profesional y vigilancia regulatoria para asegurar que la IA generativa apoye la salud pública en lugar de erosionarla», concluyen en un comunicado.

 Salud // elmundo

Más Noticias