
Un estudio de la Universidad de Oxford publicado en la revista Nature Medicine analizó el uso de modelos de lenguaje como ChatGPT para evaluar los síntomas médicos y determinar cursos de acción.
El estudio examinó quién utiliza estas herramientas, cómo interactúan con ellas y qué tan efectivas son en comparación con los métodos tradicionales y concluyó que son La inteligencia artificial aún no puede sustituir la evaluación de un profesional médico.
LEER TAMBIÉN
La investigación fue dirigida por el Oxford Internet Institute y el Departamento Nuffield de Ciencias de la Salud de Atención Primaria de la Universidad de Oxford, en colaboración con MLCommons y otras instituciones. El trabajo identificó una diferencia entre el desempeño de modelos de lenguaje grande (LLM) en pruebas de conocimientos médicos estandarizados y su desempeño al interactuar con personas que consultan sobre síntomas reales.
Según el informe, aunque los sistemas de inteligencia artificial logran puntuaciones altas en las pruebas de referencia, puede causar dificultades a la hora de orientar a los usuarios al describir situaciones personales. Los riesgos identificados incluyen la posibilidad de diagnósticos erróneos y de no identificar casos que requieran tratamiento urgente.
Compararon las decisiones de IA con los métodos de búsqueda tradicionales. Foto:iStock
El estudio implicó un ensayo aleatorio en línea con casi 1.300 participantes, todos médicos. A todos se les presentaron diferentes escenarios clínicos y se les preguntó: 1. Identificar posibles condiciones de salud. 2. Sugerir una acción adecuada. Los casos incluían situaciones como la de un joven con un fuerte dolor de cabeza después de una noche de fiesta o la de una nueva madre con una sensación persistente de dificultad para respirar y fatiga.
Un grupo utilizó una herramienta de inteligencia artificial para decidir cómo responder a los síntomas descritos, mientras que el otro grupo utilizó métodos tradicionales como búsquedas online o su propio criterio profesional. Luego, los investigadores compararon la capacidad de ambos grupos para identificar el problema y seleccionar la respuesta correcta.
Desde la Universidad de Oxford explican: «Quienes utilizaron LLM no tomaron mejores decisiones que los participantes que utilizaron métodos tradicionales como búsquedas en línea o su propio criterio». Al comparar estos resultados con las evaluaciones estándar de LLM, que no implican interacción con usuarios reales, también encontraron que los sistemas funcionaron bien en las pruebas técnicas, pero tenían limitaciones en contextos prácticos”.
Los modelos no superaron a las fuentes tradicionales en la evaluación de los síntomas. Foto:iStock
LEER TAMBIÉN
Advertencias sobre el uso de la IA en la asistencia sanitaria
La Dra. Rebecca Payne de Nuffield Primary Care Health Sciences, médico de cabecera y médico principal del estudio, dijo: «A pesar de todo el revuelo, la IA aún no está lista para asumir el papel de médico. Los pacientes deben ser conscientes de que preguntar a un modelo de lenguaje largo sobre sus síntomas puede ser peligroso, ya que puede conducir a un diagnóstico erróneo y a no reconocer cuándo se necesita ayuda urgente».
La obra también fue identificada Dificultades en la comunicación entre usuarios y sistemas de inteligencia artificial. En varios casos, los participantes no sabían qué información debían proporcionar para obtener una respuesta precisa. Como resultado, las recomendaciones generadas combinaban consejos apropiados e inapropiados, lo que dificultaba elegir el curso de acción correcto.
El autor principal, Andrew Bean, estudiante de doctorado en el Oxford Internet Institute, dijo: «Desarrollar pruebas sólidas para modelos de lenguaje grandes es clave para comprender cómo podemos explotar esta nueva tecnología. En este estudio demostramos que interactuar con personas es un desafío incluso para los estudiantes de LLM más experimentados. Esperamos que este trabajo contribuya al desarrollo de sistemas de IA más seguros y útiles».
Los expertos exigen pruebas reales antes de utilizar la IA en la atención sanitaria. Foto:iStock
El estudio llega a la conclusión de que los mecanismos actuales de evaluación de la inteligencia artificial no reflejan la complejidad de interactuar con personas en situaciones reales. Por lo tanto, Los autores sugieren probar estos sistemas en entornos del mundo real antes de su adopción generalizada.similar a los ensayos clínicos de nuevos medicamentos.
El profesor asociado Adam Mahdi, también autor principal del estudio y miembro del Oxford Internet Institute, dijo: «No podemos confiar únicamente en pruebas estandarizadas para determinar si estos sistemas son seguros para el uso público. Así como necesitamos ensayos clínicos para nuevos medicamentos, los sistemas de IA deben llevar a cabo pruebas rigurosas con usuarios reales y diversos para comprender sus verdaderas capacidades en entornos de alto riesgo como la atención sanitaria».
La Nación (Argentina) / GDA
Más noticias en EL TIEMPO
*Este contenido fue reescrito mediante inteligencia artificial con base en información de La Nación y verificada por un periodista y un editor.