Hospitales Mass General Brigham en Boston, advierte que los modelos de inteligencia artificial más avanzados aún no están preparados para sustituir a los médicos. Tras evaluar 21 de los sistemas más potentes del mercado —incluyendo GPT-5, Grok 4 y Gemini—, los investigadores concluyeron que, aunque estas herramientas son sumamente precisas para dar un veredicto final con datos completos, fallan críticamente en las etapas iniciales del proceso diagnóstico.
El análisis, publicado en JAMA Network Open, revela que la IA tiene serias dificultades para realizar el diagnóstico diferencial, que es la capacidad de considerar múltiples posibilidades cuando la información es escasa. Mientras que los modelos acertaron más del 90% de las veces al tener el expediente completo, fallaron en más del 80% de las ocasiones al intentar razonar sobre casos abiertos o con datos limitados, como simples síntomas iniciales.
Para medir esta competencia, el equipo desarrolló la métrica PrIME-LLM, que evalúa el razonamiento médico paso a paso. Los resultados mostraron que, si bien la tecnología mejora constantemente —con GPT-5 y Grok 4 alcanzando una puntuación del 78%—, sigue careciendo de la intuición necesaria para navegar por la incertidumbre clínica. Esta metodología permitió confirmar que los modelos más nuevos superan a sus predecesores, pero todavía dependen de la presencia de datos no textuales para mejorar su precisión.
Finalmente, los autores del estudio enfatizan que la IA debe ser vista como un complemento y no como un reemplazo del profesional humano. Marc Succi, director de la incubadora MESH, señaló que los modelos actuales no pueden replicar el "arte de la medicina" y requieren supervisión constante. En conclusión, la inteligencia artificial funciona como una poderosa herramienta de apoyo siempre que el médico mantenga el control del razonamiento clínico.
Noticias Venevision, EFE