Ni los radiólogos ni los modelos de inteligencia artificial más avanzados son capaces de distinguir con facilidad radiografías auténticas de imágenes “deepfake” generadas con ChatGPT, según un estudio publicado en la revista Radiology, de la Sociedad Norteamericana de Radiología (RSNA, por sus siglas en inglés). Los autores alertan de que esta vulnerabilidad abre la puerta a fraudes médicos y litigios basados en pruebas falsas, así como a graves riesgos de ciberseguridad en hospitales 

El trabajo, liderado por Mickael Tordjman, investigador posdoctoral en la Icahn School of Medicine at Mount Sinai (Nueva York), demuestra que las radiografías falsas son tan realistas que logran engañar incluso a especialistas altamente entrenados, aun cuando saben que hay imágenes generadas por IA en el conjunto evaluado. “Esto crea una vulnerabilidad de alto riesgo para litigios fraudulentos si, por ejemplo, una fractura fabricada resultara indistinguible de una real”, señala Tordjman, que también advierte de la posibilidad de que piratas informáticos inyecten imágenes falsas en los sistemas de los hospitales para manipular diagnósticos o sembrar el caos clínico. 

En el estudio participaron 17 radiólogos de 12 centros en seis países (Estados Unidos, Francia, Alemania, Turquía, Reino Unido y Emiratos Árabes Unidos), con experiencias profesionales de entre 0 y 40 años. Se analizaron 264 radiografías, la mitad auténticas y la otra mitad generadas por IA, agrupadas en dos conjuntos: uno con imágenes reales y sintéticas de distintas regiones anatómicas creadas con ChatGPT, y otro con radiografías de tórax reales y falsas producidas con RoentGen, un modelo de difusión generativa de código abierto desarrollado por investigadores de Stanford . 

Cuando los radiólogos desconocían el verdadero objetivo del estudio y solo debían valorar la calidad técnica de las imágenes, únicamente el 41% identificó de forma espontánea la presencia de radiografías generadas por IA. Una vez informados de que el conjunto incluía imágenes sintéticas, su precisión media para distinguir radiografías reales de falsas aumentó al 75%, pero los aciertos variaron entre el 58% y el 92%. Ninguno acertó todas. 

Los investigadores compararon también el rendimiento de cuatro grandes modelos multimodales de lenguaje: GPT-4o y GPT-5 (OpenAI), Gemini 2.5 Pro (Google) y Llama 4 Maverick (Meta). Su precisión al detectar radiografías generadas por ChatGPT varió entre el 57% y el 85%, y, aunque GPT-4o -modelo utilizado para crear parte de los fakes- fue el que mejor desempeño mostró, tampoco logró identificar todas las imágenes sintéticas. En el caso de las radiografías de tórax creadas con RoentGen, la precisión de los radiólogos se situó entre el 62% y el 78%, mientras que la de los modelos de IA osciló entre el 52% y el 89% 

El estudio no encontró relación entre los años de experiencia y la capacidad para detectar radiografías falsas, pero sí observó que los radiólogos especialistas en aparato musculoesquelético mostraron una precisión significativamente mayor que otros subespecialistas. Los autores identificaron patrones comunes en las imágenes sintéticas: “Las radiografías fake suelen parecer demasiado perfectas; los huesos se ven excesivamente lisos, las columnas vertebrales anormalmente rectas, los pulmones demasiado simétricos, los vasos sanguíneos muy uniformes y las fracturas inusualmente limpias y consistentes, a menudo limitadas a un solo lado del hueso”, describe Tordjman 

Para reducir el riesgo de manipulación y diferenciar con claridad las imágenes reales de las falsas, los investigadores recomiendan reforzar las medidas de seguridad digital. Entre las soluciones propuestas figuran el uso de marcas de agua invisibles que integren datos de propiedad o identidad directamente en la imagen y la incorporación automática de firmas criptográficas vinculadas al técnico que realiza la prueba en el momento de la adquisición 

Tordjman advierte además de que la amenaza podría ir en aumento con la evolución de la tecnología. “Es posible que solo estemos viendo la punta del iceberg”, afirma, señalando que el siguiente paso lógico será la generación sintética, mediante IA, de imágenes 3D como las de tomografía computarizada (TC) y resonancia magnética (RM), por lo que considera “crítico” desarrollar desde ahora bases de datos educativas y herramientas específicas de detección.