Las personas resolvemos problemas nuevos comparándolos con otros anteriores que ya hemos resuelto. Esta habilidad, conocida como razonamiento analógico, nos permite solucionar muchas dificultades con relativa facilidad, sin necesidad de entrenarnos o practicar para hacer frente a cada nueva cuestión que se nos presente. Durante mucho tiempo se pensó que este proceso era exclusivo de los seres humanos. Pero ahora un nuevo estudio de la Universidad de California, Los Ángeles (EE.UU) sugiere que no es así.

En un artículo, publicado este lunes en la revista Nature Human Behavior, los psicólogos de la universidad demostraron que "sorprendentemente" el modelo de lenguaje de inteligencia artificial Chat GPT-3 responde igual de bien que los estudiantes universitarios cuando se le pide que resuelva problemas de razonamiento similares a los que suelen aparecer en pruebas de inteligencia como el SAT (el examen de admisión universitaria que se realiza en EEUU).

Estos resultados han hecho que los autores del estudio se pregunten si GPT-3 es capaz de imitar el razonamiento humano gracias al entrenamiento de lenguaje que ha recibido o está, simplemente, utilizando un nuevo tipo de proceso cognitivo. Una pregunta imposible de responder porque el funcionamiento interno de Chat GPT-3, que está protegido por OpenAI -la compañía que lo creó- es todo un misterio. Así que los científicos no pueden saber cómo funcionan sus habilidades de razonamiento. 

Una tecnología que comete errores humanos

Los autores pusieron a prueba a la inteligencia artificial de distintas formas. En primer lugar probaron la capacidad de GPT-3 de resolver un conjunto de problemas inspirados en una prueba conocida como Matrices Progresivas de Raven, en las que el sujeto debe intentar predecir la próxima imagen en una complicada disposición de formas. 

Para permitir que GPT-3 'vea' las formas, los científicos convirtieron las imágenes a un formato de texto que GPT-3 podía procesar. Un sistema que, además, también garantizó que la IA nunca se había entrenado con esas preguntas antes.

Posteriormente, los investigadores pidieron a 40 estudiantes universitarios de la universidad californiana que resolvieran los mismos problemas. "Sorprendentemente, GPT-3 no solo funcionó igual de bien que los humanos, sino que también cometió errores similares", aseguró el profesor de psicología Hongjing Lu, autor principal del estudio.

GPT-3 resolvió correctamente el 80 % de los problemas. Un dato muy por encima de la puntuación media de los sujetos humanos (que se ubica justo por debajo del 60%), pero dentro del rango de las puntuaciones humanas más altas.

Además, los investigadores también solicitaron a GPT-3 que resolviera un conjunto de preguntas de analogía del SAT que creen que nunca se habían publicado en Internet (lo que significa que es poco probable hayan sido parte de los datos de entrenamiento de GPT-3). Las preguntas piden a los usuarios que seleccionen pares de palabras que comparten el mismo tipo de relación. Por ejemplo, si te dicen 'Amar' la respuesta es 'Odiar'. Y si te dicen 'Rico', la solución sería 'Pobre'. En este caso, de nuevo, el desempeño de la IA fue mejor que el puntaje promedio de los humanos.

Por último, los investigadores pidieron a GPT-3 y a los estudiantes voluntarios que resolvieran analogías basadas en cuentos cortos, en el que tenían que leer un pasaje de la historia y luego identificar una historia diferente que transmitiera el mismo significado. En este caso a la tecnología le fue peor que a los estudiantes. Aunque GPT-4, la última versión de la tecnología de OpenAI, funcionó mejor que GPT-3.

Limitaciones de GTP-3

Sin embargo, el estudio también explica que, aunque GPT-3 funciona mucho mejor de lo que esperaban en algunas tareas de razonamiento, la popular herramienta de IA sigue fallando estrepitosamente en otras.

"No importa cómo de impresionantes sean nuestros resultados, es importante enfatizar que este sistema tiene limitaciones importantes", explicó Taylor Webb, investigadora posdoctoral en psicología y primera autora del estudio. "GTP-3 puede hacer un razonamiento analógico, pero no puede hacer cosas que son muy fáciles para las personas, como usar herramientas para resolver una tarea física. Cuando le dimos ese tipo de problemas, algunos de los cuales los niños pueden resolver rápidamente, las cosas que sugirió no tenían sentido".

Los resultados del estudio sugieren que GPT-3 hasta ahora no ha podido resolver problemas que requieren comprender el espacio físico. Por ejemplo, si se le proporcionaban descripciones de un conjunto de herramientas (digamos, un tubo de cartón, tijeras y cinta adhesiva) que podría usar para transferir chicles de un taza a otra, GPT-3 proponía soluciones extrañas.

Incógnitas de la IA

"Los modelos de aprendizaje de idiomas sólo intentan hacer predicciones de palabras, por lo que nos sorprende que puedan razonar", afirmó Lu. Y añadió: "Durante los últimos dos años, la tecnología ha dado un gran salto desde sus versiones anteriores".

Esa impresionante evolución es lo que ha llevado a preguntarse a los científicos si los modelos de aprendizaje de idiomas están comenzando a "pensar" como humanos o si están haciendo algo completamente diferente que simplemente imita el pensamiento humano.

"GPT-3 podría pensar como un humano. Pero, por otro lado, las personas no han ingerido todo el conocimiento de Internet, por lo que el método de capacitación es completamente diferente. Nos gustaría saber si realmente lo está haciendo como lo hace la gente, o si es algo completamente nuevo, una inteligencia artificial real, que sería increíble por derecho propio", aseveró Keith Holyoak, coautor del estudio.

"Sería muy útil para los investigadores cognitivos y de inteligencia artificial tener acceso al sistema de los modelos GP", dijo Webb. Algo que, consideran, sería trascendental para decidir en qué debería convertirse la IA.