La startup Physical Intelligence, con sede en San Francisco, ha presentado una investigación que marca un nuevo hito en la robótica moderna. Su último modelo, el denominado π0.7, ha demostrado que posee la capacidad de dirigir a robots que realicen tareas para las que nunca antes fueron entrenados. Un avance que ha sorprendido incluso a los propios desarrolladores de la compañía.
Este progreso sugiere que la robótica podría estar alcanzando su propio punto de inflexión, similar al que vivieron los modelos de lenguaje (como GPT), donde las capacidades comienzan a crecer de manera exponencial y superan a las predicciones que se basaban en los datos recolectados previamente.
De la memorización a la "mezcla" de habilidades
Hasta ahora, el estándar en el entrenamiento de robots era la memorización mecánica: para cada nueva tarea, se debían recopilar datos específicos y entrenar un modelo que debía especializarse en esta tarea. Eso era antes, ahora, el modelo π0.7 ha roto con este esquema gracias a la llamada generalización compositiva.
La clave en esta nueva propiedad permite al sistema robótico combinar habilidades aprendidas en diferentes contextos para resolver problemas que a priori le son desconocidos. Según Sergey Levine, cofundador de la empresa y profesor de la UC Berkeley, explica que hemos pasado de un sistema donde "más datos significan cada vez un poco más de habilidad" a uno donde "más datos desbloquean muchísimas habilidades nuevas de golpe". Es el mismo fenómeno que ocurrió con ChatGPT de repente, el modelo empezó a escribir códigos o poemas no porque hubiera sido entrenado específicamente para eso, sino porque acumuló tantos datos que aprendió a conectar los puntos por sí mismo.
El experimento de la freidora de aire
La prueba más reveladora del estudio involucró una freidora de aire, un electrodoméstico prácticamente ausente en el entrenamiento del robot. Este solo contaba con dos referencias, una máquina cerrando la puerta de una freidora de aire y otro robot introduciendo una botella en un espacio similar. A pesar de esta escasez de información, el modelo sintetizó esos fragmentos con conocimientos generales obtenidos de la web para comprender el funcionamiento del aparato. Aunque inicialmente la tasa de éxito fue de apenas un 5%, los investigadores aplicaron instrucciones verbales paso a paso —similar a cómo se explicaría una tarea a un nuevo empleado— logrando elevar la efectividad al 95% en solo media hora.
Limitaciones y potencial real
A pesar del entusiasmo, la compañía mantiene una postura cautelosa. El modelo aún presenta restricciones importantes ya que no es totalmente autónomo y además aún requiere cierta guía para indicarle algunos pasos intermedios. No obstante, los creadores defienden que, aunque ver a un robot doblando ropa o cerrando la caja de un airfryer parezca menos impresionante que una acrobacia coreografiada, la capacidad de enfrentarse a un objeto nuevo y saber qué hacer con él sin que un humano tenga que escribir código desde cero es lo más impresionante del logro.
Una apuesta de 5.600 millones de dólares
El potencial de Physical Intelligence no ha pasado desapercibido para los inversores. Este tipo de empresas cada vez pujan más sobre aquellas que se dedican a realizar modelos puramente de IA, así es como la startup ha recaudado más de 1.000 millones de dólares y cuenta con una valoración actual de 5.600 millones, la cual podría duplicarse en una próxima ronda de financiación.
A pesar de no haber fijado un calendario estricto para la comercialización de este cerebro robótico, la velocidad a la que el sistema está adquiriendo nuevas capacidades ha superado las expectativas de los expertos de San Francisco, consolidando a π0.7 como un paso inicial pero significativo hacia el objetivo de crear un cerebro robótico autónomo.
Te puede interesar