Las posturas, las gesticulaciones con las manos o las interacciones con otros cuerpos. Son aspectos del lenguaje corporal que, hasta ahora, se le resistían a las máquinas que pretendían interpretar las relaciones humanas. Investigadores del Instituto de Robótica e IA de la Universidad Carnegie Mellon acaban de presentar el primer programa capaz de hacerlo en tiempo real. Entre sus creadores, un español, el experto en visión robótica y aprendizaje de máquinas Ginés Hidalgo.

Este nuevo método fue desarrollado con la ayuda inicial del estudio Panoptic, una cúpula de dos pisos integrada con 500 cámaras de video. Los conocimientos obtenidos de los experimentos en esa instalación permiten ahora detectar la pose de un grupo de personas (incluyendo, por primera vez, las manos y los dedos de cada individuo.) usando una sola cámara y un ordenador portátil.

Aquó se puede ver que el software es capaz de detectar cada interacción social en una cafetería, una sala de danza o la calle. Vídeo: Mario Viciosa | Univ. Carnegie Mellon

 

Yaser Sheikh, profesor asociado de robótica, señala que estos métodos para el seguimiento de la forma humana en dos dimensiones y su movimiento “abren nuevas formas para que las personas y las máquinas interactúen entre sí y para que las personas usen máquinas para comprender mejor el mundo que las rodea”. La capacidad de reconocer las poses de las manos, por ejemplo, hará posible comunicarse con las computadoras simplemente señalando las cosas.

El simple uso de programas que rastrean la postura de un individuo no funciona bien cuando se aplica a cada individuo de un grupo. Sheikh y sus colegas adoptaron un enfoque “de abajo hacia arriba”, que primero localiza todas las partes del cuerpo en una escena (brazos, piernas, rostros, etc. ) y luego asocia esas partes a individuos particulares.

Las computadoras son más o menos ciegas al movimiento de nuestros cuerpos

Los desafíos para la detección de la mano son mayores. A medida que las personas las usan para sostener objetos y hacer gestos, es improbable que una cámara vea todas las partes de la mano al mismo tiempo.

Pero para cada imagen que muestra sólo una parte de la mano, a menudo existe otra imagen desde un ángulo diferente con una vista completa o complementaria de la mano- Ahí es donde los investigadores fueron capaces de hacer uso de CMU multi-cámara Panoptic Studio.

De robots asistenciales, al coche autónomo

Detectar los matices de la comunicación no verbal entre individuos permitirá a los robots servir en los espacios sociales, permitiendo a éstos percibir lo que la gente a su alrededor está haciendo, en qué estados de ánimo se encuentra y si los individuos pueden ser interrumpidos.

Un automóvil de conducción autónoma podría tener una alerta temprana ante un peatón está a punto de entrar en la calle mediante el control del lenguaje corporal. Hacer a las máquinas que comprendan el comportamiento humano también podría permitir nuevos enfoques para el diagnóstico de conducta y la rehabilitación, para condiciones como el autismo, la dislexia y la depresión, señalan los autores.

“Nos comunicamos casi tanto con el movimiento de nuestros cuerpos como lo hacemos con nuestra voz”, apunta Sheikh. “Pero las computadoras son más o menos ciegas a ella.

En analítica deportiva permitirá saber lo que hacen los jugadores con su cuerpo en cada momento del partido

En la analítica deportiva, la detección de poses en tiempo real hará posible que las computadoras rastreen no sólo la posición de cada jugador en el campo de juego, como es ahora el caso, sino que sepan lo que hacen los jugadores con sus brazos, piernas y cabezas en cada momento. Los métodos se pueden utilizar para eventos en vivo o aplicados a videos grabados.

Para alentar más investigaciones y aplicaciones, los investigadores han publicado su código tanto para la estimación de varias personas y manos. Ya está siendo ampliamente utilizado por los grupos de investigación. Más de 20 grupos comerciales, incluyendo compañías de automoción, han expresado interés en licenciar esta tecnología.