No tardando desaparecerán los mandos a distancia, los botones para apagar la calefacción y muchas de las teclas que apretamos a diario. Porque en vez de tocarlas, a las máquinas les hablaremos.

Si las pantallas táctiles fueron la novedad hace diez años, desde el lanzamiento del iPhone en 2007, la voz es la siguiente gran revolución que transformará la manera de relacionarnos con la tecnología.

Amazon y Google han empezado a comercializar asistentes virtuales para el hogar (a España aún no han llegado), una especie de altavoces de sobremesa cada vez más listos a los que lo mismo se les puede pedir que apaguen las luces, que pidan una pizza, o preguntar qué reuniones tienes hoy. Son el caballo de Troya de la inteligencia artificial en nuestra vida cotidiana.

“Vamos a ver cambios importantes en los hogares conectados. Y la voz va a jugar un papel fundamental. Será el método primario para comunicarnos con la tecnología”, explica Pilar Manchón, directora de Cognitive Interfaces de Amazon, desde su oficina de Silicon Valley.

También Siri, el asistente de Apple, está intentando ponerse al día y en su última actualización, ya se le puede pedir al iPhone que lea los mensajes de Whatsapp sin tener que echar mano del teléfono.

“La evolución de nuestra relación con lo digital hasta ahora ha estado vinculada al texto y las pantallas, pero el futuro natural de la interacción con las máquinas es la voz”, afirma Pepe Cerezo, especialista en estrategia y desarrollo de negocios digitales y director de Evoca Media. “El ser humano es así. Primero tocas las cosas, luego hablas con ellas y luego las piensas. Es lógico, porque hablar es más intuitivo que tocarlas”.

Cuantos más electrodomésticos o dispositivos del hogar estén conectados, más útiles serán los asistentes y lo mismo servirán para calentar el horno que para añadir papel higiénico a la lista de la compra. Whirlpool ha presentado una lavadora conectada controlada con la voz compatible con Alexa, LG ya dispone de una nevera en la que hacer pedidos de viva voz y cada vez más móviles salen al mercado siendo compatibles con este sistema.

En esta carrera por conquistar el hogar inteligente, otro de los protagonistas es Google Home. Este asistente con forma de lámpara minimalista  puede encender y apagar luces, poner la música que se le pida, subir persianas o abrir la puerta sin mover un dedo si alguien llama al telefonillo. Y, poco a poco, ha ido incorporando nuevas funciones.

“Estamos viendo interés en actividades diarias como tocar música, actualizaciones de la agenda o simplemente preguntar por un resultado deportivo”, dice Yury Pinsky, gerente de Producto Google Assistant. “También estamos viendo un gran interés en el espacio, ya que la voz es una forma sencilla de controlar las luces y otros dispositivos de la casa. El próximo paso es dar a los usuarios más y más funciones que les ayuden a obtener respuestas de Google y hacer las cosas, todas con las manos libres”.

De momento, tanto Google Home como el Echo de Amazon fueron el regalo revelación de las pasadas Navidades en Estados Unidos. Pero da igual si estos nuevos dispositivos, que cuestan entre 100 y 250 dólares según el modelo, consiguen convertirse en el éxito de ventas global que el mercado pronostica para ellos (según la firma de análisis RBC sólo Alexa podría generar para Amazon 10.000 millones de dólares de beneficio para 2020). Lo interesante es que esta tecnología aspira a cambiar la forma en relacionarnos con todo lo demás.

La carrera no sólo está por el control del hogar inteligente. También ha llegado a los coches, que ya están incorporando los asistentes virtuales. Ford, Volkswagen y Volvo han optado por Alexa; Nissan por Cortana de Microsoft. Y al entrar en un Tesla, que ya es más valiosa en bolsa que General Motors, se le puede pedir sólo con la voz a uno de sus vehículos semi autónomos dónde quiere uno que le lleve y el navegador marca la ruta en el mapa automáticamente. El siguiente paso es que tampoco hagan falta las manos al volante porque se conduzca totalmente solo.

“En la próxima década hablaremos con las máquinas como modo primario de acceder a los servicios”, explica Nuria Agell, directora del departamento de Operaciones, Innovación y Data Sciences de Esade.  “Los sistemas de reconocimiento de voz estarán por todas partes, no sólo en casa o en el trabajo. Y se irán personalizando, porque cuanto más interactúes con la máquina, mejor te irá conociendo y te puede aconsejar”.

Para que esta tecnología triunfe, todavía necesita ganar mayor fiabilidad. “Hace años que ya se puede hablar a las máquinas con sistemas como Siri y similares, pero a mucha gente no le gusta”, afirma Germán Ruipérez, catedrático de Filologías Extranjeras y director de Laboratorio de Ingeniería Didáctica e Ingeniería Lingüística de la UNED. “Uno de los mayores obstáculos para su instalación generalizada, además del componente cultural, es la fiabilidad. Aquí un 90% no es suficiente. Si el sistema de reconocimiento de voz para smartphones se equivoca y no me marca el número de la persona que le pido, ya no lo uso más. No es lo mismo tolerar errores en una traducción del chino, porque ahí el usuario tolera mejor que el resultado sea imperfecto”.

‘Relaxing cup of café con leche’

Los avances en la tecnología del habla también están haciendo posible la aparición de traductores simultáneos que funcionan con la voz. Algunos como Pilot, un pinganillo conectado al smartphone que llevándolo en la oreja aspira a traducir cualquier conversación para el viajero en tiempo real, todavía está en fase de pruebas pero promete llegar al mercado después del verano.

“Los programas de traducción automática, igual que el resto de tecnologías de la voz, están mejorando mucho”, afirma Eduardo Negueruela, director del Instituto de Lengua y Cultura Españolas (ILCE) de la Universidad de Navarra. “Pero todavía está lejos de ser mejor que los traductores humanos porque lo que hace la inteligencia artificial es simular la comunicación, pero no entiende las ambigüedades del idioma. Una máquina no tiene intencionalidad. Yo te puedo decir hace frío y puede significar que abras la ventana o que te pongas una bufanda. Y a un ordenador le tienes que dar el mensaje directo”.

Sin embargo, por más que todavía sean imperfectos, cada más expertos advierten de que puede que en el futuro no tenga sentido dedicar tanto tiempo al aprendizaje de idiomas si ya lo va hacer un aparato. “Una parte importante de ese esfuerzo deberá replantearse”, dice Ruipérez. “El usuario va a poder acceder a más lenguas que antes de forma oral, igual que ya lo hacemos con el Google Translator. Al diseñar la formación de una persona, habrá que priorizar teniendo en cuenta las tareas que ya va a hacer una máquina. El inglés será necesario, ¿pero realmente merece la pena dedicarle mucho tiempo a aprender chino? Pues es muy posible que no, al menos si se necesita sólo como turista”.

La búsqueda de mejoras para este tipo de tecnología tiene muchas derivadas más allá del aprendizaje de idiomas. “Nosotros estamos trabajando en un proyecto para identificar cuándo habla cada uno en una reunión, porque todavía diferenciar voces es muy difícil”, explica José Manuel Pardo, director del Grupo de Tecnología del Habla, departamento de Ingeniería Electrónica de la Universidad Politécnica Madrid. “También estamos avanzando en el reconocimiento automático de grabaciones de radio, que en el futuro serviría para buscar información en una grabación que no está escrita. Como un Google de la voz al que pedirle: “Búscame cuando alguien diga Pepito en esa grabación”.

La tecnología actual de traducción simultánea todavía tiene muchas limitaciones. “Si por ejemplo le dices ‘Relaxing cup of café con leche’ no lo entendería, porque no pueden cambiar de idioma automáticamente”, añade Pardo. “Pero esto está evolucionando. También antes había que hablar con micro cercano a la boca a cualquier aparato, pero cada vez son mejores eliminando el ruido externo”.

¿Y dónde estarán los anuncios?

Si uno busca en Google qué restaurante italiano tiene cerca de casa escribiéndolo en el móvil o en el ordenador, la búsqueda mostrará los resultados junto a unos cuantos anuncios. Si se lo pregunta al altavoz de Google Home, dará una o dos respuestas nada más y sin anuncios. Esto, claro, pone a prueba todo el modelo de negocio del buscador.

Hasta ahora, Google no ha explicado cómo va a traducir en beneficios su apuesta por la voz, pero ya hay pistas. En marzo, Google experimentó introduciendo en su función de calendario el anuncio de un estreno cinematográfico. Cuando los usuarios preguntaban a su asistente cómo tenían el día (la función por la que lo mismo te comenta la agenda personal que el tiempo que hace), además de sus próximas citas les comentaba, como quien no quiere la cosa, el estreno de la película La Bella y la Bestia. “Es una manera de monetizarlo, pero este tipo de usos abren polémica a la hora de hasta qué punto puede Google inmiscuirse en la vida privada mezclando datos personales con anuncios”, afirma Enrique Dans, profesor de Innovación de IE Business School.

El negocio de Amazon con Alexa está mucho más claro: vender más. Más fácil todavía que a un clic de distancia es, para el gigante del comercio online, cumplir los deseos que sus clientes le pidan en alto. Da igual que le pidas que ponga un poco de jazz, que ponga una serie o compre más leche. Sale de sus almacenes o de sus servicios de streaming.

Hablaremos a las máquinas de forma cada vez más natural, pero no desaparecerán las pantallas. “Si estás interesado en la población de Barcelona o en si va a llover mañana, la voz ya es la manera más natural y rápida de hacer esas preguntas”, afirma Yury Pinsky, gerente de Producto Google Assistant. “Pero si estás tratando de explorar todas las pinturas que se exhiben en el Guggenheim, da igual cómo de perfecta sea la tecnología de reconocimiento de voz, una pantalla sería una parte importante de la experiencia”.

Ni siquiera todos los expertos tienen tan claro que vayamos a vivir pronto este cambio radical. “Tecnológicamente puede que estemos en un punto de inflexión, pero en la demanda no la veo todavía”, afirma un consultor experto en Telecomunicaciones. “Todavía no queda claro de qué forma estos asistentes de voz te facilitan la vida. Mucha de las utilidades que se describen no son lo suficientemente disruptivas como para llevar a la gente a comprarlos”.

El futuro: cierto miedo

“Ya hay mucha tecnología que todavía no se está incorporando porque la sociedad no está preparada”, dice el catedrático Ruipérez. “Los que nos dedicamos a esto vivimos en un continuo estado de ansiedad para estar al día de todo lo que sale. Ya hay móviles que con mostrarles en la pantalla un cartel en chino que veas por la calle te traduce lo que pone. Esto se creía que sería el gran boom, pero todavía el usuario no lo incorpora, porque no lo ha asimilado. Como la tecnología está avanzando tan rápidamente, hay cierto miedo”.

Esa inquietud se acrecienta si nos paramos a pensar en todo lo que está por venir. “Ya se está trabajando en otras líneas de investigación importantes como la personalización y la anticipación, para que el sistema sea capaz no sólo de reconocerte, sino de aprenderse tu forma de actuar y de contestar, para que pueda anticiparse a las cosas que puedan ser de tu interés”, explica Agell. “Los robots capaces de captar emociones y estado de ánimo pueden suponer una mejora significativa como asistencia y compañía a los mayores, tanto a nivel médico como emocional”.

De funcionar esta línea de investigación, los asistentes de voz llegarían incluso a saber si estamos tristes al llegar a casa, y por tanto también qué es lo que vendernos que nos pueda animar. “Lo mismo podrán proponerme que vaya al cine, que compre chocolate o que llame a mi madre”, dice Argell.

“Amazon no sólo quiere la interfaz conversacional para que compres por voz en Amazon, sino para que conectes cuantas más cosas mejor y saberlo todo de nosotros”, dice Dans. “Es la lucha por el control del hogar inteligente. Y eso dará mucho dinero porque además de vender más, aporta un conocimiento muy valioso. No servirá sólo para retroalimentarse publicitariamente, sino para saber qué venderte directamente. Una vez que sabes lo que el usuario siente y piensa, sabes lo que necesita antes incluso que él”.

Esto también cambiará completamente cómo entendemos la publicidad y el comercio electrónico. “Lo que ahora están investigando estas empresas es cómo hacer que interactuemos con las cosas y así, poco a poco, vayan confluyendo la banca, el ecommerce, la publicidad…”, dice Cerezo. “En vez de ir al cajero, diremos a Alexa que necesitamos dinero; o Alexa, cómprame el cepillo de dientes. O si Google sabe que me voy de viaje, el asistente me dirá dónde están los mejores hoteles y me reservará directamente mientras voy conduciendo”.

Todavía suena un poco raro. Pero también lo era hace sólo diez años que los móviles tuvieran pantallas táctiles y las teles se conectaran a internet. No vamos a extrañarnos a estas alturas porque el mando a distancia tenga los días contados.